Hallo zusammen,
ich bin gerade am Testen Proxmox 4.4 HA mit Ceph Hammer. Das ganze im 3 Node Cluster. Derzeit bin ich bei Crash Tests. Da ich kein Ceph-Forum gefunden habe, probiere ich es mal hier.
Die Einstellungen des RBD sind 3/2 bzw. 3/1.
Dabei fiel auf: Wenn 2 der 3 Nodes down sind, reagiert Ceph quasi überhaupt nicht mehr. Es hagelt bei "ceph status" massig Fehlermeldungen über nicht erreichbare Nodes. Es wird eigentlich kein Befehl wirklich angenommen. Das ist bei der Einstellung 3/2 nicht weiter überraschend, aber bei 3/1 hat es mich doch etwas verwundert.
Ein Versuch die zwei fehlenden Nodes neu zu installieren und dem Cluster und Ceph wieder hinzuzufügen hat nicht funktioniert. Proxmox hatte der Cluster wieder gefunden, aber bei Ceph kam ich nicht weiter. Schon die MON Erstellung funktioniert nicht fehlerfrei.
Es stellt sich also die Frage wie man bei einem GAU das 2 von 3 Nodes weg sind, den letzten Node soweit online bringt, dass man im Cluster die fehlenden Nodes durch neue Installationen der alten Maschinen, mit oder ohne Übernahme des Inhaltes der OSD, wiederherstellt.
Hat das schon mal jemand gemacht? Gibt es irgendwo eine Anleitung für solch einen Fall?
P.S.
Ja CEPH aka Multiserver-RAID1 in diesem Fall ist kein Backup. Das läuft noch zusätzlich. Aber warum alles neu aufbauen und zurückspielen, wenn es evtl. doch mit einer Reparatur geht. Das soll halt mal probiert werden.
Vielen Dank im Voraus.
Gruß
Andreas
ich bin gerade am Testen Proxmox 4.4 HA mit Ceph Hammer. Das ganze im 3 Node Cluster. Derzeit bin ich bei Crash Tests. Da ich kein Ceph-Forum gefunden habe, probiere ich es mal hier.
Die Einstellungen des RBD sind 3/2 bzw. 3/1.
Dabei fiel auf: Wenn 2 der 3 Nodes down sind, reagiert Ceph quasi überhaupt nicht mehr. Es hagelt bei "ceph status" massig Fehlermeldungen über nicht erreichbare Nodes. Es wird eigentlich kein Befehl wirklich angenommen. Das ist bei der Einstellung 3/2 nicht weiter überraschend, aber bei 3/1 hat es mich doch etwas verwundert.
Ein Versuch die zwei fehlenden Nodes neu zu installieren und dem Cluster und Ceph wieder hinzuzufügen hat nicht funktioniert. Proxmox hatte der Cluster wieder gefunden, aber bei Ceph kam ich nicht weiter. Schon die MON Erstellung funktioniert nicht fehlerfrei.
Es stellt sich also die Frage wie man bei einem GAU das 2 von 3 Nodes weg sind, den letzten Node soweit online bringt, dass man im Cluster die fehlenden Nodes durch neue Installationen der alten Maschinen, mit oder ohne Übernahme des Inhaltes der OSD, wiederherstellt.
Hat das schon mal jemand gemacht? Gibt es irgendwo eine Anleitung für solch einen Fall?
P.S.
Ja CEPH aka Multiserver-RAID1 in diesem Fall ist kein Backup. Das läuft noch zusätzlich. Aber warum alles neu aufbauen und zurückspielen, wenn es evtl. doch mit einer Reparatur geht. Das soll halt mal probiert werden.
Vielen Dank im Voraus.
Gruß
Andreas