Hallo zusammen,
wir testen gerade mit einer kleinen Umgebung den Proxmox Cluster (Version 7.0) inkl. Ceph (16.2) , da wir dies gerne produktiv einsetzen würden.
Folgenden Ist-Ausgangszustand haben wir.
Cluster aus 3 Knoten im HA Verbund inkl. Ceph Installation. Läuft soweit alles einwandfrei.
Im ersten Test haben wir aus dem 3 Knoten Cluster eine defekte Maschine simuliert.
Wir haben dann diese defekte Maschine durch einen neuen Knoten ersetzt. Das haben wir soweit hin bekommen, dass der Cluster danach stabil lief und auch Ceph laut Übersichtsseite keine Fehler hatte.
Im nächsten Schritt haben wir versucht einen Ausfall von 2 Nodes zu simulieren und zwar Ausfall in dem Sinne, dass die Maschinen ersetzt werden müssen.
Wir sind so vorgegangen wie im ersten Szenario, mit dem einzigen Unterschied, dass die Ceph Installation auf einer neuen Maschine nicht sauber durch gelaufen ist. Er hat die Pakete heruntergeladen hat aber die Verbindung verloren, bevor wir zur Konfiguration gehen konnten. Ceph Storage meldet auf allen Nodes "unknown" und ein Testcontainer fährt nicht mehr hoch, da dieser auf den Ceph Storage liegt.
Bedeutet wir haben nun in unserer Simulation 2 defekte Maschinen aus der eine schon aus dem Cluster genommen wurde + 1 Maschine (Nr.5) mit halbgarren Ceph Zustand.
Insgesamt befinden sich 3 Nodes im Cluster. Wo kein Container mehr gestartet werden kann.
Wir haben dann versucht auf der Maschine Nr.5 Ceph zu deinstallieren mit dem Befehl pveceph purge. Hier gibt es die Ausgabe:
"Error gathering ceph info, already purged? Message: rados_conf_read_file failed - Invalid argument
Error gathering ceph info, already purged? Message: rados_conf_read_file failed - Invalid argument
Foreign MON address in ceph.conf. Keeping config & keyrings"
Die Meldung: "rados_conf_read_file failed - Invalid argument" bekommen wir auch wenn wir in der Proxmox GUI die Ceph Oberfläche aufrufen.
Unsere Fragen wären nun:
1. Wie bekommen wir den Cluster wieder ans laufen ohne alles neu zu installieren?
2. Wie bekommt man eine Ceph Installation die nicht sauber durch gelaufen ist repariert (reinstall) bzw. deinstalliert?
3. Gibt es eine Disaster Recovery Anleitung für eine Proxmox Cluster Installation inkl. Ceph und HA Gruppen in der das korrekte vorgehen beschrieben wird?
Bislang haben wir nur immer einzelne Dokumentationsschnipsel gefunden z.b. Adding oder Remove Node aber kein Best Practice.
Danke für die Hilfe.
wir testen gerade mit einer kleinen Umgebung den Proxmox Cluster (Version 7.0) inkl. Ceph (16.2) , da wir dies gerne produktiv einsetzen würden.
Folgenden Ist-Ausgangszustand haben wir.
Cluster aus 3 Knoten im HA Verbund inkl. Ceph Installation. Läuft soweit alles einwandfrei.
Im ersten Test haben wir aus dem 3 Knoten Cluster eine defekte Maschine simuliert.
Wir haben dann diese defekte Maschine durch einen neuen Knoten ersetzt. Das haben wir soweit hin bekommen, dass der Cluster danach stabil lief und auch Ceph laut Übersichtsseite keine Fehler hatte.
Im nächsten Schritt haben wir versucht einen Ausfall von 2 Nodes zu simulieren und zwar Ausfall in dem Sinne, dass die Maschinen ersetzt werden müssen.
Wir sind so vorgegangen wie im ersten Szenario, mit dem einzigen Unterschied, dass die Ceph Installation auf einer neuen Maschine nicht sauber durch gelaufen ist. Er hat die Pakete heruntergeladen hat aber die Verbindung verloren, bevor wir zur Konfiguration gehen konnten. Ceph Storage meldet auf allen Nodes "unknown" und ein Testcontainer fährt nicht mehr hoch, da dieser auf den Ceph Storage liegt.
Bedeutet wir haben nun in unserer Simulation 2 defekte Maschinen aus der eine schon aus dem Cluster genommen wurde + 1 Maschine (Nr.5) mit halbgarren Ceph Zustand.
Insgesamt befinden sich 3 Nodes im Cluster. Wo kein Container mehr gestartet werden kann.
Wir haben dann versucht auf der Maschine Nr.5 Ceph zu deinstallieren mit dem Befehl pveceph purge. Hier gibt es die Ausgabe:
"Error gathering ceph info, already purged? Message: rados_conf_read_file failed - Invalid argument
Error gathering ceph info, already purged? Message: rados_conf_read_file failed - Invalid argument
Foreign MON address in ceph.conf. Keeping config & keyrings"
Die Meldung: "rados_conf_read_file failed - Invalid argument" bekommen wir auch wenn wir in der Proxmox GUI die Ceph Oberfläche aufrufen.
Unsere Fragen wären nun:
1. Wie bekommen wir den Cluster wieder ans laufen ohne alles neu zu installieren?
2. Wie bekommt man eine Ceph Installation die nicht sauber durch gelaufen ist repariert (reinstall) bzw. deinstalliert?
3. Gibt es eine Disaster Recovery Anleitung für eine Proxmox Cluster Installation inkl. Ceph und HA Gruppen in der das korrekte vorgehen beschrieben wird?
Bislang haben wir nur immer einzelne Dokumentationsschnipsel gefunden z.b. Adding oder Remove Node aber kein Best Practice.
Danke für die Hilfe.