Failed Cluster Node VM-Reste

stewen78 · Jan 12, 2024

Hi zusammen,
ich habe einen Proxmox Cluster mit 4 Nodes mit CEPH am laufen, alles soweit gut. Im November 2023 ist ein Node ausgefallen (Hardwareschaden Mainboard), daher hab ich die Config der darauf laufenden VM (alle Daten auf CEPH) manuell auf einen anderen Member verschoben. Das hat gut funktioniert und ich bin sehr zufrieden bis hierhin - alles läuft aktuell auf drei Nodes, der vierte ist halt offline.
Nun hat die Lieferung des Ersatzteils des vierten Servers bis heute gedauert ... nun gut. Jetzt hab ich gerade den Server (noch ohne Kontakt zu den anderen Cluster-Members) repariert und wieder eingeschaltet, soweit fährt er hoch, per SSH und Weboberfläche ist er problemlos erreichbar. Eigentlich würd ich ihn jetzt einfach wieder zurückbauen und an die Netzwerke anschließen.

ABER: Nun ist hier auch noch die VM mit der gleichen ID drauf, die ich damals weggeschoben habe.

Ich dachte mir, ich entferne die hier einfach, bevor ich ihn wieder ins Cluster-Netzwerk bringe, aber das läuft nicht: "Permission denied" beim Löschen bzw. Umbenennen des cfg-Files in /etc/pve/qemu-server/ bzw. /etc/pve/nodes/node4/qemu-server/ --> macht ja wegen CEPH auch Sinn

Jetzt frage ich mich, ob der Cluster das irgendwie (übers Quorum der anderen drei Server) regeln kann und dem vierten Member die betreffende VM verbietet auszuführen? Oder muss ich den anderen drei Servern erst noch etwas vorgeben? Wie gehe ich hier richtig vor?

Danke schonmal,
viele Grüße
Stephan

mira · Jan 12, 2024

Grundsätzlich sollte der Node den aktuellen Stand mitgeteilt bekommen, sobald er wieder joined. Man muss also hier nicht händisch intervenieren.

Es gibt grundsätzlich die Möglichkeit das `pmxcfs` (Cluster Filesystem das hinter /etc/pve steckt [0]) lokal zu mounten. Damit kannst du dann auch Schreiboperationen ausführen darauf.
Dies ist nicht empfohlen, und kann bei falscher Bedienung zu Problemen und Datenverlust/-korruption sorgen.

Am besten vorher Backups machen von /etc/pve und /var/lib/pve-cluster/config.db.
Danach stoppst du pmxcfs: systemctl stop pve-cluster.service
Im Anschluss kannst du es dann lokal mounten: pmxcfs -l (siehe `man pmxcfs`)

Jetzt kannst du in /etc/pve Dateien löschen, erstellen und herumschieben, also auch unter /etc/pve/nodes/<nodename>/qemu-server die VM Config von diesem Node löschen.

Wenn du mit dem editieren fertig bist, kannst du das pmxcfs wieder stoppen mit killall pmxcfs und mit systemctl start pve-cluster wieder ganz normal starten.
Dies ähnelt dem Vorgehen beim Entfernen einer Node aus dem Cluster ohne PVE neu zu installieren [1], nur dass man dabei die Configs intakt hält.

[0] https://pve.proxmox.com/pve-docs/pve-admin-guide.html#intro_central_management
[1] https://pve.proxmox.com/pve-docs/pve-admin-guide.html#pvecm_separate_node_without_reinstall

stewen78 · Jan 14, 2024

Ok, vielen Dank. Ich werde den Node wieder mit den anderen zusammenschalten, dann werden wir sehen, was passiert und ob es von alleine klappt. Das wäre mir die liebste Lösung. Danke für die ausführliche Antwort.

Viele Grüße
Stephan

stewen78 · Jan 16, 2024

Hallo Mira,
ich wollte noch Bescheid geben, dass es wunderbar funktioniert hat. Die betreffende VM wurde vom wieder hinzugefügten Node entfernt und der Cluster sowie CEPH haben sich wieder von alleine synchronisiert. Alles super, vielen Dank für die Hilfe!

Viele Grüße
Stephan

Search

Search

Failed Cluster Node VM-Reste

stewen78

Member

mira

Proxmox Staff Member

stewen78

Member

stewen78

Member