Failed Cluster Node VM-Reste

stewen78

Member
Jan 19, 2021
17
3
8
46
Hi zusammen,
ich habe einen Proxmox Cluster mit 4 Nodes mit CEPH am laufen, alles soweit gut. Im November 2023 ist ein Node ausgefallen (Hardwareschaden Mainboard), daher hab ich die Config der darauf laufenden VM (alle Daten auf CEPH) manuell auf einen anderen Member verschoben. Das hat gut funktioniert und ich bin sehr zufrieden bis hierhin - alles läuft aktuell auf drei Nodes, der vierte ist halt offline.
Nun hat die Lieferung des Ersatzteils des vierten Servers bis heute gedauert ... nun gut. Jetzt hab ich gerade den Server (noch ohne Kontakt zu den anderen Cluster-Members) repariert und wieder eingeschaltet, soweit fährt er hoch, per SSH und Weboberfläche ist er problemlos erreichbar. Eigentlich würd ich ihn jetzt einfach wieder zurückbauen und an die Netzwerke anschließen.

ABER: Nun ist hier auch noch die VM mit der gleichen ID drauf, die ich damals weggeschoben habe.

Ich dachte mir, ich entferne die hier einfach, bevor ich ihn wieder ins Cluster-Netzwerk bringe, aber das läuft nicht: "Permission denied" beim Löschen bzw. Umbenennen des cfg-Files in /etc/pve/qemu-server/ bzw. /etc/pve/nodes/node4/qemu-server/ --> macht ja wegen CEPH auch Sinn

Jetzt frage ich mich, ob der Cluster das irgendwie (übers Quorum der anderen drei Server) regeln kann und dem vierten Member die betreffende VM verbietet auszuführen? Oder muss ich den anderen drei Servern erst noch etwas vorgeben? Wie gehe ich hier richtig vor?

Danke schonmal,
viele Grüße
Stephan
 
Last edited:
Grundsätzlich sollte der Node den aktuellen Stand mitgeteilt bekommen, sobald er wieder joined. Man muss also hier nicht händisch intervenieren.


Es gibt grundsätzlich die Möglichkeit das `pmxcfs` (Cluster Filesystem das hinter /etc/pve steckt [0]) lokal zu mounten. Damit kannst du dann auch Schreiboperationen ausführen darauf.
Dies ist nicht empfohlen, und kann bei falscher Bedienung zu Problemen und Datenverlust/-korruption sorgen.

Am besten vorher Backups machen von /etc/pve und /var/lib/pve-cluster/config.db.
Danach stoppst du pmxcfs: systemctl stop pve-cluster.service
Im Anschluss kannst du es dann lokal mounten: pmxcfs -l (siehe `man pmxcfs`)

Jetzt kannst du in /etc/pve Dateien löschen, erstellen und herumschieben, also auch unter /etc/pve/nodes/<nodename>/qemu-server die VM Config von diesem Node löschen.

Wenn du mit dem editieren fertig bist, kannst du das pmxcfs wieder stoppen mit killall pmxcfs und mit systemctl start pve-cluster wieder ganz normal starten.
Dies ähnelt dem Vorgehen beim Entfernen einer Node aus dem Cluster ohne PVE neu zu installieren [1], nur dass man dabei die Configs intakt hält.


[0] https://pve.proxmox.com/pve-docs/pve-admin-guide.html#intro_central_management
[1] https://pve.proxmox.com/pve-docs/pve-admin-guide.html#pvecm_separate_node_without_reinstall
 
Last edited:
Ok, vielen Dank. Ich werde den Node wieder mit den anderen zusammenschalten, dann werden wir sehen, was passiert und ob es von alleine klappt. Das wäre mir die liebste Lösung. Danke für die ausführliche Antwort.

Viele Grüße
Stephan
 
Hallo Mira,
ich wollte noch Bescheid geben, dass es wunderbar funktioniert hat. Die betreffende VM wurde vom wieder hinzugefügten Node entfernt und der Cluster sowie CEPH haben sich wieder von alleine synchronisiert. Alles super, vielen Dank für die Hilfe!

Viele Grüße
Stephan
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!