Cluster trennen nicht mehr möglich Node defekt.

Grisu76

New Member
May 22, 2024
11
2
3
Guten Morgen zusammen,

Ich habe ein größeres Problem.

Ich habe ein Cluster mit 2 Nodes eingerichtet. Ich weiss, es kommt öfters die Diskussion hoch, dass man 3 nehmen soll, das ist hier aber irrelevant.

Ich hatte gerade die ersten VMs/Container migriert, da ist der neue Node hardwareseitig kaputt gegangen.

Einfach so ein Cluster auflösen (zweiten Node rausschmeißen) ist ja nicht möglich, zumindest habe ich nichts derartiges gefunden. Es wird dann in den folgenden Artikeln beschrieben, wie man es "manuell" über die Shell machen könnte.

https://pve.proxmox.com/pve-docs/pve-admin-guide.html#pvecm_separate_node_without_reinstall
https://forum.proxmox.com/threads/peoxmox-cluster-auflösen.134172/
https://forum.proxmox.com/threads/removing-cluster-nodes-cluster-not-ready-no-quorum.23622/
https://pve.proxmox.com/wiki/Cluster_Manager

Da wieder mal die Zeit zum gleich durchführen nur teilweise gereicht hat, ist die Prozedur nur halb fertig gewesen.

Jetzt kommt der zweite Hammer:
während eines Stromausfalls hat die USV (so wie sie soll) den funktionierenden Node heruntergefahren. Nach dem Neustart ist zwar der Node wieder erreichbar, aber keine der VMs/CTs lässt sich starten. Es kommt immer diese Meldung.

1723103606008.png

Wäre der PBS nicht ebenfalls eine VM auf dem Node, wäre es halb so schlimm, dann hätte ich den Node einfach neu aufgesetzt und die VMs/CTs aus dem Backup wieder hergestellt.
Die VM-Disks (bis auf 2 VMs und 1CT, die nicht so wichtig sind) sollten auf der local-lvm noch vorhanden sein.

1723103958200.png
1723103982993.png
ein neuer Node wäre bereits verfügbar.

Hat jemand eine Idee, wie ich den noch vorhandenen Cluster doch noch aufgelöst bekomme bzw. die VMs anderweitig auf den neuen Node bekomme.

Vielen Dank schon mal für eure Hilfe.

Gruß Markus
 
Da wieder mal die Zeit zum gleich durchführen nur teilweise gereicht hat, ist die Prozedur nur halb fertig gewesen.
Wie weit wurde der Prozess der in dem Admin Guide beschrieben wurde weiterverfolgt, um die defekte Node zu entfernen?

Der Fehler erscheint, da der Cluster nicht mehr genug Stimmen hat um über den aktuellen Zustand zu entscheiden (d.h. keine Operationen mehr ausführen lässt). Deswegen ist es wichtig den defekten Node vollständig aus dem Cluster zu entfernen.

FYI, es wäre sinnvoll nach dem erfolgreichen Hinzufügen des zweiten Nodes ein QDevice hinzuzufügen, um den Cluster vor diesem Zustand zu bewahren, siehe hier.
 
Guten Morgen Grisu76.

Ich habe ein Cluster mit 2 Nodes eingerichtet. Ich weiss, es kommt öfters die Diskussion hoch, dass man 3 nehmen soll, das ist hier aber irrelevant.
Jein. Das Problem hier ist eine Folge davon, dass es nur 2 Nodes (dazu auch ohne Qdevice) gibt. ;)

Nach dem Neustart ist zwar der Node wieder erreichbar, aber keine der VMs/CTs lässt sich starten.
Das ist zu erwarten, wenn es kein Quorum mehr gibt.

Da wieder mal die Zeit zum gleich durchführen nur teilweise gereicht hat, ist die Prozedur nur halb fertig gewesen.
Versuche mal die pvecm expected 1 auszuführen. Dieser Befehl sagt dem PVE, dass nur 1 Stimme benötigt wird. Damit wird die Sicherheitsvorkehrung überschrieben und bekommst du wieder Schreibzugriff.

Du solltest auch den Ordner /etc/pve/nodes/{NameDefekterNode} sichern. Im Unterordner "qemu-server" und "lxc" befinden sich die Configs für die VMs und Container.

Für das weitere Vorgehen ist es wichtig zu wissen, was du bereits für Befehle ausgeführt hast.
 
  • Like
Reactions: dakralex
@dakralex bis hierher
So wie von @Azunai333 schon beschrieben liegt es daran, dass der Cluster kein Quorum mehr hat und das passiert bei 2 Nodes sobald eine dieser Nodes ausfällt. Ich rate dir die vollständige Anleitung durchzuarbeiten (diese enthält an einem Punkt auch den besprochenen pvecm expected 1, solange dieser gebraucht wird - was hier wahrscheinlich der Fall sein wird), um dem Cluster zukünftige Probleme zu ersparen.
 
  • Like
Reactions: Azunai333
So wie von @Azunai333 schon beschrieben liegt es daran, dass der Cluster kein Quorum mehr hat und das passiert bei 2 Nodes sobald eine dieser Nodes ausfällt. Ich rate dir die vollständige Anleitung durchzuarbeiten (diese enthält an einem Punkt auch den besprochenen pvecm expected 1, solange dieser gebraucht wird - was hier wahrscheinlich der Fall sein wird), um dem Cluster zukünftige Probleme zu ersparen.
Vor allem wird in Zukunft der PBS auf separatem Blech laufen und wenn es nur ein Raspi oder ein NUC ist. :-D

Gruß Markus
 
  • Like
Reactions: Azunai333
Guten Morgen zusammen,

nachdem die "normale" Arbeit gestern etwas länger ging, wollte ich heute Morgen mich nochmal an das Problem wagen. Gestern hatte ich nichts mehr an der Installation geändert.

Zum Glück ist es mein eigenes Gedöns, aber es sind halt doch ein paar Dinge, die wichtig sind.
Also Kiste an und ab auf die Shell. Pustekuchen, nicht mal die geht jetzt mehr auf die Shell. es kommt immer dieser Fehler, egal, wie ich versuche.

Gibt es noch irgendwie eine Chance, das zu fixen oder wenigstens die Disks zu kopieren und anderweitig wieder einzuhängen? Die sind ja auf der local-lvm noch da.

Gruß Markus
 
Falls die Kiste komplett hängt, einfach mal rebooten, danach geht die Console auf jeden Fall und pvecm expected 1 lässt dich dann die VMs wieder starten.
 
Falls die Kiste komplett hängt, einfach mal rebooten, danach geht die Console auf jeden Fall und pvecm expected 1 lässt dich dann die VMs wieder starten.
Würde ich gerne machen, aber nach Kiel sind es ungefähr 900km zu fahren :)
 
Wenn man solche Entfernungen hat, hat man entweder ein Remote Management oder eine helfende Hand, die ein mal den Reset macht.
 
Wenn man solche Entfernungen hat, hat man entweder ein Remote Management oder eine helfende Hand, die ein mal den Reset macht.
Ich meinte doch deinen Workshop in Kiel. Habs kurz am Handy zu dem Zeitpunkt am Handy beantwortet. :)
 
  • Like
Reactions: Falk R.
@all : Heureka, es hat funktioniert.

Die Node und die VMs laufen wieder sauber. Jetzt schnellstens auf den neuen Node umziehen und den PBS auf Extrablech.

Danke

LG Markus
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!