Proxmox-Cluster mit 2 Knoten, Probleme bei Niedergang eines Knotens

Homelab-Umgebung. Ich habe ein Proxmox-Cluster mit 2 Proxmox-Servern aufgezogen, kein dritter Quorum-Client mit dazugehängt. Das Cluster war recht einfach einzurichten:

  • cluster/pm1 (alle Vserver zuerst hier)
  • cluster/pm2 (noch kein Vserver hier)

Danach habe ich alle Vserver von pm1 nach pm2 umgezogen. Hat geklappt. Dann den Host pm1 getötet (Simulation Totalausfall). Jetzt war diese Situation:

  • cluster/pm1 (absichtlich tot!)
  • cluster/pm2 (alle Vserver hier, alle Vserver sind gelaufen, Cluster wird als defekt angezeigt)
Dann reboot von pm2 - kein Vserver ist mehr gestartet weil Cluster defekt war!

Ich habe es nicht geschafft mit dem einzig verbleibenden Proxmox-Server das Cluster aufzulösen und die Vserver wieder hochzufahren. Nach ein paar Stunden Arbeit habe ich es aufgegeben und den pm1 neu mit Proxmox installiert und die Vserver aus einem Backup wiederhergestellt.

Ich glaube das Cluster wird mit Hilfe von Corosync betrieben. Es wird eigentlich eine ungerade Zahl von Mitglieder im Corosync-Kreis erwartet um automatische Abstimmungen zu machen bei denen festgestellt werden kann wer tot ist und wer lebt. In kleinen Umgebungen kann auch ein Raspberry als dritter Mann agieren.

Ich will jetzt gar niemanden die "Schuld" geben, dass diese Situation problematisch ist. Ich möchte aber erinnern, dass man den Tod eines Clustermitglieds mal ausprobiert, incl. Reboot des verbleibenden Proxmox-Server bevor man sich darauf mit einer wichtigen Umgebung verlässt.

Meine Frage: gibt es gute Anleitungen um mit dieser Situation zurecht zu kommen?
 
Anscheinend kennst du ja die Grundlagen von Corosync schon etwas.
Jeder Cluster auf dieser Welt, auch bei MS, braucht eine ungerade Anzahl an Knoten oder ein Quorum.
Wenn kein Quorum da ist, ist das Verhalten vollkommen richtig und gewollt. Mit einer Minderheit verweigert ein Clusterknoten immer das starten des Clusters. Du kannst in der Corosync Konfiguration im K-Fall ein expected Vote = 1 setzen, damit er wieder hochkommt.
Aber ein 2 Knoten Cluster sollte immer mit einem Quorum versehen werden, oder man lässt das Thema Cluster lieber sein.
 
Richtig, das sind die Gefahren eines Clusters über die man sich bewusst sein sollte. Wenn man das nicht in einer Testumgebung aktiv geübt und dokumentiert hat sollte man es nicht verwenden. Die Lizenzierung von Proxmox macht solche Übungen zum Glück gut möglich.

Die Weboberfläche von Proxmox ist sehr sehr gut gemacht, aber hier ist die Grenze erreicht und man muss nicht nur in die Shell sondern dort sehr genau wissen was man macht. Das Aufbrechen eines Clusters ist ja immer ein Tanzen am Rand des Abgrunds wenn es in der Realität passiert.