Proxmox Cluster Node nach Neustart nicht mehr erreichbar

ChristophCologne

New Member
Nov 26, 2022
7
0
1
Hi,
ich habe zum zweiten mal das Phänomen, dass eine Node nachdem sie neugestartet wurde nicht mehr im Cluster erreichbar ist.
Die Node Ansicht ist online und ich komme auf auf das Webinterface.
Wie kann so etwas sein?
Ich möchte die Node nun aus dem Cluster löschen und neu hinzufügen, da ich nicht schon wieder die gesamte Node neu installieren möchte (das war letztes mal meine Ausweg).
Wenn ich die Node jedoch mit pvecm delnode vom Cluster lösche bleibt sie trotzdem noch in der UI sichtbar. Des weitere müsste ich wissen, wie ich mich auf der Node selber von Cluster löste. Im Moment gibt es ja sonst keinerlei Möglichkeit dem Cluster wieder beizutreten.
Ich bitte um Hilfe.

VG
Christoph
 
Hi,
was ist der derzeitige status des clusters? Sind Fehlermeldungen im journal zu finden. Bitte poste den output von pvecm status und journalctl -b
 
Hi, wenn ein Node nicht sauber in den Cluster joint nach einem Update, dann ist das nicht normal und man sollte dem auf den Grund gehen, statt einfach Node raus und neuen rein. Wir wollen ja Ursachen und keine Symptome bekämpfen.
Gib mal bitte die o.g. Infos und wie gucken mal wo es klemmt.
 
  • Like
Reactions: Neobin
Hier ist die Ausgabe von pvecm status von einem Node der noch Teil des Clusters ist:

Code:
Cluster information
-------------------
Name:             xxx
Config Version:   10
Transport:        knet
Secure auth:      on


Quorum information
------------------
Date:             Wed Apr  5 10:27:31 2023
Quorum provider:  corosync_votequorum
Nodes:            6
Node ID:          0x00000001
Ring ID:          1.105
Quorate:          Yes


Votequorum information
----------------------
Expected votes:   6
Highest expected: 6
Total votes:      6
Quorum:           4 
Flags:            Quorate


Membership information
----------------------
    Nodeid      Votes Name
0x00000001          1 10.1.2.31 (local)
0x00000002          1 10.1.2.33
0x00000003          1 10.1.2.34
0x00000004          1 10.1.2.35
0x00000006          1 10.1.2.55
0x00000007          1 10.1.2.32

Hier die Ausgabe von der betroffenen Node:

Code:
Cluster information
-------------------
Name:             xxx
Config Version:   8
Transport:        knet
Secure auth:      on

Quorum information
------------------
Date:             Wed Apr  5 10:30:01 2023
Quorum provider:  corosync_votequorum
Nodes:            1
Node ID:          0x00000005
Ring ID:          5.f9
Quorate:          No

Votequorum information
----------------------
Expected votes:   6
Highest expected: 6
Total votes:      1
Quorum:           4 Activity blocked
Flags:

Membership information
----------------------
    Nodeid      Votes Name
0x00000005          1 10.1.2.53 (local)
 
So wie es aussieht ist der Knoten aus dem Cluster raus.
Wenn du den alten Node wieder hinzufügen möchtest, gib ihm eine neue IP und am besten noch einmal in der Anleitung gucken. Ich glaube man musste auf dem auch noch etwas manuell aufräumen.
https://pve.proxmox.com/pve-docs/chapter-pvecm.html#_remove_a_cluster_node

P.S.
Wie es aussieht, hast du nur ein Netzwerk für Corosync, wenn Möglich bitte eine Redundanz schaffen, eventuell hängt dein Problem mit dem Netzwerk zusammen.
 
@Falk
Ich habe es nun geschafft mit Hilfe der Anleitung die kaputt Node wieder unabhängig zu machen und sie aus dem bestehenden Cluster zu löschen.
Jedoch wird mir sowhl in der GUI des Clusters als auch der einzelnen Node noch das gesammte Cluster angezeigt.
Wie kann ich es schaffen, dass auch dei GUI mitbekommen, dass das Cluster nicht mehr dasselbe ist?
 
Bitte nicht vergessen wie von @Falk R. bereits erwähnt auch die Ursache zu finden, weshalb die Node nicht mehr Teil des Clusters war. Vermutlich ein Netzwerkproblem? Oder die config war nicht okay? Diese Node hatte jedenfalls Config Version: 8, die anderen Config Version: 10.
 
Last edited:
  • Like
Reactions: Neobin and Falk R.