[SOLVED] Cluster tot und nodes hängen sich auf

koko

New Member
Oct 5, 2019
4
0
1
37
Hallo zusammen,

ich benötige eure Hilfe, denn wir haben schon alles uns erdenkliche ausprobiert.

Aktueller Zustand:
1. Das Proxmox-Cluster aus 17 Nodes hat Quorum verloren. Die VMs an sich laufen noch stabil (zumindest auf den Nodes, die wir noch nicht angerührt haben).
2. Sobald man auf einer Node Dateien unter /etc/pve anschauen oder bearbeiten möchte, hängt sich das System kurrzeitig auf. Der Befehl wird nicht ausgeführt.
3. Der Neustart der Cluster-Dienste (pvestatd pveproxy, pve-cluster usw.) endet in einem Fehlschlag/Timeout. Der Befehl wird nicht ausgeführt.

Der Auslöser:
Das Herunterfahren einer Node durch shutdown-Befehl auf der CLI der Node.

Unternommene Versuche:
* Neustart der Cluster-Dienste (endet im Fail/Timeout)
* Unmount und Neumount von /etc/pve (hat keine Änderung gebracht)
* Neustart von einer Node funktioniert Systemmäßig, aber hängt beim Systemstart der Guests.

Uns kommt es komisch vor, dass das Verzeichnis /etc/pve nicht benutzbar ist. Falls es read-only sein sollte - wie könnte man dies beheben?
Sind für jeden Tip dankbar.
 
Was ist denn der Status des Corosync Dienst auf den Nodes? Wirft dieser in den syslogs Fehler? journalctl -u corosync

pve-cluster braucht corosync.

Was sagt pvecm status?
 
Hallo, danke für die Antwort.
Der Output auf node-09

Output von pvecm status:
Bash:
root@prox-09:~# pvecm status
ipcc_send_rec[1] failed: Connection refused
ipcc_send_rec[2] failed: Connection refused
ipcc_send_rec[3] failed: Connection refused
Unable to load access control list: Connection refused

Output von journalctl -u corosync:

Bash:
Sep 07 11:36:18 prox-09 corosync[1973]: notice  [TOTEM ] Retransmit List: 371b1
Sep 07 11:36:18 prox-09 corosync[1973]:  [TOTEM ] Retransmit List: 371b1
Sep 07 11:38:23 prox-09 corosync[1973]: notice  [TOTEM ] Retransmit List: 5f05f 5f060 5f061
Sep 07 11:38:23 prox-09 corosync[1973]:  [TOTEM ] Retransmit List: 5f05f 5f060 5f061
Sep 07 11:54:11 prox-09 corosync[1973]: notice  [TOTEM ] A new membership (192.168.50.202:1244) was formed. Members left: 1
Sep 07 11:54:11 prox-09 corosync[1973]:  [TOTEM ] A new membership (192.168.50.202:1244) was formed. Members left: 1
Sep 07 11:54:11 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 1 received
Sep 07 11:54:11 prox-09 corosync[1973]: notice  [QUORUM] Members[17]: 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Sep 07 11:54:11 prox-09 corosync[1973]: notice  [MAIN  ] Completed service synchronization, ready to provide service.
Sep 07 11:54:11 prox-09 corosync[1973]:  [QUORUM] Members[17]: 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Sep 07 11:54:11 prox-09 corosync[1973]:  [MAIN  ] Completed service synchronization, ready to provide service.
Sep 07 11:54:41 prox-09 corosync[1973]: notice  [TOTEM ] A new membership (192.168.50.201:1248) was formed. Members joined: 1
Sep 07 11:54:41 prox-09 corosync[1973]:  [TOTEM ] A new membership (192.168.50.201:1248) was formed. Members joined: 1
Sep 07 11:54:41 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]: warning [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]:  [CPG   ] downlist left_list: 0 received
Sep 07 11:54:41 prox-09 corosync[1973]: notice  [QUORUM] Members[18]: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Sep 07 11:54:41 prox-09 corosync[1973]: notice  [MAIN  ] Completed service synchronization, ready to provide service.
Sep 07 11:54:41 prox-09 corosync[1973]:  [QUORUM] Members[18]: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Sep 07 11:54:41 prox-09 corosync[1973]:  [MAIN  ] Completed service synchronization, ready to provide service.
 
Nachtrag:
Einer der aktiven und angebunden Backup-storages ist physikalisch Offline. Das scheint auch ein Problem zu sein für den "pvestatd" Service. Ich kann allerdings weder über GUI noch per CLI den Storage entfernen (timeOut). Eventuell führt das ganez auch zu Fehlern? Jemand einen Tip dafür?
 
Uns kommt es komisch vor, dass das Verzeichnis /etc/pve nicht benutzbar ist. Falls es read-only sein sollte - wie könnte man dies beheben?
Um das noch zu beantworden. /etc/pve ist ein Fuse mount mit dem pmxcfs im Hintergrund. Dieses braucht ein funktionierendes Corosync mit Quorum, außer bei einer single Node. Wenn die Node nicht Teil des Quorums ist, verhält es sich als wäre es Read Only da für die Änderungen keine Mehrheit gefunden werden kann (salopp ausgedrückt).

Einer der aktiven und angebunden Backup-storages ist physikalisch Offline. Das scheint auch ein Problem zu sein für den "pvestatd" Service.
Das ist mit Sicherheit ein Problem, sollte aber nicht den Betrieb stören. Kann aber in der GUI zu Fragezeichen führen.
Ich kann allerdings weder über GUI noch per CLI den Storage entfernen (timeOut).
Wahrscheinlich, weil wie schon beschrieben kein Quorum gefunden werden kann und damit keine Mehrheit für diese Änderung.

Die Logs deuten darauf hin, dass Corosync kein stabiles Netz hat. Wie ist das Netzwerk für Corosync konfiguriert? Hat es ein eigenes physikalisches Netz oder Teilt es sich das mit anderen Diensten?

Corosync braucht eine möglichst niedrige Latenz von nur wenigen ms. Wenn andere Dienste auf dem gleichen Kabel (auch als VLAN) laufen, können diese das Netz voll beanspruchen und dadurch für andere Dienste wie Corosync die Latenz in die Höhe treiben.
 
Hi aaron!
Du bist ein Lebensretter, vielen Dank :)

Es lag tatsächlich am Cluster-Netzwerk. Obwohl wir da bei unserer groben Analyse keine Fehler feststellen konnten, weshalb wir es als Ursache ausgeschlossen hatten.. aber ein Restart der Cluster-Switche hat tatsächlich abhilfe geschaffen.
Danach haben wir corosync, pve-cluster und pve-statd neugestartet, wodurch nun alle Nodes wieder in Ordnung sind!

Wir haben ein dediziertes Cluster-Netzwerk mit einem Failover-Switch. Wo nun ursprünglich der Fehler lag, können wir nicht ausmachen.
 
Wir haben ein dediziertes Cluster-Netzwerk mit einem Failover-Switch
Spannend. Habt ihr 2 Corosync Links auf jeweils einen eigenen Switch?

Kannst du bitte das Thema mal grundsätzlich als "Solved" markieren? Dazu im Dropdown Menü den Prefix auswählen wenn du den ersten Post bearbeitest. :)
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!