Server startet einfach neu

Alvin2k8

Member
Feb 22, 2023
72
1
8
Hallo,

wir haben aktuell das Phänomen das einige Server einfach neu starten.

Anbei mal ein Auszug aus dem Log.
Wie kann das passieren?

Jul 16 19:56:45 !!SERVERNAME!! corosync[2410]: [QUORUM] Sync members[4]: 2 4 7 10
Jul 16 19:56:45 !!SERVERNAME!! corosync[2410]: [QUORUM] Sync left[8]: 1 3 5 6 8 9 11 12
Jul 16 19:56:45 !!SERVERNAME!! corosync[2410]: [TOTEM ] A new membership (2.199) was formed. Members left: 1 3 5 6 8 9 11 12
Jul 16 19:56:45 !!SERVERNAME!! corosync[2410]: [TOTEM ] Failed to receive the leave message. failed: 1 3 5 6 8 9 11 12
Jul 16 19:56:45 !!SERVERNAME!! watchdog-mux[2065]: exit watchdog-mux with active connections
Jul 16 19:56:45 !!SERVERNAME!! systemd-journald[3567656]: Received client request to sync journal.
Jul 16 19:56:45 !!SERVERNAME!! kernel: watchdog: watchdog0: watchdog did not stop!
Jul 16 19:56:45 !!SERVERNAME!! systemd[1]: watchdog-mux.service: Deactivated successfully.
Jul 16 19:56:45 !!SERVERNAME!! systemd[1]: watchdog-mux.service: Consumed 31.077s CPU time.
Jul 16 19:56:45 !!SERVERNAME!! pve-ha-crm[2490]: loop take too long (55 seconds)
Jul 16 19:56:46 !!SERVERNAME!! corosync[2410]: [QUORUM] Sync members[4]: 2 4 7 10
Jul 16 19:56:46 !!SERVERNAME!! corosync[2410]: [QUORUM] Sync left[8]: 1 3 5 6 8 9 11 12
Jul 16 19:56:46 !!SERVERNAME!! corosync[2410]: [TOTEM ] A new membership (2.19d) was formed. Members
Jul 16 19:56:46 !!SERVERNAME!! pmxcfs[2302]: [dcdb] notice: cpg_send_message retry 10
Jul 16 19:56:47 !!SERVERNAME!! corosync[2410]: [QUORUM] Sync members[4]: 2 4 7 10
Jul 16 19:56:47 !!SERVERNAME!! corosync[2410]: [QUORUM] Sync left[8]: 1 3 5 6 8 9 11 12
Jul 16 19:56:47 !!SERVERNAME!! corosync[2410]: [TOTEM ] A new membership (2.1a1) was formed. Members
Jul 16 19:56:47 !!SERVERNAME!! corosync[2410]: [QUORUM] Sync members[4]: 2 4 7 10
Jul 16 19:56:47 unknow:
-- Reboot --
 
Ist HA aktiv?
Jul 16 19:56:46 !!SERVERNAME!! corosync[2410]: [QUORUM] Sync members[4]: 2 4 7 10
Jul 16 19:56:46 !!SERVERNAME!! corosync[2410]: [QUORUM] Sync left[8]: 1 3 5 6 8 9 11 12
Das liest sich so, als ob da der großteil der Nodes aus sicht dieser Node nicht mehr erreichbar sind. Wenn eine Node HA Gäste hat (LRM ist active), und nicht mehr Teil des Quorums (Mehrheit), wird sich diese fencen (hard reset).
 
Ja, HA ist aktiv!

Kann man das zeitlich weiter raus zögern?
Oder irgendwas anpassen dass dies nicht mehr passiert?

Dieses Verhalten macht er aber NUR wenn HA aktiv ist?
 
Last edited:
Mit HA Gästen auf einer Node wird der LRM dieser Node in den "active" Status wechseln. Zu sehen in Datacenter -> HA oder mit ha-manager status. In diesem Zustand fenced sich eine Node, wenn die Verbindung zum Quorum länger als eine Minute nicht hergestellt werden kann. Dadurch wird sichergestellt, dass die HA Gäste definitiv abgeschaltet sind.

Nach einer weiteren Minute Sicherheitsabstand wird der (hoffentlich) verbleibende Teil des Clusters welcher noch Quorate ist (die Mehrheit hat), diese Gäste starten.

Ohne diesen Mechanismus könnte es passieren, dass auf das gleiche Disk Image von zwei Instanzen einer VM gleichzeitig zugegriffen wird, was zu Korruption der Daten führt.

Deshalb ist es wichtig, gerade wenn HA verwendet wird, dass die Corosync Verbindung stabil ist. Wir empfehlen, Corosync mehrere Netzwerke zu geben zwischen denen es wechseln kann. Idealerweise ist eines davon nur für Corosync da, damit andere Dienste die verfügbare Bandbreite nicht für sich beanspruchen. 1 Gbit ist dafür meist ausreichend.
 
Wenn der LRM aktiv ist. Sobald keine HA Gäste mehr auf der Node sind, sollte der LRM nach 10min wieder in the "idle" Zustand wechseln. Dann startet die Node nicht mehr neu wenn die Clusterverbindung weg ist.
 
Ja, meine Frage zielt darauf ab, wenn wir kein HA einsetzen, startet er sich dann auch eifnach neu?
 
Nein, zumindest nicht geplant. Falls es dann passiert, (LRM ist idle), wird es andere Gründe haben die durchaus defekte Hardware als Grund haben könnten.
 
Ich habe nun alle HAs entfernt Aber den LRM Status löst er von den Servern nicht. Muss man da noch was händisch tun?
 
Wie lange hast du gewartet? Etwas mehr als 10 min?
Welche Version von Proxmox VE läuft?
 
Version 8.2.4
HA ist seit gestern schon entfernt.

1721379952680.png

Server DE-Host010 hatte ich über die Shell entfernt...aber hier ist er auch noch drin..
 
Das ist alles OK. Wenn HA einmal aktiv war, zeigt er die Details an. Alle sind im "idle" Mode. So sollte es sein und wenn die Corosync Verbindung abbricht, sollten sich die Hosts nicht mehr fencen.

Host010 scheint nicht zu laufen oder Probleme mit Corosync zu haben.
 
den gibts ja nicht mehr.

Kann ich diese Liste irgendwie "bereinigen"?
Das würde meinen inneren Monk doch befriedigen ;)
 
Alle Dienste auf allen Servern neu gestartet, noch immer da.

root@DE-Host01 ~ # pvecm nodes

Membership information
----------------------
Nodeid Votes Name
1 1 FI-Host01
2 1 FI-Host02
3 1 DE-Host01 (local)
4 1 DE-Host02
5 1 FI-Host03
6 1 FI-Host04
7 1 DE-Host03
8 1 DE-Host04
9 1 FI-Host05
10 1 FI-Host06
11 1 DE-Host05
12 1 DE-Host06
13 1 DE-Host90
14 1 DE-Host07
15 1 DE-Host08
16 1 DE-Host10
17 1 DE-Host09

Den Host gibts halt nicht mehr ;)
 
Hab noch weitere Server per shell entfernt (da umzug auf andere Hardware), diese sind im HA (old timestamp) aber auch noch drin
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!