Wiederkehrender Ausfall einzelner Cluster-Nodes seit Update auf ProxMox 8.1.3

Woelke IT · Jan 10, 2024

Hallo zusammen,

Wir haben ein 3-Node-ProxMox-Cluster mit Ceph und lokalen SSDs im Einsatz. Die SSDs sind per 100Gbit (QSFP-Ports mit DAC-Kabeln) im Mesh-Verbund direkt miteinander verbunden. Unser Cluster lief seit einem Jahr störungsfrei. Bei den Servern handelt es sich um identische Supermicro Dual-Socket Server mit folgender Konfiguration:

2x AMD EPYC 7F52 16-Core Processor @ 3.50GHz
2 TB RAM
2x 500GB SSD (Host, R1), 12x8TB SSD(Ceph)
2x Onboard 1Gbit/s NIC (WAN-Netz), 4x 1 Gbit/s NIC via PCIe Karte (2x Corosync/Cluster, 2x LAN Netze), 2x QSFP 100Gbit/s via PCIe Karte (Ceph Netz)

Am 28.12.2023 haben wir alle 3 Nodes auf die neue Version 8.1.3 aktualisiert und konnten im Anschluss keine Probleme feststellen. Seit der Nacht auf den 2.1.2024 haben wir nun mit wiederkehrenden Ausfällen eines Nodes zu kämpfen. Es ist immer nur ein Node, aber jedes Mal ein anderer. Der Ausfall äußert sich so: Wir messen den Ping zwischen den Nodes und zu den Mesh-Schnittstellen und können hier keine Auffälligkeiten feststellen (Unter 1ms). Nach einigen Stunden geht der Ping EINES Nodes schlagartig auf 300ms bis mehrere Sekunden hoch, sowohl im Corosync- als auch im Mesh-Netz. Die VMs auf diesem Node verlieren die Verbindung zu Ihren virtuellen Ceph-Festplatten und hängen sich auf. Wir können die VMs von diesem Node nun weder auf einen anderen Node noch von einem anderen Node auf diesen verschieben. Starten wir den Node neu, ist schlagartig wieder alles in Ordnung für ein paar Stunden. Und dann wiederholt sich dasselbe Spiel auf einem anderen Node.

sb-jw · Jan 10, 2024

Gibt es zu den genannten Zeiten sonst irgendwelche Auffälligkeiten im Monitoring, in euren Metriken oder syslog?

Woelke IT · Jan 10, 2024

Also wir sehen, wenn das Verhalten auftritt folgendes:

CPU Last des betroffenen Hosts geht nach oben (von 20% auf bis zu 70%)
IO Delay bei allen Hosts erhöht
Im journalctl steht lässt sich nachvollziehen, dass sowohl die Ceph als auch die Corosync Verbindung down geht:

Code:

srv-woeadm-hv1-syslog 1von3.txt:Jan 06 06:03:44 srv-woeadm-hv1 corosync[3141]:   [KNET  ] link: host: 2 link: 0 is downsrv-woeadm-hv1-syslog 1von3.txt:Jan 06 06:04:15 srv-woeadm-hv1 corosync[3141]:   [KNET  ] link: host: 3 link: 0 is down
srv-woeadm-hv1-syslog 1von3.txt:Jan 06 06:04:15 srv-woeadm-hv1 corosync[3141]:   [KNET  ] link: host: 2 link: 0 is down
srv-woeadm-hv1-syslog 1von3.txt:Jan 06 06:04:38 srv-woeadm-hv1 corosync[3141]:   [KNET  ] link: host: 2 link: 0 is down
srv-woeadm-hv1-syslog 1von3.txt:Jan 06 06:05:10 srv-woeadm-hv1 corosync[3141]:   [KNET  ] link: host: 3 link: 0 is down
[...]


srv-woeadm-hv1-syslog 1von3.txt:Jan 06 11:35:56 srv-woeadm-hv1 ceph-osd[4679]: 2024-01-06T11:35:56.528+0100 7f91263386c0 -1 osd.4 15541 heartbeat_check: no reply from 10.254.254.3:6820 osd.24 since back 2024-01-0
6T11:35:24.584796+0100 front 2024-01-06T11:35:54.014542+0100 (oldest deadline 2024-01-06T11:35:40.138132+0100)
srv-woeadm-hv1-syslog 1von3.txt:Jan 06 11:35:56 srv-woeadm-hv1 ceph-osd[4679]: 2024-01-06T11:35:56.528+0100 7f91263386c0 -1 osd.4 15541 heartbeat_check: no reply from 10.254.254.3:6804 osd.31 since back 2024-01-0

Außerdem gibt es immer wieder "permission denied" Errormeldungen:

Code:

Jan 06 02:05:51 srv-woeadm-hv1 ceph-crash[2286]: 2024-01-06T02:05:51.788+0100 7f69fbdd46c0 -1 auth: unable to find a keyring on /etc/pve/priv/ceph.client.crash.srv-woeadm-hv1.keyring: (13) Permission denied
Jan 06 02:05:51 srv-woeadm-hv1 ceph-crash[2286]: 2024-01-06T02:05:51.788+0100 7f69fbdd46c0 -1 auth: unable to find a keyring on /etc/pve/priv/ceph.client.crash.srv-woeadm-hv1.keyring: (13) Permission denied
Jan 06 02:05:51 srv-woeadm-hv1 ceph-crash[2286]: 2024-01-06T02:05:51.788+0100 7f69fbdd46c0 -1 auth: unable to find a keyring on /etc/pve/priv/ceph.client.crash.srv-woeadm-hv1.keyring: (13) Permission denied

Falk R. · Jan 10, 2024

Welche 100G Netzwerkkarten setzt ihr denn ein? Wie ist denn das Mesh konfiguriert?
Ich bin ja nicht so der Freund von Mesh, da kann man schlechter Troubleshooting betreiben als wenn ein Switch dazwischen ist.

Was die CPU Last angeht, habt ihr alle Patches installiert? Letztens gab es ja einen Fehler, der die VMs nach dem Backup auf 1Core Vollgas hat laufen lassen.

Search

Search

Wiederkehrender Ausfall einzelner Cluster-Nodes seit Update auf ProxMox 8.1.3

Woelke IT

New Member

Attachments

sb-jw

Famous Member

Woelke IT

New Member

Falk R.

Distinguished Member