Ceph freez nach Update - Fehler "OSD heartbeat_check no reply from"

PhilLIPHT

New Member
Feb 19, 2025
1
0
1
Guten Tag zusammen,

nach meiner Proxmox-Schulung Anfang des Jahres testen wir aktuell Proxmox im 3-Node-Cluster. Bisher lief alles super. Doch kaum sind die ersten echt-VMs auf dem Cluster, kommt der erste Crash.
Nachdem wir nun die Standard-Subscription eingespielt haben, habe ich die anstehenden Updates durchgeführt.
- VMs auf übrige Nodes 1 und 3 migriert
- Node 2 updates gestartet und erfolgreich durchgeführt
- Node 2 neu gestartet
- Nach Neustart vorerst keine Auffälligkeiten
- Ceph alles grün, alles okay
- Updates für weitere Nodes auf die gleiche Art und Weise durchgeführt.
- Irgendwann taucht dann folgender Fehler auf:
osd.6 4022 heartbeat_check: no reply from 192.168.11.1:6838 osd.14 since back 2025-...
Eine VM die während des Updates auf einem anderen Node lag, ist nicht mehr "schreibbar". Die Platten waren im Freeze, keine Möglichkeit mehr, die VM zu nutzen.

Was könnte ich noch als Ansatz liefern für eine Problemlösung oder eine Prävention, damit das in Zukunft nicht mehr passiert.

Vielen Dank an dieser Stelle und einen schönen Tag.
 
Hallo,

das ist leider schwer zu sagen ohne weitere Informationen.

- Welches Update wurde eingespielt?
- Sind nur die OSDs des aktualisierten Nodes betrroffen? Falls ja deuten die Schreibprobleme auf eine fehlende Redundanz von Ceph Komponenten (https://docs.ceph.com/en/mimic/start/intro/) hin oder eine zu niedrige Redundanz des Storage-Pools hin.

Meiner Erfahrung nach sind normale Systemupdates (auch Kernel) unauffällig. Der Einsatz von Ceph erfordert jedoch die Beachtung der ggf. von Proxmox unabhängigen Ceph-Release-Zyklen. So kann zu einem Minor-Update der Proxmox-Version auch ein Ceph-Upgrade dringend notwendig sein.

Die Ceph-Upgrades werden getrennt behandelt: https://pve.proxmox.com/wiki/Category:Ceph_Upgrade

Wenn man Ceph-Upgrades durchführt und sich dabei die notwendige Zeit lässt, dann lassen sich alle Cluster-Upgrade ohne Dienstausfall bewerkstelligen.

Ansatz für das weitere Vorgehen:
1. Keine Panik: Ceph verliert in der Regel keine Daten ohne manuelles zutun und hat erstaunliche Selbstheilungsfähigkeiten
2. Informationen sammeln: https://pve.proxmox.com/pve-docs/pve-admin-guide.html#pve_ceph_mon_and_ts

Dann ist die Fehlerursache möglichst zu identifizieren und zu beheben.

Um Ausfälle in Zukunft gänzlich zu verhindern muss das gesamte Setup auf allen Ebenen hochverfügbar (>= 3 Knoten, Redundanzen, etc.) ausgelegt sein.
 
  • Like
Reactions: florian-n