Guten Tag zusammen,
nach meiner Proxmox-Schulung Anfang des Jahres testen wir aktuell Proxmox im 3-Node-Cluster. Bisher lief alles super. Doch kaum sind die ersten echt-VMs auf dem Cluster, kommt der erste Crash.
Nachdem wir nun die Standard-Subscription eingespielt haben, habe ich die anstehenden Updates durchgeführt.
- VMs auf übrige Nodes 1 und 3 migriert
- Node 2 updates gestartet und erfolgreich durchgeführt
- Node 2 neu gestartet
- Nach Neustart vorerst keine Auffälligkeiten
- Ceph alles grün, alles okay
- Updates für weitere Nodes auf die gleiche Art und Weise durchgeführt.
- Irgendwann taucht dann folgender Fehler auf:
Eine VM die während des Updates auf einem anderen Node lag, ist nicht mehr "schreibbar". Die Platten waren im Freeze, keine Möglichkeit mehr, die VM zu nutzen.
Was könnte ich noch als Ansatz liefern für eine Problemlösung oder eine Prävention, damit das in Zukunft nicht mehr passiert.
Vielen Dank an dieser Stelle und einen schönen Tag.
nach meiner Proxmox-Schulung Anfang des Jahres testen wir aktuell Proxmox im 3-Node-Cluster. Bisher lief alles super. Doch kaum sind die ersten echt-VMs auf dem Cluster, kommt der erste Crash.
Nachdem wir nun die Standard-Subscription eingespielt haben, habe ich die anstehenden Updates durchgeführt.
- VMs auf übrige Nodes 1 und 3 migriert
- Node 2 updates gestartet und erfolgreich durchgeführt
- Node 2 neu gestartet
- Nach Neustart vorerst keine Auffälligkeiten
- Ceph alles grün, alles okay
- Updates für weitere Nodes auf die gleiche Art und Weise durchgeführt.
- Irgendwann taucht dann folgender Fehler auf:
osd.6 4022 heartbeat_check: no reply from 192.168.11.1:6838 osd.14 since back 2025-...
Eine VM die während des Updates auf einem anderen Node lag, ist nicht mehr "schreibbar". Die Platten waren im Freeze, keine Möglichkeit mehr, die VM zu nutzen.
Was könnte ich noch als Ansatz liefern für eine Problemlösung oder eine Prävention, damit das in Zukunft nicht mehr passiert.
Vielen Dank an dieser Stelle und einen schönen Tag.