VM-Filesystem defekt nach Netzwerkausfall zu Ceph

wizzard2002

New Member
May 23, 2023
7
6
3
Hallo Zusammen,
ich betreibe einen Proxmox-Cluster und einen Ceph-Cluster.

Es gibt drei Netzwerke dafür:
Proxmox-Cluster-Intern (nur Proxmox-Nodes)
Ceph-Cluster-Intern (nur Ceph-Nodes)
Proxmox-Ceph-Storage (Proxmox-Nodes zu den Ceph-Nodes)

Beim aufräumen der Verkabelung habe ich ausversehen bei einem Proxmox-Node den Stromstecker gezogen.
Im Grunde erstmal nicht schlimm, HA startet alle VMs einfach wo anders neu... bis auf eine.
Deren Dateisystem ist total kaputt. Linux meldet beim Booten wilde Fehler und findet manche Binaries nicht mehr.

Meine Frage ist jetzt, ob das einfach Pech war oder ob das im Grunde immer passieren kann wenn ein Node ausfällt.
Dann macht HA an dieser Stelle für mich aber keinen Sinn mehr.

LG Martin
 
Meine Frage ist jetzt, ob das einfach Pech war oder ob das im Grunde immer passieren kann wenn ein Node ausfällt.

Eine Variante fällt mir auf Anhieb ein:

Ist in den Einstellungen "<vmid> --> Hardware --> Hard Disk" der Schreibcache aktiviert? Eventuell sogar als "Write back (unsafe)"? Dieser Cache wäre in der VM angesiedelt. Das führt dann dazu, dass es möglich ist, dass die VM "denkt" sie hätte Daten geschrieben - was aber gar nicht der Fall ist.

Was die VM dann beim nächsten Start an Daten vorfindet kann dann also inkonsistent sein und zu allen möglichen "komischen" Fehlern führen.

Die sich daraus ergebende Empfehlung ist natürlich ganz klar: immer "Default (No cache)" aktivieren. Und ja, Ausnahmen bestätigen diese Regel.
 
Welche HDDs, SSDs oder NVMe Modelle werden denn für die OSD genutzt, wie angebunden?
 
Es sind 12 OSDs, unterschiedliche Hersteller, SAS 15K 500GB, dazu 3 SSDs als Cache-DB, 1 pro 4 OSDs. Alles Zeug aus alten Servern für mein Home-Lab.
Angebunden über einen Gigabit-Switch.