Hallo zusammen,
wir betreiben einen Proxmox-Cluster mit 4 Nodes (1x Storage Proxmox 6.0-15 und 3x Nodes mit Proxmox 6.0.12). Der Storage nutzt ein mdadm-RAID10 über 8x2TB SM883 SSDs, um darüber via LIO ein iSCSI-Device für ZFS over iSCSI bereitzustellen.
Wir virtualisieren aktuell bestehende, sehr alte Serversysteme auf Debian 6/7/8-Basis. Da insbesondere die Debian 6 Systeme nach dem Kopieren der Daten (mittels dd) keine Festplatte finden, verwenden wir bei diesen VMs den Proxmox SCSI-Controller "MegaRAID SAS 8708EM2". Wir haben nun das Problem, dass uns regelmäßig die Dateisysteme in den betroffenen VMs kaputt gehen.
Beispiel:
VM erstellen, MegaRAID SAS 8708EM2 nehmen und eine 80GB Platte auf dem ZFS over iSCSI erstellen
Debian 6.0.9 aus einem offiziellen ISO installieren
VM neustarten.
Nach dem ersten Boot finden sich im syslog direkt IO-Errors, woraufhin das Root-Dateisystem readonly gemountet wird:
Nach einem weiteren reboot wird man in die initramfs-Shell gedroppt, weil das Dateisystem beschädigt ist. Nach einer Reparatur und erneutem Reboot tritt dieser Fehler wieder auf. Wenn von der betroffenen VM ein Live-Klon angelegt wird, tritt dies ebenso auf und sorgt für massenhaft IO-Errors im Syslog der betroffenen VM. Das Abbrechen des Klon-Vorgangs sorgt dafür, dass in der VM keine weiteren IO-Errors mehr auftreten (allerdings lassen sich abgebrochene, halb fertige VMs nicht löschen, weil diese im Zustand locked sind...). Das Problem tritt unabhängig vom Node auf dem die VM läuft auf.
Auf dem Storage tritt beim Klonen der folgende Fehler sehr häufig (>10x / Sekunde) auf:
Der Zustand des md-raid10 ist OK:
Die SMART-Werte der im Storage genutzten SSDs sind auch allesamt i.O (keine Reallocated Sektoren, Smart-Health: OK). Die anderen VMs mit VirtIO-Controller verhalten sich unauffällig.
Habt ihr Ideen, woran das liegen könnte?
wir betreiben einen Proxmox-Cluster mit 4 Nodes (1x Storage Proxmox 6.0-15 und 3x Nodes mit Proxmox 6.0.12). Der Storage nutzt ein mdadm-RAID10 über 8x2TB SM883 SSDs, um darüber via LIO ein iSCSI-Device für ZFS over iSCSI bereitzustellen.
Wir virtualisieren aktuell bestehende, sehr alte Serversysteme auf Debian 6/7/8-Basis. Da insbesondere die Debian 6 Systeme nach dem Kopieren der Daten (mittels dd) keine Festplatte finden, verwenden wir bei diesen VMs den Proxmox SCSI-Controller "MegaRAID SAS 8708EM2". Wir haben nun das Problem, dass uns regelmäßig die Dateisysteme in den betroffenen VMs kaputt gehen.
Beispiel:
VM erstellen, MegaRAID SAS 8708EM2 nehmen und eine 80GB Platte auf dem ZFS over iSCSI erstellen
Debian 6.0.9 aus einem offiziellen ISO installieren
VM neustarten.
Nach dem ersten Boot finden sich im syslog direkt IO-Errors, woraufhin das Root-Dateisystem readonly gemountet wird:
Nach einem weiteren reboot wird man in die initramfs-Shell gedroppt, weil das Dateisystem beschädigt ist. Nach einer Reparatur und erneutem Reboot tritt dieser Fehler wieder auf. Wenn von der betroffenen VM ein Live-Klon angelegt wird, tritt dies ebenso auf und sorgt für massenhaft IO-Errors im Syslog der betroffenen VM. Das Abbrechen des Klon-Vorgangs sorgt dafür, dass in der VM keine weiteren IO-Errors mehr auftreten (allerdings lassen sich abgebrochene, halb fertige VMs nicht löschen, weil diese im Zustand locked sind...). Das Problem tritt unabhängig vom Node auf dem die VM läuft auf.
Auf dem Storage tritt beim Klonen der folgende Fehler sehr häufig (>10x / Sekunde) auf:
Code:
Feb 5 12:36:51 storage kernel: [6087586.856619] Unsupported SA: 0x12
Feb 5 12:36:51 storage kernel: [6087586.857684] Unsupported SA: 0x12
Feb 5 12:36:51 storage kernel: [6087586.858832] Unsupported SA: 0x12
Feb 5 12:36:51 storage kernel: [6087586.862018] Unsupported SA: 0x12
Feb 5 12:36:51 storage kernel: [6087586.866763] Unsupported SA: 0x12
Feb 5 12:36:51 storage kernel: [6087586.873705] Unsupported SA: 0x12
Feb 5 12:36:51 storage kernel: [6087586.876670] Unsupported SA: 0x12
Der Zustand des md-raid10 ist OK:
Code:
md1 : active raid10 sda1[0] sdd1[3] sdh1[7] sdc1[2] sdf1[5] sde1[4] sdg1[6] sdb1[1]
7479934976 blocks super 1.2 512K chunks 2 near-copies [8/8] [UUUUUUUU]
bitmap: 21/56 pages [84KB], 65536KB chunk
Die SMART-Werte der im Storage genutzten SSDs sind auch allesamt i.O (keine Reallocated Sektoren, Smart-Health: OK). Die anderen VMs mit VirtIO-Controller verhalten sich unauffällig.
Habt ihr Ideen, woran das liegen könnte?
Last edited: