Hallo Zusammen,
ich konnte leider keinen besseren Titel finden, der das Problem bestmöglich umschreibt. Konkret geht es hier vermutlich eher um ein Hardware-Problem, welches aber einen unserer PVE-Server betrifft. Das System wird verwendet um VMs und Container zu betreiben, als "Backend" wird ein lokaler ZFS Mirror Pool verwendet.
Zur Hardware:
Gehäuse: Supermicro CSE-216BAC-R920LPB (2HE, 24 2,5 Zoll Festplatteneinschübe, direct attached Backplane (jede Festplatte hat also eine direkte Verbindung zum Controller))
Mainboard: Gigabyte MZ31-AR0 (16*SATA über SlimSAS)
Prozessor: AMD Epyc AMD 7401P (24Kerne/48Threads)
RAM: 512GB Crucial ECC Ram
SSD fürs System: Intel 480GB md raid 1
SSDs für ZFS: 9* Micron 5200 PRO SSD - 1920 GB (4*Mirror + 1 HotSpare)
Die Backplane ist/war direkt mit den 4 SlimSAS Anschlüssen auf dem Mainboard verbunden.
Software:
- Proxmox 6.1 KVM/Container
- alle Pakete aktuell, Problem war aber sowohl mit zfs 0.8.1 als auch 0.8.3 vorhanden
Zum Problem:
Wir haben das System anfang Dezember zusammengebaut, getestet und in Betrieb genommen. Alles hat hervorragend funktioniert. Die Performance war ausgezeichnet. Wir hatten damals (also bevor das System Produktiv wurde) kleinere Probleme mit ZFS und hoher Schreiblast auf zvols (https://github.com/openzfs/zfs/issues/7631) - das haben wir mit dem zfs module Parameter "zvol_threads" aber in den Griff bekommen. Das System lief dann unverändert (gleiche Anzahl VMS/Container) etwa 3 Monate fehlerfrei, bis eine Festplatte im Pool wegen zu vielen Write-Errors als "Faulted" markiert wurde und ein resilver auf die Hotspare platte stattgefunden hat. Wir haben uns nichts weiter gedacht, haben die Festplatte ausgetauscht. Einige Tage später ist das selbe Problem wieder mit einer anderen Festplatte passiert. bei einem "zfs scrub" ist kurz darauf erneut eine andere Festplatte ausgefallen. Währenddessen haben wir die vermeintlich defekten platten in einem anderen Server getestet und mehrere Tage unter volllast gesetzt, hier gab es jedoch keinerlei Anzeichen für ein Problem. Auch die smartwerte der Festplatten waren/sind immer einwandfrei (ein Paramter ist bei allen Platten gleich hoch - "Command_Timeout". Dieser Wert hat sich damals bei den Problemen mit zvol verändert, jedoch seitdem nicht mehr!). Wir haben dann auch eine der "defekten" Festplatten wieder in den Pool mit aufgenommen. Diese hatte seitdem auch kein Problem mehr verursacht.
Da wir also in kurzer Zeit 3 Ausfalle mit immer anderen Platten hatten, die aber weder an den smartwerten noch sonst wie als defekt erkennbar waren, haben wir uns entschlossen einen Broadcom 9305-i16 HBA einzubauen (und damit auch neue Kabel). In der Hoffnung nur hier ein Problem mit den SlimSAS Anschlüssen oder Kabeln zu haben, wollten wir die ganze Kette austauschen und auch nicht mehr den SATA Controller aus der CPU Nutzen.
Leider hatte dies absolut keinen Erfolg und die Fehler passieren und unregelmäßigen Abständen, vorwiegend in der Nacht, weiterhin. Mittlerweile dokumentieren wir den Fehler und setzen per "zpool clear" die Fehler zurück, ohne tatsächlich was an der Konfiguration zu ändern.
Hier ein "Beispiel von einem der letzen Ausfälle:
die Fehler stehen auch im dmesg Log. Es sind immer die selben Fehler, und immer identisch aufgebaut. (Deshalb nur die Logs von dem einen Vorfall)
Ich musste die Logs zu pastebin auslagern, da ich das Zeichenlimit sonst überschreite
https://pastebin.com/sCsc1FfF
Ich kann leider keinen Anhaltspunkt finden was hier nun genau das Problem sein könnte. im Auszug des dmesg logs steht z.B. "FAILED Result: hostbyte=DID_TIME_OUT ". Könnte das drauf hindeuten, dass die Festplatte zu der Zeit einfach nicht erreichbar war? Irgendein Energiesparmodus?
Eine weitere Info: Es Gibt einen fast baugleichen Server für Backups (zfs snapshots) (gleiches Gehäuse, gleiches Mainboard, kleinerer Prozessor, 128GB Ram, und Micron 5210 ION 7.68TB Festplatten in reinem Raid-z2) - dieser Server wurde gleichzeitig in Betrieb genommen, nutzt die pve no-subscription Pakete (Kernel und ZFS, kein PVE), dieser Server funktioniert bis heute einwandfrei und hatte nie auch nur ein einziges Problem.
Im Moment würde für mich die Backplane als Verursacher am meisten Sinn ergeben, denn alles andere wurde bereits getauscht, es trifft immer andere Festplatten. Dass sich ein Problem mit der CPU oder mit dem RAM so äußern aber z.B sonst keine Probleme verursachen oder einen Logeintrag erzeugen halte ich auch für unwahrscheinlicher. Ich habe allerdings in meinem Berufsleben noch nie von einer defekten Backplane gehört. Interessanterweise ist noch keine der ersten 4 Festplatten ausgefallen, sondern bisher nur Festplatten der anderen 3 "Gruppen". (ein Mini SASHD Anschluss versorgt ja jeweils 4 Ports). diese 4 Festplatten teilen sich auch einen Stromanschluss, auf der Backplane sind diese also zumindest teilweise getrennt.
Was meint ihr? Wo sollte ich am ehesten suchen? Ich bin für jeden Tipp oder Gedanken dankbar.
Danke euch!
ich konnte leider keinen besseren Titel finden, der das Problem bestmöglich umschreibt. Konkret geht es hier vermutlich eher um ein Hardware-Problem, welches aber einen unserer PVE-Server betrifft. Das System wird verwendet um VMs und Container zu betreiben, als "Backend" wird ein lokaler ZFS Mirror Pool verwendet.
Zur Hardware:
Gehäuse: Supermicro CSE-216BAC-R920LPB (2HE, 24 2,5 Zoll Festplatteneinschübe, direct attached Backplane (jede Festplatte hat also eine direkte Verbindung zum Controller))
Mainboard: Gigabyte MZ31-AR0 (16*SATA über SlimSAS)
Prozessor: AMD Epyc AMD 7401P (24Kerne/48Threads)
RAM: 512GB Crucial ECC Ram
SSD fürs System: Intel 480GB md raid 1
SSDs für ZFS: 9* Micron 5200 PRO SSD - 1920 GB (4*Mirror + 1 HotSpare)
Die Backplane ist/war direkt mit den 4 SlimSAS Anschlüssen auf dem Mainboard verbunden.
Software:
- Proxmox 6.1 KVM/Container
- alle Pakete aktuell, Problem war aber sowohl mit zfs 0.8.1 als auch 0.8.3 vorhanden
Zum Problem:
Wir haben das System anfang Dezember zusammengebaut, getestet und in Betrieb genommen. Alles hat hervorragend funktioniert. Die Performance war ausgezeichnet. Wir hatten damals (also bevor das System Produktiv wurde) kleinere Probleme mit ZFS und hoher Schreiblast auf zvols (https://github.com/openzfs/zfs/issues/7631) - das haben wir mit dem zfs module Parameter "zvol_threads" aber in den Griff bekommen. Das System lief dann unverändert (gleiche Anzahl VMS/Container) etwa 3 Monate fehlerfrei, bis eine Festplatte im Pool wegen zu vielen Write-Errors als "Faulted" markiert wurde und ein resilver auf die Hotspare platte stattgefunden hat. Wir haben uns nichts weiter gedacht, haben die Festplatte ausgetauscht. Einige Tage später ist das selbe Problem wieder mit einer anderen Festplatte passiert. bei einem "zfs scrub" ist kurz darauf erneut eine andere Festplatte ausgefallen. Währenddessen haben wir die vermeintlich defekten platten in einem anderen Server getestet und mehrere Tage unter volllast gesetzt, hier gab es jedoch keinerlei Anzeichen für ein Problem. Auch die smartwerte der Festplatten waren/sind immer einwandfrei (ein Paramter ist bei allen Platten gleich hoch - "Command_Timeout". Dieser Wert hat sich damals bei den Problemen mit zvol verändert, jedoch seitdem nicht mehr!). Wir haben dann auch eine der "defekten" Festplatten wieder in den Pool mit aufgenommen. Diese hatte seitdem auch kein Problem mehr verursacht.
Da wir also in kurzer Zeit 3 Ausfalle mit immer anderen Platten hatten, die aber weder an den smartwerten noch sonst wie als defekt erkennbar waren, haben wir uns entschlossen einen Broadcom 9305-i16 HBA einzubauen (und damit auch neue Kabel). In der Hoffnung nur hier ein Problem mit den SlimSAS Anschlüssen oder Kabeln zu haben, wollten wir die ganze Kette austauschen und auch nicht mehr den SATA Controller aus der CPU Nutzen.
Leider hatte dies absolut keinen Erfolg und die Fehler passieren und unregelmäßigen Abständen, vorwiegend in der Nacht, weiterhin. Mittlerweile dokumentieren wir den Fehler und setzen per "zpool clear" die Fehler zurück, ohne tatsächlich was an der Konfiguration zu ändern.
Hier ein "Beispiel von einem der letzen Ausfälle:
pool: storage
state: DEGRADED
status: One or more devices are faulted in response to persistent errors.
Sufficient replicas exist for the pool to continue functioning in a
degraded state.
action: Replace the faulted device, or use 'zpool clear' to mark the device
repaired.
scan: resilvered 416G in 0 days 00:25:09 with 0 errors on Mon Apr 27 08:47:19 2020
config:
NAME STATE READ WRITE CKSUM
storage DEGRADED 0 0 0
mirror-0 ONLINE 0 0 0
wwn-0x500a075122d7d2bb ONLINE 0 0 0
wwn-0x500a075122d7d759 ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
wwn-0x500a075122d7d6f0 ONLINE 0 0 0
wwn-0x500a075122d808dc ONLINE 0 0 0
mirror-2 DEGRADED 0 0 0
spare-0 DEGRADED 0 0 0
wwn-0x500a075122d7d674 FAULTED 0 33 0 too many errors
wwn-0x500a075122d7d34d ONLINE 0 0 0
wwn-0x500a075122d7d818 ONLINE 0 0 0
mirror-3 ONLINE 0 0 0
wwn-0x500a075122d7d787 ONLINE 0 0 0
wwn-0x500a075122d7d3d7 ONLINE 0 0 0
spares
wwn-0x500a075122d7d34d INUSE currently in use
errors: No known data errors
state: DEGRADED
status: One or more devices are faulted in response to persistent errors.
Sufficient replicas exist for the pool to continue functioning in a
degraded state.
action: Replace the faulted device, or use 'zpool clear' to mark the device
repaired.
scan: resilvered 416G in 0 days 00:25:09 with 0 errors on Mon Apr 27 08:47:19 2020
config:
NAME STATE READ WRITE CKSUM
storage DEGRADED 0 0 0
mirror-0 ONLINE 0 0 0
wwn-0x500a075122d7d2bb ONLINE 0 0 0
wwn-0x500a075122d7d759 ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
wwn-0x500a075122d7d6f0 ONLINE 0 0 0
wwn-0x500a075122d808dc ONLINE 0 0 0
mirror-2 DEGRADED 0 0 0
spare-0 DEGRADED 0 0 0
wwn-0x500a075122d7d674 FAULTED 0 33 0 too many errors
wwn-0x500a075122d7d34d ONLINE 0 0 0
wwn-0x500a075122d7d818 ONLINE 0 0 0
mirror-3 ONLINE 0 0 0
wwn-0x500a075122d7d787 ONLINE 0 0 0
wwn-0x500a075122d7d3d7 ONLINE 0 0 0
spares
wwn-0x500a075122d7d34d INUSE currently in use
errors: No known data errors
die Fehler stehen auch im dmesg Log. Es sind immer die selben Fehler, und immer identisch aufgebaut. (Deshalb nur die Logs von dem einen Vorfall)
Ich musste die Logs zu pastebin auslagern, da ich das Zeichenlimit sonst überschreite
https://pastebin.com/sCsc1FfF
Ich kann leider keinen Anhaltspunkt finden was hier nun genau das Problem sein könnte. im Auszug des dmesg logs steht z.B. "FAILED Result: hostbyte=DID_TIME_OUT ". Könnte das drauf hindeuten, dass die Festplatte zu der Zeit einfach nicht erreichbar war? Irgendein Energiesparmodus?
Eine weitere Info: Es Gibt einen fast baugleichen Server für Backups (zfs snapshots) (gleiches Gehäuse, gleiches Mainboard, kleinerer Prozessor, 128GB Ram, und Micron 5210 ION 7.68TB Festplatten in reinem Raid-z2) - dieser Server wurde gleichzeitig in Betrieb genommen, nutzt die pve no-subscription Pakete (Kernel und ZFS, kein PVE), dieser Server funktioniert bis heute einwandfrei und hatte nie auch nur ein einziges Problem.
Im Moment würde für mich die Backplane als Verursacher am meisten Sinn ergeben, denn alles andere wurde bereits getauscht, es trifft immer andere Festplatten. Dass sich ein Problem mit der CPU oder mit dem RAM so äußern aber z.B sonst keine Probleme verursachen oder einen Logeintrag erzeugen halte ich auch für unwahrscheinlicher. Ich habe allerdings in meinem Berufsleben noch nie von einer defekten Backplane gehört. Interessanterweise ist noch keine der ersten 4 Festplatten ausgefallen, sondern bisher nur Festplatten der anderen 3 "Gruppen". (ein Mini SASHD Anschluss versorgt ja jeweils 4 Ports). diese 4 Festplatten teilen sich auch einen Stromanschluss, auf der Backplane sind diese also zumindest teilweise getrennt.
Was meint ihr? Wo sollte ich am ehesten suchen? Ich bin für jeden Tipp oder Gedanken dankbar.
Danke euch!