storahci Fehler in virtuellen Windows Servern jeden Samstag

Aurisch · Jul 28, 2025

Auf meinem Proxmox VE Host laufen 10 virtuelle Server, davon 9 Windows Server. Jeden Samstag zur selben Zeit (ca. 06:40) beginnend und ca. 24 Stunden anhaltend verliere ich zeitweise die Verbindung zu den virtuellen Servern. Im Ereignisprotokoll der virtuellen Server finde ich dann "storahci" Fehler mit der ID 129 folgend von "Disk" Fehler mit der ID 153. Die virtuellen Server laufen allesamt auf einem lokalen Storage des Hosts und das ist als ZFS formatiert. Im Systemprotokoll des Hosts finde ich zu dieser Zeit keinerlei diesbezügliche Einträge. Zu der Zeit in der die Fehler auftreten läuft auch keine Datensicherung.
Nach diesen 24 Stunden kommen auf den virtuellen Servern keinerlei Fehlermeldungen mehr - bis zum nächsten Samstag.
Die Fehlermeldungen in den virtuellen Servern treten zwar alle im gleichen Zeitraum (Samstag 06:40 Uhr -Sonntag 07:40 Uhr) auf, aber nicht zu genau der gleichen Zeit.
Ein Netzwerkproblem schließe ich mal aus, es deutet alles eher auf ein Speicherproblem hin, oder ? Der Host ist quasi neu und läuft erst seit 2,5 Monaten. Die virtuellen Server liefen vorher auf einem vmware Host und wurden importiert.
Jemand eine Idee ?
Heute angepasst: Systemzeit ging 1h vor, chrony konfiguriert und Zeitserver eingetragen. Jetzt passt die Zeit.
Ergänzung: Im Systemprotokoll gibt es doch Einträge: z.B.
VM 100 qmp command 'query proxmox-support' failed - got timeout.

Aurisch · Jul 28, 2025

Soeben noch Update von 8.3.5 auf 8.4.1 durchgeführt. Falls es daran liegen sollte ...

cwt · Jul 28, 2025

Klingt nach einer Überlastung des ZFS. So klingt zumindest der Fehler innerhalb von Windows. Scrub default timer laufen default Samstags um 6 Uhr, das würde zeitlich gut passen.

Überprüfe mal mit

Bash:

systemctl list-timers | grep scrub

wann der letzte Scrub war.

Laufen zu der Zeit auch ggf. Backups? Oder trim commands?

Falk R. · Jul 28, 2025

Check mal die Windows VMs ob die eventuell auch noch ihre Defragmentierung laufen lassen. Das ist auch ein Storagekiller.

Aurisch · Jul 29, 2025

cwt said:
Klingt nach einer Überlastung des ZFS. So klingt zumindest der Fehler innerhalb von Windows. Scrub default timer laufen default Samstags um 6 Uhr, das würde zeitlich gut passen.

Überprüfe mal mit

Bash:

systemctl list-timers | grep scrub

wann der letzte Scrub war.

Laufen zu der Zeit auch ggf. Backups? Oder trim commands?

Das sieht nicht danach aus. Scrub lief danach erst Sonnstag ab 03:11 Uhr.
Backups laufen vorher, sprich Samstags um 10:00 Uhr und waren bevor die Probleme anfingen fertig.

Aurisch · Jul 29, 2025

Falk R. said:
Check mal die Windows VMs ob die eventuell auch noch ihre Defragmentierung laufen lassen. Das ist auch ein Storagekiller.

War fast auf allen eingeschaltet. Habe ich ausgemacht. Danke.

Aurisch · Jul 29, 2025

Als Blech dahinter steht übrigens ein SM Server mit 1 AMD EPYC 9375F und 128GB RAM. Als Platten sind NVMe SSDs drin. Das sollte für die Kiste eigentlich kein Problem darstellen. Ich hab mir mal die restlichen Timer angesehen. Zu der Zeit läuft nur der apt-daily-upgrader und der braucht keine 24h.

cwt · Jul 29, 2025

Sind das denn auch Enterprise NVME?
Laufen denn innerhalb der VMs ggf. Tasks zu diesem Zeitpunkt?

Aurisch · Jul 29, 2025

cwt said:
Sind das denn auch Enterprise NVME?
Laufen denn innerhalb der VMs ggf. Tasks zu diesem Zeitpunkt?

SSD: PNY XLR8 CS3140 8TB im Raid1 auf einem AOC-SLG4-2H8M2 (Broadcom 3808)
Auf den Servern läuft zu der Zeit nichts was nicht in der Woche auch läuft.

fba · Jul 29, 2025

Aurisch said:
SSD: PNY XLR8 CS3140 8TB

Auf der PNY-Seite steht dazu:

The CS3140 M.2 NVMe Gen4 x4 Solid State Drive is designed to be an extreme high performance SSD to deliver the performance you demand for your laptop or desktop system.

Aurisch · Jul 29, 2025

Ja da hab ich wohl beim Kauf des Servers gepennt ... . Und das kann zu solch einem Effekt führen ?
Ich setzt mich da wohl mal mit dem Serveranbieter zusammen.

Falk R. · Jul 30, 2025

Du kannst gern auch gebrauchte Enterprise SSDs nutzen, aber Enterprise sollten es schon sein.
Wenn neu, dann mag ich die Huawei U.2 NVMe, da hast du ein spitzen Preis/Leistungsverhältnis.

Aurisch · Jul 30, 2025

Ich bin dran und melde mich anschließend ob's daran lag,

GMBauer · Jul 30, 2025

Es fällt mir schwer zu glauben, dass die Consumer-SSDs hier die Ursache sein sollen. Wenn mehr als zwei verbaut wären, könnte ich das vielleicht akzeptieren (wenn ein Raid 5 beispielsweise neu aufgebaut werden würde), aber nicht bei einem Raid 1.

@ TE: Hardware-Raid oder per Software, z.B, via ZFS?

(Nichtsdestotrotz sind die SSDs sehr schlecht ausgewählt...)

cwt · Jul 30, 2025

In den NVME sitzt der Phison E18 controller. Der hat so seine Macken und neigt zu unvorhersehbaren I/O-Latenzen bei Lastspitzen im parallelen Zugriff. Windows kann das dann als „hängendes Gerät“ interpretieren.

GMBauer · Jul 30, 2025

Also nicht nur "Mist" sondern "großer Mist"...

Mario Hosse · Jul 30, 2025

Läuft der AOC-SLG4-2H8M2 im IT-Mode?

Falk R. · Jul 30, 2025

Mario Hosse said:
Läuft der AOC-SLG4-2H8M2 im IT-Mode?

Vergesst mal eure Fragen nach dem IT-Mode. Das interessiert bei aktuellen Controllern nicht mehr und der kann entweder Raid1 oder HBA Mode.
Bei allen einigermaßen aktuellen Modellen kann man das umstellen ohne das Umflashen, was auch mal schief gehen kann.

Mario Hosse · Jul 31, 2025

Falk R. said:
Vergesst mal eure Fragen nach dem IT-Mode. Das interessiert bei aktuellen Controllern nicht mehr und der kann entweder Raid1 oder HBA Mode.
Bei allen einigermaßen aktuellen Modellen kann man das umstellen ohne das Umflashen, was auch mal schief gehen kann.

Naja, er schreibt ja 2x 8TB im Raid1 auf dem Controller. Umstellen kann man diesen Controller nicht. Wir wissen nicht wie ZFS aufgesetzt wurde und ich habe mit ZFS auch keine Erfahrung. So müsste er erklären, welche ZFS-Konfiguration er aufgesetzt hat.

Die Empfehlung für ZFS ist doch bei dieser Konstellation jede Platte als Raid0 im Controller zu konfigurieren und diese dann ins ZFS aufzunehmen, damit ZFS diese Platten verwalten kann? Korrigiert mich bitte, falls ich falsch liege!

Lösungen wären also:
a) ZFS anpassen

oder

c) Eine Umstellung des Controllers in den IT-Mode, wäre nur auf eigene Gefahr durch flashen möglich mit:
Supermicro IT-Mode 3808

oder

d) Er könnte auch beide NVME direkt auf das Mainboard nehmen und ZFS aufsetzen.

Falk R. · Jul 31, 2025

Wie der Controller konfiguriert ist wissen wir nicht. Raid0 wäre die schlechteste Option. Man kann auch diesen Controller im BIOS zwischen RAID oder HBA Mode umstellen, auch ohne dem Umflashen.
Man muss nur wissen, dass die Daten verloren gehen, wenn man zwischen HBA und RAID Mode wechselt. Also bitte nicht Umflashen was schief gehen kann sondern einfach Raids löschen und HBA Mode nutzen.

storahci Fehler in virtuellen Windows Servern jeden Samstag

New Member

New Member

Renowned Member

Distinguished Member

New Member

New Member

New Member

Renowned Member

New Member

Active Member

New Member

Distinguished Member

New Member

Active Member

Renowned Member

Active Member

Well-Known Member

Distinguished Member

Well-Known Member

Distinguished Member

We value your privacy