[SOLVED] Proxmox + Windows VM

plurgi95 · Apr 6, 2026

Ich bräuchte mal Hilfe..

Ich hab in der Firma ein Proxmox Cluster mit 3 Gleichen Hostsystemen.

2x Intel Xeon Gold 6234/6134
768 GB DDR4 2400MT/s RAM ECC REG
2x 400GB NVMe SAS im ZRaid1 (Boot Platte)
6x 3,84TB NVMe SAS im HW-RAID 5 (VM-Storage)
2x 10GBit (Cluster Netzwerk)
2x 10GB (VM VLAN Net)

Darauf je Host aktuell 13 Windows Server VMs

Von Server 2019 bis 2025 alles dabei.

Immer im 2er oder 3-5er Gespann mit

Domänen Controller, Terminalserver, Applikation Server und Exchange.

Der Host Storage ist aktuell zu 20% belegt.

Unser Firmen System läuft auch auf diesem Cluster, mit DC, TS, 2 AS, und einem EX

Und genau hier haben wir nun aktuell das Problem dass die Server nicht laufen.

Unser DC läuft nach 10 min in einen IO-Error sobald last von einem anderem Server auf den DC läuft.

Bitte um Hilfe..

Und ja wir haben uns aktuell für ein Storage Je Host entschieden da unser FC-Storage noch durch VM-Ware im Einsatz ist.

Aktuell laufen in dem Cluster um die 30-40 VMs wobei wir ab und zu abwechselnd auf jedem Host einen Server haben der einen IO-Error auswirft.

Meist lässt sich dieser mit einem Neustart beheben, aber aktuell läuft unser eigener DC immer wieder in einen IO-Error nach 10 min..

Mehr Infos und Command Logs kann ich ab morgen 8 Uhr geben..

cwt · Apr 6, 2026

SAS NVME? Oder meintest Du SSDs?

RAID5 ist für so ein Setup ein denkbar schlechter Storage. Einen DC kann man eigentlich nicht so unter Last setzen, wenn auf dem Ding nix läuft außer AD/DNS. RAID5 wird bei parallelen kleinen random writes sehr schnell unschön. Wenn dann noch der Controller hängt oder die FW Macken hat, reagiert Windows da empfindlich.

Da Ihr das Problem auf allen Hosts habt, würde ich mir mal die Controller anschauen. FW, Controller Policy und die power settings im BIOS bzgl. PCIe & Co.

plurgi95 · Apr 7, 2026

cwt said:
SAS NVME? Oder meintest Du SSDs?

RAID5 ist für so ein Setup ein denkbar schlechter Storage. Einen DC kann man eigentlich nicht so unter Last setzen, wenn auf dem Ding nix läuft außer AD/DNS. RAID5 wird bei parallelen kleinen random writes sehr schnell unschön. Wenn dann noch der Controller hängt oder die FW Macken hat, reagiert Windows da empfindlich.

Da Ihr das Problem auf allen Hosts habt, würde ich mir mal die Controller anschauen. FW, Controller Policy und die power settings im BIOS bzgl. PCIe & Co.

Ich meine SAS NVMe also NVMes mit SAS Anschluss.

Und warum ist Raid5 Hier Schlecht?
Bei RAID 1+0 Hätten wir nur 50% der Festplatten Kapazität
und bei RAID 6 Währe ja genau dass gleiche nur halt mit 2 Platten Spare.

Wenn die Controller dass Problem währen müssten doch mehrere Server dieses Problem haben,
Aktuell sind auf jedem Host im Cluster 10-15 Windows VServer davon ungefähr 5-7 Domänen Controller die nur den dienst des AD/DNS erledigt.
Und nur bei unserem eigenem DC tritt dass problem auf.

cwt · Apr 7, 2026

Parity RAID Setups (5, 6, Z, etc.) sind für solche Workloads generell schlecht. Zwar erhält man die maximale Kapazität, aber das hat seinen Preis.

RAID5 hat einen write penalty und insbesondere hohe Latenzen bei kleinen writes. Windows VM workloads - insbesondere Terminalserver und DCs - machen viele kleine random writes, syncs und parallele IOs. Das ergibt Queue-Probleme und Latenzspitzen. Gerade Eure DCs reagieren auf sowas empfindlich. Exchange oder Terminalserver "finden" sowas auch nicht toll.

Mit RAID6 würdet Ihr noch schlechter fahren, da 2x Parity Disks und somit noch mehr write penalty als RAID5. Für solch eine Umgebung wäre RAID1+0 (striped mirror) der Standard (trotz Kapazitätseinbußen).

Wahrscheinlich passiert folgendes:

- VMs erzeugen Last, RAID5/Controller kommt an seine Grenzen
- Queue, Cache oder Firmware zickt
- einzelne IOs laufen in einen Timeout
- Windows meldet: I/O Error
- der DC "stirbt" zuerst, weil sensibel

Neustart -> Queue leer & Cache reset. Läuft dann zwar wieder, aber nur für kurze Zeit.

Prüfe auf dem PVE folgendes:

Code:

dmesg -T | egrep -i 'error|fail|timeout|reset'

Falls Du solche Meldungen findest:

- command timeout
- I/O error
- resetting controller

hast Du den Schuldigen schon gefunden. Je nach Controller würde ich auch mal deren entsprechende Logs überprüfen.

plurgi95 · Apr 7, 2026

PVE01

Bash:

[Tue Apr  7 09:36:20 2026] sd 0:0:0:0: [sda] tag#136 Sense Key : Recovered Error [current]
[Tue Apr  7 09:36:20 2026] sd 0:0:1:0: [sdb] tag#232 Sense Key : Recovered Error [current]
[Tue Apr  7 09:52:30 2026] sd 0:0:1:0: [sdb] tag#368 Sense Key : Recovered Error [current]
[Tue Apr  7 09:52:30 2026] sd 0:0:0:0: [sda] tag#552 Sense Key : Recovered Error [current]
[Tue Apr  7 09:53:02 2026] sd 0:0:1:0: [sdb] tag#499 Sense Key : Recovered Error [current]
[Tue Apr  7 09:53:02 2026] sd 0:0:0:0: [sda] tag#470 Sense Key : Recovered Error [current]

PVE02

Bash:

[Thu Apr  2 10:57:54 2026] sd 1:0:1:0: [sdb] tag#28 Sense Key : Recovered Error [current]
[Thu Apr  2 10:57:55 2026] sd 1:0:0:0: [sda] tag#53 Sense Key : Recovered Error [current]
[Thu Apr  2 10:58:00 2026] sd 1:0:1:0: [sdb] tag#376 Sense Key : Recovered Error [current]
[Thu Apr  2 10:58:00 2026] sd 1:0:0:0: [sda] tag#277 Sense Key : Recovered Error [current]
[Thu Apr  2 11:04:58 2026] sd 1:0:1:0: [sdb] tag#255 Sense Key : Recovered Error [current]
[Thu Apr  2 11:04:58 2026] sd 1:0:0:0: [sda] tag#155 Sense Key : Recovered Error [current]
[Tue Apr  7 09:06:49 2026] sd 1:0:0:0: [sda] tag#169 Sense Key : Recovered Error [current]
[Tue Apr  7 09:06:49 2026] sd 1:0:1:0: [sdb] tag#141 Sense Key : Recovered Error [current]

Komisch aber dass dies nur bei Einem von insgesamt 6 DCs auf dem host auftritt.
Es ist ja immer nur ein einzelner server betroffen nie aber alle DCs alle TS oder Alle EX/AS Server..

Immer nur einer von 13 VMs die dieses problem hat und nach einem Neustart meistens wieder läuft ohne dass dies wieder auftritt.

Nochmal kurz zum Verständniss:
PVE01 hat insgesamt 5x DC, TS | 1x DC, TS, SBS, Portal | 1x DC Only | 1x TS Only | 1x TS, AS
PVE02 hat unsere Umgebung Bestehend aus DC (Aktuell auf PVE01), TS01, TS02, EX, AS01, AS02, DMS, / 3 LXC Container
PVE02 hat zudem noch 1x DC, TS, AS | 1x DC, TS | 1x DC Only

Die DC Only sind nur AD-Server für Umgebungen bei Kunden die nur einen AD benötigen der nicht Lokal Läuft da diese Kunden sich via VPN ins Netz einwählen.

Die TS/AS Only sind mit DC die DCs liegen hier aber noch auf VM-Ware ESXI 8
und Unser DC ist auf PVE01 verschoben läuft jetzt seit 2,5 Stunden stabil, die Hosts sind beide Gleich eingerichtet, Hardware ist in beiden die Gleiche bis auf die CPU die im PVE01 ist eine Generation älter.

Raid-Controller in beiden Hosts: HPE Smart Array P816i-a SR Gen10
RAM-Riegel in beiden Hosts: Mixed Zwischen MT/s PVE02 hat 2933MHz RAM, PVE01 hat 2400/2666MHz RAM alles aber HPE Registered RAM

SSDs in beiden Hosts Jeweils
2x 400GB 12G SAS SSD HPE Model No: MO400JFFCF
6x 3.2TB 12G SAS SSD HPE Model No: MO003200JWUGA

Rest ist Identisch.
Firmware aller Hardware, ILO und Bios sind Aktuell.

// RAID Problematik
Meine Chefs zu überzeugen auf RAID 1+0 umzusteigen wird leider nichts da diese auch von Diversen "Experten" gesagt bekommen haben im HW-Raid immer RAID5/6 nutzen. und in einem Shared Storage wenn wir alles auf PVE umgestellt haben kann man denn über Raid 1+0 nachdenken in einem CEPH-Storage.

cwt · Apr 7, 2026

2x 400GB 12G SAS SSD HPE Model No: MO400JFFCF
6x 3.2TB 12G SAS SSD HPE Model No: MO003200JWUGA

Das sind SSDs, nur am Rande.

sda & sdb sind wahrscheinlich die beiden Boot Mirror Laufwerke?

Wenn die Firmware von BIOS, iLO und Controller aktuell ist, würde ich im nächsten Schritt einen Full Report des SSA ziehen und analysieren. Ebenso mal überprüfen, ob die Firmware der SSDs ggf. zu alt ist oder unterschiedliche Versionsstände aufweist.

Zum Fehler "Sense Key: Recovered Error": laut HP ist das ein "abnormal success". Zwar kein endgültiger Medienfehler, aber auch kein sauberer Normalzustand. Solche Fehler passen gut in die Kette Controller <-> Backplane <-> Laufwerk <-> Firmware. Dass "nur" der DC betroffen ist, schließt Probleme in der Kette nicht aus. Gerade latency-sensitive VMs wie DC, Exchange oder SQL fallen bei solchen Themen oft zuerst auf, während andere Gäste scheinbar weiterlaufen.

plurgi95 · Apr 7, 2026

cwt said:
Das sind SSDs, nur am Rande.

sda & sdb sind wahrscheinlich die beiden Boot Mirror Laufwerke?

Oh JA sorry mein Fehler.
Sind Tatsächlich nur SSDs weil aber immer von NVMes Die Rede war hab ich dass so übernommen..

Und SDA/SDB sind die beiden Boot Mirror Laufwerke ja.

cwt said:
Wenn die Firmware von BIOS, iLO und Controller aktuell ist, würde ich im nächsten Schritt einen Full Report des SSA ziehen und analysieren. Ebenso mal überprüfen, ob die Firmware der SSDs ggf. zu alt ist oder unterschiedliche Versionsstände aufweist.

Zum Fehler "Sense Key: Recovered Error": laut HP ist das ein "abnormal success". Zwar kein endgültiger Medienfehler, aber auch kein sauberer Normalzustand. Solche Fehler passen gut in die Kette Controller <-> Backplane <-> Laufwerk <-> Firmware. Dass "nur" der DC betroffen ist, schließt Probleme in der Kette nicht aus. Gerade latency-sensitive VMs wie DC, Exchange oder SQL fallen bei solchen Themen oft zuerst auf, während andere Gäste scheinbar weiterlaufen.

Ja Gut dazu müsste ich den Host runterfahren, dass geht erst gegen abend damit ich auf die SSA rauf komme.

Bu66as · Apr 9, 2026

Den Host musst du dafür nicht runterfahren. Installier dir ssacli aus dem HPE MCP Repo und dann direkt im laufenden Betrieb:

Code:

ssacli ctrl all show config detail

Zeigt dir SSD-Firmware, Cache-Status, Errors usw. ohne Downtime. Btw, die "Recovered Error" aus deinem dmesg sind auf sda/sdb, also den Boot-Platten. Das VM-Storage (RAID5) wäre ein anderes Logical Drive, da müsstest du nochmal schauen ob da auch was kommt.

Falk R. · Apr 21, 2026

Hast du von der VM mal ein Backup gemacht? Was passiert wenn du die VM auf einen anderen Host verschiebst?
Wenn sich da ein Konsistenzfehler eingeschlichen hat, dann solltest du sofort Lotto spielen.

Das ist mega selten und habe ich bisher erst einmal vor ca. 15 Jahren gesehen. Da gab es anscheinend mehrere Bitflips auf mindestens 2 HDD, aber so, dass die prüfsumme der Full Stripe wieder passte. Deshalb hat der Raid Controller munter weiter gemacht obwohl da Daten Korrupt waren. Auch da war nur eine VM betroffen und sobald man in der VM oder beim Full Backup auf diesen Bereich zugegriffen hat, ist die VM abgeschmiert.
Damals hat nur ein Full Restore der VM geholfen und die Daten einfach überschreiben hat die inkonsistenz entfernt.

Das ist Mega selten, aber nicht unmöglich.
P.S. bei den HPE SA Controller bitte unbedingt Smart Path deaktivieren und den Controller Cache aktivieren bei Raid5 oder 6.

plurgi95 · Apr 22, 2026

Falk R. said:
Hast du von der VM mal ein Backup gemacht? Was passiert wenn du die VM auf einen anderen Host verschiebst?
Wenn sich da ein Konsistenzfehler eingeschlichen hat, dann solltest du sofort Lotto spielen.
Das ist mega selten und habe ich bisher erst einmal vor ca. 15 Jahren gesehen. Da gab es anscheinend mehrere Bitflips auf mindestens 2 HDD, aber so, dass die prüfsumme der Full Stripe wieder passte. Deshalb hat der Raid Controller munter weiter gemacht obwohl da Daten Korrupt waren. Auch da war nur eine VM betroffen und sobald man in der VM oder beim Full Backup auf diesen Bereich zugegriffen hat, ist die VM abgeschmiert.
Damals hat nur ein Full Restore der VM geholfen und die Daten einfach überschreiben hat die inkonsistenz entfernt.

Das ist Mega selten, aber nicht unmöglich.
P.S. bei den HPE SA Controller bitte unbedingt Smart Path deaktivieren und den Controller Cache aktivieren bei Raid5 oder 6.

Wir haben den Fehler identifizieren können, Die RAID Controller die verbaut waren waren für die SSDs die verbaut waren schlicht zu Alt und zu Inperformant.

Wir haben auf HBA umgestellt und nutzen nun ZFS-Raid dass läuft zwar etwa 10% langsamer als mit HW-Raid aber dass ist ja einstellungssache

cwt · Apr 22, 2026

Schön zu hören. Magst Du den Thread dann auf „Solved“ setzen?

Falk R. · Apr 22, 2026

plurgi95 said:
Wir haben den Fehler identifizieren können, Die RAID Controller die verbaut waren waren für die SSDs die verbaut waren schlicht zu Alt und zu Inperformant.

Wir haben auf HBA umgestellt und nutzen nun ZFS-Raid dass läuft zwar etwa 10% langsamer als mit HW-Raid aber dass ist ja einstellungssache

Das kann gar nicht sein. Die Raid Controller sind sogar optimiert für SSDs.
Maximal falsche Einstellungen bremsen da. Wenn man die Default Einstellungen nutzt wo Smartpath aktiv ist, wird es extrem langsam bei Raid5 und 6.
Smartpath ist für Raid0 und Raid1 gedacht um die Latenz zu senken, aber sobald man mit Paritäten arbeitet muss man Smartpath deaktivieren und den Batteriecache aktivieren.
Damit holt man ein vielfaches an Performance aus den SSDs.

Search

Search

[SOLVED] Proxmox + Windows VM

plurgi95

Member

cwt

Renowned Member

plurgi95

Member

cwt

Renowned Member

plurgi95

Member

cwt

Renowned Member

plurgi95

Member

Bu66as

Famous Member

Falk R.

Distinguished Member

plurgi95

Member

cwt

Renowned Member

Falk R.

Distinguished Member

We value your privacy