Proxmox + Windows VM

plurgi95

Member
Aug 22, 2023
12
2
8
Ich bräuchte mal Hilfe..

Ich hab in der Firma ein Proxmox Cluster mit 3 Gleichen Hostsystemen.

2x Intel Xeon Gold 6234/6134
768 GB DDR4 2400MT/s RAM ECC REG
2x 400GB NVMe SAS im ZRaid1 (Boot Platte)
6x 3,84TB NVMe SAS im HW-RAID 5 (VM-Storage)
2x 10GBit (Cluster Netzwerk)
2x 10GB (VM VLAN Net)

Darauf je Host aktuell 13 Windows Server VMs

Von Server 2019 bis 2025 alles dabei.

Immer im 2er oder 3-5er Gespann mit

Domänen Controller, Terminalserver, Applikation Server und Exchange.


Der Host Storage ist aktuell zu 20% belegt.

Unser Firmen System läuft auch auf diesem Cluster, mit DC, TS, 2 AS, und einem EX

Und genau hier haben wir nun aktuell das Problem dass die Server nicht laufen.

Unser DC läuft nach 10 min in einen IO-Error sobald last von einem anderem Server auf den DC läuft.

Bitte um Hilfe..

Und ja wir haben uns aktuell für ein Storage Je Host entschieden da unser FC-Storage noch durch VM-Ware im Einsatz ist.

Aktuell laufen in dem Cluster um die 30-40 VMs wobei wir ab und zu abwechselnd auf jedem Host einen Server haben der einen IO-Error auswirft.

Meist lässt sich dieser mit einem Neustart beheben, aber aktuell läuft unser eigener DC immer wieder in einen IO-Error nach 10 min..

Mehr Infos und Command Logs kann ich ab morgen 8 Uhr geben..
 
SAS NVME? Oder meintest Du SSDs?

RAID5 ist für so ein Setup ein denkbar schlechter Storage. Einen DC kann man eigentlich nicht so unter Last setzen, wenn auf dem Ding nix läuft außer AD/DNS. RAID5 wird bei parallelen kleinen random writes sehr schnell unschön. Wenn dann noch der Controller hängt oder die FW Macken hat, reagiert Windows da empfindlich.

Da Ihr das Problem auf allen Hosts habt, würde ich mir mal die Controller anschauen. FW, Controller Policy und die power settings im BIOS bzgl. PCIe & Co.
 
  • Like
Reactions: news and Johannes S
SAS NVME? Oder meintest Du SSDs?

RAID5 ist für so ein Setup ein denkbar schlechter Storage. Einen DC kann man eigentlich nicht so unter Last setzen, wenn auf dem Ding nix läuft außer AD/DNS. RAID5 wird bei parallelen kleinen random writes sehr schnell unschön. Wenn dann noch der Controller hängt oder die FW Macken hat, reagiert Windows da empfindlich.

Da Ihr das Problem auf allen Hosts habt, würde ich mir mal die Controller anschauen. FW, Controller Policy und die power settings im BIOS bzgl. PCIe & Co.
Ich meine SAS NVMe also NVMes mit SAS Anschluss.

Und warum ist Raid5 Hier Schlecht?
Bei RAID 1+0 Hätten wir nur 50% der Festplatten Kapazität
und bei RAID 6 Währe ja genau dass gleiche nur halt mit 2 Platten Spare.

Wenn die Controller dass Problem währen müssten doch mehrere Server dieses Problem haben,
Aktuell sind auf jedem Host im Cluster 10-15 Windows VServer davon ungefähr 5-7 Domänen Controller die nur den dienst des AD/DNS erledigt.
Und nur bei unserem eigenem DC tritt dass problem auf.
 
Parity RAID Setups (5, 6, Z, etc.) sind für solche Workloads generell schlecht. Zwar erhält man die maximale Kapazität, aber das hat seinen Preis.

RAID5 hat einen write penalty und insbesondere hohe Latenzen bei kleinen writes. Windows VM workloads - insbesondere Terminalserver und DCs - machen viele kleine random writes, syncs und parallele IOs. Das ergibt Queue-Probleme und Latenzspitzen. Gerade Eure DCs reagieren auf sowas empfindlich. Exchange oder Terminalserver "finden" sowas auch nicht toll.

Mit RAID6 würdet Ihr noch schlechter fahren, da 2x Parity Disks und somit noch mehr write penalty als RAID5. Für solch eine Umgebung wäre RAID1+0 (striped mirror) der Standard (trotz Kapazitätseinbußen).

Wahrscheinlich passiert folgendes:

- VMs erzeugen Last, RAID5/Controller kommt an seine Grenzen
- Queue, Cache oder Firmware zickt
- einzelne IOs laufen in einen Timeout
- Windows meldet: I/O Error
- der DC "stirbt" zuerst, weil sensibel

Neustart -> Queue leer & Cache reset. Läuft dann zwar wieder, aber nur für kurze Zeit.

Prüfe auf dem PVE folgendes:

Code:
dmesg -T | egrep -i 'error|fail|timeout|reset'

Falls Du solche Meldungen findest:

- command timeout
- I/O error
- resetting controller

hast Du den Schuldigen schon gefunden. Je nach Controller würde ich auch mal deren entsprechende Logs überprüfen.
 
  • Like
Reactions: Johannes S
PVE01
Bash:
[Tue Apr  7 09:36:20 2026] sd 0:0:0:0: [sda] tag#136 Sense Key : Recovered Error [current]
[Tue Apr  7 09:36:20 2026] sd 0:0:1:0: [sdb] tag#232 Sense Key : Recovered Error [current]
[Tue Apr  7 09:52:30 2026] sd 0:0:1:0: [sdb] tag#368 Sense Key : Recovered Error [current]
[Tue Apr  7 09:52:30 2026] sd 0:0:0:0: [sda] tag#552 Sense Key : Recovered Error [current]
[Tue Apr  7 09:53:02 2026] sd 0:0:1:0: [sdb] tag#499 Sense Key : Recovered Error [current]
[Tue Apr  7 09:53:02 2026] sd 0:0:0:0: [sda] tag#470 Sense Key : Recovered Error [current]

PVE02
Bash:
[Thu Apr  2 10:57:54 2026] sd 1:0:1:0: [sdb] tag#28 Sense Key : Recovered Error [current]
[Thu Apr  2 10:57:55 2026] sd 1:0:0:0: [sda] tag#53 Sense Key : Recovered Error [current]
[Thu Apr  2 10:58:00 2026] sd 1:0:1:0: [sdb] tag#376 Sense Key : Recovered Error [current]
[Thu Apr  2 10:58:00 2026] sd 1:0:0:0: [sda] tag#277 Sense Key : Recovered Error [current]
[Thu Apr  2 11:04:58 2026] sd 1:0:1:0: [sdb] tag#255 Sense Key : Recovered Error [current]
[Thu Apr  2 11:04:58 2026] sd 1:0:0:0: [sda] tag#155 Sense Key : Recovered Error [current]
[Tue Apr  7 09:06:49 2026] sd 1:0:0:0: [sda] tag#169 Sense Key : Recovered Error [current]
[Tue Apr  7 09:06:49 2026] sd 1:0:1:0: [sdb] tag#141 Sense Key : Recovered Error [current]

Komisch aber dass dies nur bei Einem von insgesamt 6 DCs auf dem host auftritt.
Es ist ja immer nur ein einzelner server betroffen nie aber alle DCs alle TS oder Alle EX/AS Server..

Immer nur einer von 13 VMs die dieses problem hat und nach einem Neustart meistens wieder läuft ohne dass dies wieder auftritt.

Nochmal kurz zum Verständniss:
PVE01 hat insgesamt 5x DC, TS | 1x DC, TS, SBS, Portal | 1x DC Only | 1x TS Only | 1x TS, AS
PVE02 hat unsere Umgebung Bestehend aus DC (Aktuell auf PVE01), TS01, TS02, EX, AS01, AS02, DMS, / 3 LXC Container
PVE02 hat zudem noch 1x DC, TS, AS | 1x DC, TS | 1x DC Only

Die DC Only sind nur AD-Server für Umgebungen bei Kunden die nur einen AD benötigen der nicht Lokal Läuft da diese Kunden sich via VPN ins Netz einwählen.

Die TS/AS Only sind mit DC die DCs liegen hier aber noch auf VM-Ware ESXI 8
und Unser DC ist auf PVE01 verschoben läuft jetzt seit 2,5 Stunden stabil, die Hosts sind beide Gleich eingerichtet, Hardware ist in beiden die Gleiche bis auf die CPU die im PVE01 ist eine Generation älter.

Raid-Controller in beiden Hosts: HPE Smart Array P816i-a SR Gen10
RAM-Riegel in beiden Hosts: Mixed Zwischen MT/s PVE02 hat 2933MHz RAM, PVE01 hat 2400/2666MHz RAM alles aber HPE Registered RAM

SSDs in beiden Hosts Jeweils
2x 400GB 12G SAS SSD HPE Model No: MO400JFFCF
6x 3.2TB 12G SAS SSD HPE Model No: MO003200JWUGA

Rest ist Identisch.
Firmware aller Hardware, ILO und Bios sind Aktuell.

// RAID Problematik
Meine Chefs zu überzeugen auf RAID 1+0 umzusteigen wird leider nichts da diese auch von Diversen "Experten" gesagt bekommen haben im HW-Raid immer RAID5/6 nutzen. und in einem Shared Storage wenn wir alles auf PVE umgestellt haben kann man denn über Raid 1+0 nachdenken in einem CEPH-Storage.