[SOLVED] Ständig Windows VMs mit kaputtem Filesystem

Hi ich setze Proxmox jetzt seit 3 Monaten bei einem Kunden ein. In dieser Zeit hatte ich 7 Vorfälle, in denen VMs einfach so zerstört wurden und aus Backups wiederhergestellt werden mussten.

Der Kunde hat 5 Windows-Server VMs auf einem physischen Server, der mit Proxmox virtualisiert ist. Insgesamt 6 Festplatten, 2 SSD, 4 HDD, die HDDs sind per ZFS "Raid" kombiniert und die 2 SSDs als Write-Cache ebenfalls ausfallsicher eingebunden. Der server hat keinen SWAP aber 128 GB Ram. Die VMs belegen etwa 64 GB Ram, für ZFS ist also genug übrig.

Nachts läuft ein Backup über alle VMs mit ZSTD Compression. Morgens sind dann einige VMs frozen, oder kaputt.

Die Systeme sind wie folgt eingestellt:
- BIOS OVMF (UEFI)
- Machine pc-i440fx-6.1 oder pc-q35-5.1
- SCSCI Controller VirtIO SCSI
- DVD/Rom (leer)
- Hard Disks (SCSI): aio=threads,cache=writethrough,iothread=1
ich hab auch schon io_uring probiert. Führt auch zu Fehlern.

Hier ein Beispiel:
Bildschirmfoto 2022-07-01 um 12.33.43.png
Bildschirmfoto 2022-07-01 um 12.36.11.png

Wie kann es sein, dass ich ständig Daten verliere? Was mache ich falsch?
 
Last edited:
Und welche Versionen sind im Einsatz?
Welche Hardware?
 
Last edited:
Und die Modelle der SSDs und Disks wären auch hilfreich.
Never mind... ist im Screenshot zu sehen...
 
Last edited:
Virtual Environment 7.2-4
Ok, ist dein erster Thread.... aber du darfst gerne bisschen mehr zu Hardware/Controller etc. schreiben... sonst packt meine Glaskugel das leider nicht....
 
Okay, ja klar, ich dachte, es hätte vielleicht einfach etwas mit der Konfiguration der VMs zu tun.

Was braucht ihr noch?


Delock Kabel USB 3.0 Pin Header Buchse > USB 2.0 Pin Header Stecker 30 cm1
Supermicro Mainboard H12SSL-i1
16x SATA-3 + 2x M.2 / 8x SATA-3 + 2x NVMe + 2x M.2 (Ohne RAID)1
2x 1 Gbit/s on Board LAN (Broadcom BCM5720)1
AMD EPYC 7502P (2,50 GHz, 32-Core, 128 MB)1
128 GB (4x 32GB) ECC Reg Samsung DDR4 3200 RAM1
10 TB SATA III Western Digital Ultrastar DC HC330 3,5" 7.2k (512e)2
1,92 TB SATA III Intel SSD 3D-NAND TLC 2,5" (D3-S4520)2
2x 2,5" Einbaukit1
SATA Kabel 59cm2
SATA Kabel 81cm2
Supermicro SlimLine SAS Kabel (gewinkelt/gerade) 0,7m (1x SFF-8654 [x8] / 8x SATA, SATA)1
1x 600 Watt Netzteil (80plus Platinum)1
2HE aktiv CPU-Kühler1
Ausziehbare Montageschienen1
Front USB Kit (2x USB, 1x COM-Port)1
Keine Linux Vorinstallation1
Keine Windows Vorinstallation1
Essential-Paket (D): 24 Monate1
Sata Stromadapter1
Zubehör
Online Doppelwandlungs USV - Xanto-Serie1
 

Attachments

  • Bildschirmfoto 2022-07-01 um 13.08.43.png
    Bildschirmfoto 2022-07-01 um 13.08.43.png
    70.8 KB · Views: 6
  • server1-pve-report-Fri-01-July-2022-13-09.txt
    70.1 KB · Views: 5
Danke erstmal für die schnelle Hilfe. Die sind als Logs eingebunden.

root@server1:~# zpool status
pool: rpool
state: ONLINE
scan: scrub repaired 0B in 09:56:30 with 0 errors on Sun Jun 12 10:20:34 2022
remove: Removal of vdev 0 copied 1.28G in 0h0m, completed on Sun Apr 10 11:32:33 2022
29.6K memory used for removed device mappings
config:

NAME STATE READ WRITE CKSUM
rpool ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
ata-WDC_WD30EFRX-68N32N0_WD-WCC7K5VS7UTL ONLINE 0 0 0
ata-WDC_WD30EFRX-68N32N0_WD-WCC7K7KH3AXA ONLINE 0 0 0
mirror-3 ONLINE 0 0 0
ata-WDC_WUS721010ALE6L4_VCJV273P ONLINE 0 0 0
ata-WDC_WUS721010ALE6L4_VCJV46NP ONLINE 0 0 0
logs
mirror-2 ONLINE 0 0 0
ata-INTEL_SSDSC2KB019TZ_BTYI1371013E1P9DGN-part3 ONLINE 0 0 0
ata-INTEL_SSDSC2KB019TZ_BTYI1371013G1P9DGN-part3 ONLINE 0 0 0

errors: No known data errors

oot@server1:~# zfs list
NAME USED AVAIL REFER MOUNTPOINT
rpool 10.2T 1.51T 120K /rpool
rpool/ROOT 2.81G 1.51T 96K /rpool/ROOT
rpool/ROOT/pve-1 2.81G 1.51T 2.81G /
rpool/backup 7.06T 1.51T 7.06T /rpool/backup
rpool/data 96K 1.51T 96K /rpool/data
rpool/iso 22.3G 1.51T 22.3G /rpool/iso
rpool/vm-100-disk-0 3.14M 1.51T 144K -
rpool/vm-100-disk-1 95.8G 1.57T 30.0G -
rpool/vm-100-disk-2 120G 1.61T 16.6G -
rpool/vm-100-disk-3 53.0G 1.56T 1.44G -
rpool/vm-101-disk-0 3.12M 1.51T 128K -
rpool/vm-101-disk-1 164G 1.63T 32.0G -
rpool/vm-101-disk-2 3M 1.51T 56K -
rpool/vm-102-disk-0 551G 1.80T 213G -
rpool/vm-102-disk-1 3M 1.51T 56K -
rpool/vm-102-disk-2 3M 1.51T 56K -
rpool/vm-102-disk-3 3M 1.51T 56K -
rpool/vm-102-disk-4 3.27M 1.51T 108K -
rpool/vm-103-disk-0 3.10M 1.51T 104K -
rpool/vm-103-disk-1 1.22T 2.21T 527G -
rpool/vm-104-disk-0 3M 1.51T 112K -
rpool/vm-104-disk-1 103G 1.59T 16.7G -
rpool/vm-104-disk-2 825G 1.83T 496G -
rpool/vz 96K 1.51T 96K /rpool/vz
 
Hallo,

Bei Backups bietet es sich an, den QEMU Gast-Agent zu verwenden. Ist dieser in den VMs installiert?

Viele Grüße,
Benedikt
 
Auf allen VMs ist QEMU installiert und eingerichtet.
Gerade jetzt ist wieder eine VM kaputtgegangen. Inzwischen habe ich leider Datenausfall in der Firma. Ich hab jetzt alle VMs außer den Domain-Controller runtergefahren. Vor Ort steht die Arbeit. Ich hab jetzt auf jeden Fall einen Datenausfall der Arbeit von heute bis gestern Abend (letztes Backup)
 
Das Backup "vzdump" geht dann wohin? Auch auf den ZFS-Pool. Der muss also die komplette Disk lesen und wieder schreiben, weil lokales Backup ist ja nicht so effizient wie ein PBS-Backup.

Könnte mir vorstellen das der SLOG da stress bekommt und die normalen Platten sind eh relativ langsam.... dann kommen Disk-Timeouts im Gast und die VM macht "mist"....

Reduzier mal in den Optionen die Bandbreiten/Durchsatz für Backups auf irgendwas lächerlich niedriges.... 100MiB/s oder so.... ggf. sogar nur 50....
 
Auf allen VMs ist QEMU installiert und eingerichtet.
Gerade jetzt ist wieder eine VM kaputtgegangen. Inzwischen habe ich leider Datenausfall in der Firma. Ich hab jetzt alle VMs außer den Domain-Controller runtergefahren. Vor Ort steht die Arbeit. Ich hab jetzt auf jeden Fall einen Datenausfall der Arbeit von heute bis gestern Abend (letztes Backup)
Wir haben auch Notdienst für sowas.... oder falls du entsprechende Subscription hast Proxmox direkt....
 
Vielen Dank für die Antwort. Ich habe leider nur Community Subscription. Das mit den Timeouts würde passen. Es ist immer in Verbindung mit hohen IO-Delays gewesen (Backups werden geschrieben, oder wiederhergestellt).

Ich begrenze mal. Ich hätte aber nicht gedacht, dass das solche Auswirkungen hat.
 
Vielen Dank für die Antwort. Ich habe leider nur Community Subscription. Das mit den Timeouts würde passen. Es ist immer in Verbindung mit hohen IO-Delays gewesen (Backups werden geschrieben, oder wiederhergestellt).

Ich begrenze mal. Ich hätte aber nicht gedacht, dass das solche Auswirkungen hat.
Was soll ZFS machen, wenn ein Job mit VOLLGAS rein pustet. Es tut was es kann, bis es eben nicht mehr kann....

Und für die VMs kann man auch begrenzen.... ich würd ja mal drauf schauen..... ;)
 
Verstehe ich. Ich hätte erwartet, dass es sich reguliert. Zu naiv gedacht.

Ich würde mich über einen professionellen Blick auf meine Config freuen. Ich bin leider Proxmox-Neuling. Wir dachten, es wäre besser, mit dem neuen Server weg vom Windows-Hypervisor zu gehen. Inzwischen bereue ich das ein wenig...
 
Verstehe ich. Ich hätte erwartet, dass es sich reguliert. Zu naiv gedacht.

Ich würde mich über einen professionellen Blick auf meine Config freuen. Ich bin leider Proxmox-Neuling. Wir dachten, es wäre besser, mit dem neuen Server weg vom Windows-Hypervisor zu gehen. Inzwischen bereue ich das ein wenig...
Auch HyperV reguliert da nix, ohne manuellen Eingriff... wenn da ein RAID sowohl VM-Space als auch Backup-Ziel ist, fangen die Gäste auch an mist zu machen.....

Proxmox ist das Schweizer Taschenmesser unter den Virtualisierern.... aber auch das will "beherrscht und verstanden" werden....

Kontakt über mein Profil bei Bedarf.
 
Wir bearbeiten aktuell folgende These:

Durch das aktuelle ZFS Setup, bei dem Backups, VMs und OS auf dem gleichen Pool liegen, werden die IO Delays zu hoch. Insbesondere, wenn Backupjobs laufen, wird kritisch. Die Windows-VMs bekommen dann Timeouts bei den Write-Operationen.

Aktuell operiere ich das System mit sehr starken Bandwidth Limitationen, um weitere Probleme zu verhindern. Ziel ist es, alle Daten wiederherzustellen und die VMs wieder lauffähig zu bekommen. Um die Probleme dauerhaft zu beseitigen, sind folgende Schritte geplant:

1. Backup aller VMs auf ein externes Device (mit niedriger Bandwidth, um keine neuen Probleme zu erzeugen)
2. Proxmox neu installieren: OS, Backups und VMs jeweils auf eigene Pools
3. Sinnvolle IO Limits setzen.

Die VMs haben wir zusätzlich mit IO_URING, DISCARD, IO_THREAD, SSD Emulation eingestellt.
Discard, um die Fragmentierung im ZFS zu verringern. IO_URING, als aktueller PVE Default, sollte am stabilsten sein. IO_THREAD, damit jeder SCSCI Controller einen eigenen Thread bekommt. SSD Emulation, damit Windows die Festplatten wie SSDs behandelt.

Zusätzlich wurden die IO Bandwidth der Guests auf aktuell 50 MB/s eingeschränkt. Ich berichte, wenn das Setup abgeschlossen ist und es ein paar Tage gelaufen ist.

Danke allen für die Hilfestellung :)
 
  • Like
Reactions: itNGO
Auch nicht vergessen, dass sich ZFS standardmäßig bis 50% vom RAM genehmigt. Haben die Gäste 64GB + einige GB Virtualisierungs-Overhead von KVM + 2GB für PVE + bis zu 64GB für ZFS, dann kann es durchaus dazu kommen, dass da deine 128GB RAM nicht reichen und da swap fehlt könnte OOM dir VMs killen. Hat wohl nichts mit dem aktuellen Problem zu tun, wenn du keine abgestürzten VMs vorfindest, wollte da aber trotzdem mal drauf hinweisen, da wieviele das mit dem 50% ARC nicht einplanen.

Und der QEMU Guest Agent Service läuft wirklich (Also WebUI zeigt z.B. in der Summary der VM auch die IPs etc)? Also auch wirklich der Guest Agent Service installiert und nicht nur die Virtio Treiber? Und 'QEMU Guest Agent' im WebUI unter Options für die VMs aktiviert? Weil ohne laufenen Gastagent findet ja kein fsfreeze statt um die Caches zu Flushen, dass da die Backups konsistent wären.
 
Last edited:
  • Like
Reactions: Neobin
Die Backups gehen in den gleichen Pool.

Ich bin mal dieser eine Klugscheißer, der im Vorbeigehen sagt, dass ein Backup (vor allem wenn es das Einzige sein sollte), welches auf der selben Hardware (insbesondere Disks) wie die zu sichernden Daten liegt, kein vernünftiges Backup ist; zumindest kein Disaster-sicheres. ;)

Sollte das nicht die Anforderung sein, was ich aufgrund dieser Aussage:
Inzwischen habe ich leider Datenausfall in der Firma. Ich hab jetzt alle VMs außer den Domain-Controller runtergefahren. Vor Ort steht die Arbeit. Ich hab jetzt auf jeden Fall einen Datenausfall der Arbeit von heute bis gestern Abend (letztes Backup)
allerdings bezweifle, habe ich nichts gesagt. :)

Was mich allerdings stutzig macht:
[13:35] Gerade jetzt ist wieder eine VM kaputtgegangen.
Also tagsüber. Die Backups laufen aber nur (?) nachts. Wie hoch war denn der IO Delay zum Zeitpunkt des Ausfalls der VM? Also entweder etwas Anderes (in den VMs) verursacht ebenfalls einen (zu) hohen IO Delay und/oder es liegt (noch) ein anderes Problem vor.
Schon mal einen Memtest durchlaufen lassen? Langer SMART-Test über alle HDDs?
Einfach mal in den Raum geworfen, da keine Praxis-Erfahrung: Vielleicht ist auch das ganze Storage-Konstrukt generell (IO-mäßig) (zu Spitzenzeiten) überfordert mit den VMs und deren Diensten darin?
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!