Proxmox-ZFS-VM-Disks corrupt

uibmz

Renowned Member
Oct 29, 2015
31
1
73
Hallo zusammen,

in unserer Umgebung zerlegt es hin und wieder VMs, dabei kommt es zu ext4 filesystem Fehlern bzw. in Teilen ist auch die Partitionstabelle von einzelnen Maschinen verschwunden.

Beide Nodes sind wie folgt konfiguriert:
INI:
root@prodnode1:~# zpool list -v
NAME                                        SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
pool_spinning                              3.62T  1.04T  2.59T        -         -    12%    28%  1.00x    ONLINE  -
  mirror                                    928G   220G   708G        -         -    11%  23.7%      -  ONLINE
    sdm                                        -      -      -        -         -      -      -      -  ONLINE
    sdn                                        -      -      -        -         -      -      -      -  ONLINE
  mirror                                    928G   266G   662G        -         -    13%  28.7%      -  ONLINE
    sdo                                        -      -      -        -         -      -      -      -  ONLINE
    sdp                                        -      -      -        -         -      -      -      -  ONLINE
  mirror                                    928G   290G   638G        -         -    13%  31.2%      -  ONLINE
    sdq                                        -      -      -        -         -      -      -      -  ONLINE
    sdr                                        -      -      -        -         -      -      -      -  ONLINE
  mirror                                    928G   284G   644G        -         -    14%  30.6%      -  ONLINE
    sds                                        -      -      -        -         -      -      -      -  ONLINE
    sdt                                        -      -      -        -         -      -      -      -  ONLINE
pool_ssd                                   2.60T  1.67T   955G        -         -    30%    64%  1.00x    ONLINE  -
  mirror                                    444G   285G   159G        -         -    29%  64.2%      -  ONLINE
    sda                                        -      -      -        -         -      -      -      -  ONLINE
    sdb                                        -      -      -        -         -      -      -      -  ONLINE
  mirror                                    444G   285G   159G        -         -    30%  64.2%      -  ONLINE
    sdc                                        -      -      -        -         -      -      -      -  ONLINE
    sdd                                        -      -      -        -         -      -      -      -  ONLINE
  mirror                                    444G   285G   159G        -         -    30%  64.1%      -  ONLINE
    sde                                        -      -      -        -         -      -      -      -  ONLINE
    sdf                                        -      -      -        -         -      -      -      -  ONLINE
  mirror                                    444G   285G   159G        -         -    31%  64.1%      -  ONLINE
    sdg                                        -      -      -        -         -      -      -      -  ONLINE
    sdh                                        -      -      -        -         -      -      -      -  ONLINE
  mirror                                    444G   285G   159G        -         -    31%  64.2%      -  ONLINE
    sdi                                        -      -      -        -         -      -      -      -  ONLINE
    sdj                                        -      -      -        -         -      -      -      -  ONLINE
  mirror                                    444G   285G   159G        -         -    32%  64.2%      -  ONLINE
    sdk                                        -      -      -        -         -      -      -      -  ONLINE
    sdl                                        -      -      -        -         -      -      -      -  ONLINE

Der Fehler tritt bei überdurchschnittlicher IO Last auf.
Die VMs wechseln dann bei ext4 in den RO Modus
In Teilen war ein fsck nicht mehr möglich sodass wir vom Backup Restoren mussten.

Wenn die Partitionstabelle wegflog konnten wir uns noch mit testdisk behelfen.

Beide Server sind Supermicro Machinen, eine ist eine SC216BE1C-R920LPB mit einem X10-DRi-T Board und einem 9361-8i RAID-Controller im JBOD Modus und die andere ist eine SC216BE1C-R920LPB mit einem X11-DPi-NT Board und einem Broadcom SAS III HBA 9300-8i

Wäre der Fehler nur auf dem RAID-Controller Node, so würde ich auch von einem Dahergehenden Problem ausgehen. Dem ist leider nicht so.

Beide Server haben die gleiche Backplane ( BPN-SAS3-216EL1 ) und die verwendeten Platten sind:
- INTEL_SSDSC2KB240G8
- HGST_HTE721010A9E630
 
Hi,

welchen bustype verwendest du bei den vdisk der VMs?
wenn es sata/ide is t bitte auf virtio oder scsi mit virtio controller wechseln.
 
Hi Wolfgang,

danke für deine Rückmeldung.
Tatsächlich verwenden wir ide/sata bei vielen der VMs, welchen Unterschied macht es denn ob ich auf VirtioBlock oder auf SCSI mit Virtio SCSI Controller gehe?

Beste Grüße

Thomas
 
Es ist bekannt das IDE/SATA bei heruntergefahren syncs verloren gehen können und das dieses zu den von dir beobachten Verhalten führen kann.
Außerdem ist ide/SATA sehr viel langsamer und hat viele Features wir discard, iothread, ... nicht
 
hi Wolfgang,

danke für deinen Rat. Wir haben jetzt alle VMs auf VirtIO Block bzw. VirtIO SCSI Controller scsi Disks umgestellt.
Der beschrieben Fehler ist zuvor auf einem Hardware-Raid Local-Storage jedoch nicht aufgetreten, gibt es da tatsächlich eine ZFS spezifische Ursache?

Beste Grüße

Thomas
 
Wir haben das (auch) bei CEPH. Leider ist das System in der VM so alt, dass ich nur IDE kann.
 
Der beschrieben Fehler ist zuvor auf einem Hardware-Raid Local-Storage jedoch nicht aufgetreten, gibt es da tatsächlich eine ZFS spezifische Ursache?
Ich nehme an das bei ZFS das Sync-Verhalten aggressiver ist, was eher zu diesem Problem führt.
Das Verhalten ist auch bekannt von anderen Storagetypen.
 
Wir haben das (auch) bei CEPH. Leider ist das System in der VM so alt, dass ich nur IDE kann.
Vielleicht unterstützt dein System SCSI mit LSI(MEGARAID) Controller?
 
Ich nehme an das bei ZFS das Sync-Verhalten aggressiver ist, was eher zu diesem Problem führt.
Das Verhalten ist auch bekannt von anderen Storagetypen.
Hallo Wolfgang,

danke dir für den Hinweis, wir schauen mal ob sich das Verhalten in unserer Umgebung nun gebessert hat....

Beste Grüße aus Mainz

Thomas
 
Vielleicht unterstützt dein System SCSI mit LSI(MEGARAID) Controller?
Hallo Wolfgang,

ohne weitere Worte:
Linux <hostname> 2.2.14 #1 Mon May 15 11:35:14 MEST 2000 i?86 unknown

Ich bin froh, dass ich das mit

net0: pcnet=<....>

am Laufen habe.

Gruß
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!