Proxmox-ZFS-VM-Disks corrupt

uibmz · Aug 24, 2020

Hallo zusammen,

in unserer Umgebung zerlegt es hin und wieder VMs, dabei kommt es zu ext4 filesystem Fehlern bzw. in Teilen ist auch die Partitionstabelle von einzelnen Maschinen verschwunden.

Beide Nodes sind wie folgt konfiguriert:

INI:

root@prodnode1:~# zpool list -v
NAME                                        SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
pool_spinning                              3.62T  1.04T  2.59T        -         -    12%    28%  1.00x    ONLINE  -
  mirror                                    928G   220G   708G        -         -    11%  23.7%      -  ONLINE
    sdm                                        -      -      -        -         -      -      -      -  ONLINE
    sdn                                        -      -      -        -         -      -      -      -  ONLINE
  mirror                                    928G   266G   662G        -         -    13%  28.7%      -  ONLINE
    sdo                                        -      -      -        -         -      -      -      -  ONLINE
    sdp                                        -      -      -        -         -      -      -      -  ONLINE
  mirror                                    928G   290G   638G        -         -    13%  31.2%      -  ONLINE
    sdq                                        -      -      -        -         -      -      -      -  ONLINE
    sdr                                        -      -      -        -         -      -      -      -  ONLINE
  mirror                                    928G   284G   644G        -         -    14%  30.6%      -  ONLINE
    sds                                        -      -      -        -         -      -      -      -  ONLINE
    sdt                                        -      -      -        -         -      -      -      -  ONLINE
pool_ssd                                   2.60T  1.67T   955G        -         -    30%    64%  1.00x    ONLINE  -
  mirror                                    444G   285G   159G        -         -    29%  64.2%      -  ONLINE
    sda                                        -      -      -        -         -      -      -      -  ONLINE
    sdb                                        -      -      -        -         -      -      -      -  ONLINE
  mirror                                    444G   285G   159G        -         -    30%  64.2%      -  ONLINE
    sdc                                        -      -      -        -         -      -      -      -  ONLINE
    sdd                                        -      -      -        -         -      -      -      -  ONLINE
  mirror                                    444G   285G   159G        -         -    30%  64.1%      -  ONLINE
    sde                                        -      -      -        -         -      -      -      -  ONLINE
    sdf                                        -      -      -        -         -      -      -      -  ONLINE
  mirror                                    444G   285G   159G        -         -    31%  64.1%      -  ONLINE
    sdg                                        -      -      -        -         -      -      -      -  ONLINE
    sdh                                        -      -      -        -         -      -      -      -  ONLINE
  mirror                                    444G   285G   159G        -         -    31%  64.2%      -  ONLINE
    sdi                                        -      -      -        -         -      -      -      -  ONLINE
    sdj                                        -      -      -        -         -      -      -      -  ONLINE
  mirror                                    444G   285G   159G        -         -    32%  64.2%      -  ONLINE
    sdk                                        -      -      -        -         -      -      -      -  ONLINE
    sdl                                        -      -      -        -         -      -      -      -  ONLINE

Der Fehler tritt bei überdurchschnittlicher IO Last auf.
Die VMs wechseln dann bei ext4 in den RO Modus
In Teilen war ein fsck nicht mehr möglich sodass wir vom Backup Restoren mussten.

Wenn die Partitionstabelle wegflog konnten wir uns noch mit testdisk behelfen.

Beide Server sind Supermicro Machinen, eine ist eine SC216BE1C-R920LPB mit einem X10-DRi-T Board und einem 9361-8i RAID-Controller im JBOD Modus und die andere ist eine SC216BE1C-R920LPB mit einem X11-DPi-NT Board und einem Broadcom SAS III HBA 9300-8i

Wäre der Fehler nur auf dem RAID-Controller Node, so würde ich auch von einem Dahergehenden Problem ausgehen. Dem ist leider nicht so.

Beide Server haben die gleiche Backplane ( BPN-SAS3-216EL1 ) und die verwendeten Platten sind:
- INTEL_SSDSC2KB240G8
- HGST_HTE721010A9E630

wolfgang · Aug 25, 2020

Hi,

welchen bustype verwendest du bei den vdisk der VMs?
wenn es sata/ide is t bitte auf virtio oder scsi mit virtio controller wechseln.

uibmz · Aug 25, 2020

Hi Wolfgang,

danke für deine Rückmeldung.
Tatsächlich verwenden wir ide/sata bei vielen der VMs, welchen Unterschied macht es denn ob ich auf VirtioBlock oder auf SCSI mit Virtio SCSI Controller gehe?

Beste Grüße

Thomas

wolfgang · Aug 25, 2020

Es ist bekannt das IDE/SATA bei heruntergefahren syncs verloren gehen können und das dieses zu den von dir beobachten Verhalten führen kann.
Außerdem ist ide/SATA sehr viel langsamer und hat viele Features wir discard, iothread, ... nicht

uibmz · Aug 25, 2020

hi Wolfgang,

danke für deinen Rat. Wir haben jetzt alle VMs auf VirtIO Block bzw. VirtIO SCSI Controller scsi Disks umgestellt.
Der beschrieben Fehler ist zuvor auf einem Hardware-Raid Local-Storage jedoch nicht aufgetreten, gibt es da tatsächlich eine ZFS spezifische Ursache?

Beste Grüße

Thomas

wigor · Aug 25, 2020

Wir haben das (auch) bei CEPH. Leider ist das System in der VM so alt, dass ich nur IDE kann.

wolfgang · Aug 26, 2020

uibmz said:
Der beschrieben Fehler ist zuvor auf einem Hardware-Raid Local-Storage jedoch nicht aufgetreten, gibt es da tatsächlich eine ZFS spezifische Ursache?

Ich nehme an das bei ZFS das Sync-Verhalten aggressiver ist, was eher zu diesem Problem führt.
Das Verhalten ist auch bekannt von anderen Storagetypen.

wolfgang · Aug 26, 2020

wigor said:
Wir haben das (auch) bei CEPH. Leider ist das System in der VM so alt, dass ich nur IDE kann.

Vielleicht unterstützt dein System SCSI mit LSI(MEGARAID) Controller?

uibmz · Aug 26, 2020

wolfgang said:
Ich nehme an das bei ZFS das Sync-Verhalten aggressiver ist, was eher zu diesem Problem führt.
Das Verhalten ist auch bekannt von anderen Storagetypen.

Hallo Wolfgang,

danke dir für den Hinweis, wir schauen mal ob sich das Verhalten in unserer Umgebung nun gebessert hat....

Beste Grüße aus Mainz

Thomas

wigor · Aug 28, 2020

wolfgang said:
Vielleicht unterstützt dein System SCSI mit LSI(MEGARAID) Controller?

Hallo Wolfgang,

ohne weitere Worte:
Linux <hostname> 2.2.14 #1 Mon May 15 11:35:14 MEST 2000 i?86 unknown

Ich bin froh, dass ich das mit

net0: pcnet=<....>

am Laufen habe.

Gruß

Search

Search

Proxmox-ZFS-VM-Disks corrupt

uibmz

Renowned Member

wolfgang

Proxmox Retired Staff

uibmz

Renowned Member

wolfgang

Proxmox Retired Staff

uibmz

Renowned Member

wigor

Active Member

wolfgang

Proxmox Retired Staff

wolfgang

Proxmox Retired Staff

uibmz

Renowned Member

wigor

Active Member