Hallo zusammen,
in unserer Umgebung zerlegt es hin und wieder VMs, dabei kommt es zu ext4 filesystem Fehlern bzw. in Teilen ist auch die Partitionstabelle von einzelnen Maschinen verschwunden.
Beide Nodes sind wie folgt konfiguriert:
Der Fehler tritt bei überdurchschnittlicher IO Last auf.
Die VMs wechseln dann bei ext4 in den RO Modus
In Teilen war ein fsck nicht mehr möglich sodass wir vom Backup Restoren mussten.
Wenn die Partitionstabelle wegflog konnten wir uns noch mit testdisk behelfen.
Beide Server sind Supermicro Machinen, eine ist eine SC216BE1C-R920LPB mit einem X10-DRi-T Board und einem 9361-8i RAID-Controller im JBOD Modus und die andere ist eine SC216BE1C-R920LPB mit einem X11-DPi-NT Board und einem Broadcom SAS III HBA 9300-8i
Wäre der Fehler nur auf dem RAID-Controller Node, so würde ich auch von einem Dahergehenden Problem ausgehen. Dem ist leider nicht so.
Beide Server haben die gleiche Backplane ( BPN-SAS3-216EL1 ) und die verwendeten Platten sind:
- INTEL_SSDSC2KB240G8
- HGST_HTE721010A9E630
in unserer Umgebung zerlegt es hin und wieder VMs, dabei kommt es zu ext4 filesystem Fehlern bzw. in Teilen ist auch die Partitionstabelle von einzelnen Maschinen verschwunden.
Beide Nodes sind wie folgt konfiguriert:
INI:
root@prodnode1:~# zpool list -v
NAME SIZE ALLOC FREE CKPOINT EXPANDSZ FRAG CAP DEDUP HEALTH ALTROOT
pool_spinning 3.62T 1.04T 2.59T - - 12% 28% 1.00x ONLINE -
mirror 928G 220G 708G - - 11% 23.7% - ONLINE
sdm - - - - - - - - ONLINE
sdn - - - - - - - - ONLINE
mirror 928G 266G 662G - - 13% 28.7% - ONLINE
sdo - - - - - - - - ONLINE
sdp - - - - - - - - ONLINE
mirror 928G 290G 638G - - 13% 31.2% - ONLINE
sdq - - - - - - - - ONLINE
sdr - - - - - - - - ONLINE
mirror 928G 284G 644G - - 14% 30.6% - ONLINE
sds - - - - - - - - ONLINE
sdt - - - - - - - - ONLINE
pool_ssd 2.60T 1.67T 955G - - 30% 64% 1.00x ONLINE -
mirror 444G 285G 159G - - 29% 64.2% - ONLINE
sda - - - - - - - - ONLINE
sdb - - - - - - - - ONLINE
mirror 444G 285G 159G - - 30% 64.2% - ONLINE
sdc - - - - - - - - ONLINE
sdd - - - - - - - - ONLINE
mirror 444G 285G 159G - - 30% 64.1% - ONLINE
sde - - - - - - - - ONLINE
sdf - - - - - - - - ONLINE
mirror 444G 285G 159G - - 31% 64.1% - ONLINE
sdg - - - - - - - - ONLINE
sdh - - - - - - - - ONLINE
mirror 444G 285G 159G - - 31% 64.2% - ONLINE
sdi - - - - - - - - ONLINE
sdj - - - - - - - - ONLINE
mirror 444G 285G 159G - - 32% 64.2% - ONLINE
sdk - - - - - - - - ONLINE
sdl - - - - - - - - ONLINE
Der Fehler tritt bei überdurchschnittlicher IO Last auf.
Die VMs wechseln dann bei ext4 in den RO Modus
In Teilen war ein fsck nicht mehr möglich sodass wir vom Backup Restoren mussten.
Wenn die Partitionstabelle wegflog konnten wir uns noch mit testdisk behelfen.
Beide Server sind Supermicro Machinen, eine ist eine SC216BE1C-R920LPB mit einem X10-DRi-T Board und einem 9361-8i RAID-Controller im JBOD Modus und die andere ist eine SC216BE1C-R920LPB mit einem X11-DPi-NT Board und einem Broadcom SAS III HBA 9300-8i
Wäre der Fehler nur auf dem RAID-Controller Node, so würde ich auch von einem Dahergehenden Problem ausgehen. Dem ist leider nicht so.
Beide Server haben die gleiche Backplane ( BPN-SAS3-216EL1 ) und die verwendeten Platten sind:
- INTEL_SSDSC2KB240G8
- HGST_HTE721010A9E630