Nach dem Upgrade auf Proxmox 7 ist das ZFS-RAID 2 wiederholt degraded

chrwa · Sep 11, 2021

Hallo,

nachdem ich 4 unserer Server auf Proxmox 7 hochgezogen habe, sind ständig die ZFS-Raids degraded. Es werden verschiedene HDD's oder SSD's als defekt eingestuft und aus dem RAID genommen. Nach zpool clear xxx-zfs ist erst einmal alles wieder in Ordnung. Eine Überprüfung mit smartctl -a ergibt, dass alle Platten fehlerfrei sind . Die übrigen Server mit der alten Version von Proxmox weisen dieses Verhalten nicht auf.

Vielen Dank schon mal im Voraus

fireon · Sep 11, 2021

Hattest du dieses Verhalten vor dem Upgrade auch schon, oder erst danach? Ist der Server dabei unter Heavy Load? Siehst etwas brauchbares im Log?

chrwa · Sep 12, 2021

Hallo,

vielen Dank erst einmal.
Ich habe in dieser Konstellation 14 Server laufen, von denen nur die Server mit Proxmox 7 dieses Verhalten zeigen.
Die Last ist nach dem Upgrade sowohl in der Grundlast als auch in den Spitzen höher, beide Werte grob verdoppelt.
Bei 2 Servern hat sich der Speicherbedarf mal eben von 100 GB auf 200 GB verdoppelt, obwohl die Gäste sich nicht verändert haben.
Wenn eine Platte im ZFS-Pool als "degraded" markiert wird, reagieren die Gastserver auch sehr viel langsamer.
Nebenbei die Hardware: 2 * AMD EPYC 7301 16-Core / 256 GByte / 6 SSD's raidz2-0 / 8 HDD's raidz2-0

Im Syslog steht unter anderem:
Sep 11 22:07:59 prox-xx-01 kernel: [365301.966150] zio pool=sata-zfs vdev=/dev/sdh1 error=5 type=1 offset=311568666624 size=24576 flags=1808a8
Sep 11 22:07:59 prox-xx-01 kernel: [365301.982433] zio pool=sata-zfs vdev=/dev/sdh1 error=5 type=1 offset=311568646144 size=20480 flags=1808a8
Sep 11 22:07:59 prox-xx-01 kernel: [365301.995828] zio pool=sata-zfs vdev=/dev/sdh1 error=5 type=1 offset=311568621568 size=20480 flags=1808a8
Sep 11 22:08:00 prox-xx-01 kernel: [365303.636317] zio pool=sata-zfs vdev=/dev/sdh1 error=5 type=1 offset=311582863360 size=20480 flags=1808a8
Sep 11 22:08:00 prox-xx-01 kernel: [365303.636321] zio pool=sata-zfs vdev=/dev/sdh1 error=5 type=1 offset=311580786688 size=1036288 flags=40080ca8
Sep 11 22:08:00 prox-xx-01 kernel: [365303.637262] zio pool=sata-zfs vdev=/dev/sdh1 error=5 type=1 offset=311581822976 size=1040384 flags=40080ca8
Sep 11 22:10:43 prox-xx-01 smartd[7718]: Device: /dev/sdh [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 84 to 70
Sep 12 13:40:58 prox-xx-01 smartd[7718]: Device: /dev/sdh [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 70 to 72
Sep 12 13:40:58 prox-xx-01 smartd[7718]: Device: /dev/sdh [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 71 to 70
Sep 12 13:40:58 prox-xx-01 smartd[7718]: Device: /dev/sdh [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 29 to 30
Sep 12 14:11:03 prox-xx-01 smartd[7718]: Device: /dev/sdh [SAT], CHECK POWER STATUS spins up disk (0x81 -> 0xff)

Ergebnis von smartrctl -a /dev/sdh :
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 072 064 044 Pre-fail Always - 16816800
3 Spin_Up_Time 0x0003 093 093 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 15
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 094 060 045 Pre-fail Always - 2536720350
9 Power_On_Hours 0x0032 075 075 000 Old_age Always - 22282
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 15
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0 0 53
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 069 057 040 Old_age Always - 31 (Min/Max 28/34)
191 G-Sense_Error_Rate 0x0032 085 085 000 Old_age Always - 30008
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 171
193 Load_Cycle_Count 0x0032 075 075 000 Old_age Always - 51661
194 Temperature_Celsius 0x0022 031 043 000 Old_age Always - 31 (0 15 0 0 0)
195 Hardware_ECC_Recovered 0x001a 001 001 000 Old_age Always - 16816800
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 20405h+45m+58.214s
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 221545667859
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 100251719588

SMART Error Log Version: 1
No Errors Logged

Kann es sein, dass die 7 mit AMD Stress hat? Auf 8 Intel-Servern läuft alles wie gwohnt.

Viele Grüße

dcsapak · Sep 13, 2021

chrwa said:
Sep 11 22:07:59 prox-xx-01 kernel: [365301.966150] zio pool=sata-zfs vdev=/dev/sdh1 error=5 type=1 offset=311568666624 size=24576 flags=1808a8
Sep 11 22:07:59 prox-xx-01 kernel: [365301.982433] zio pool=sata-zfs vdev=/dev/sdh1 error=5 type=1 offset=311568646144 size=20480 flags=1808a8
Sep 11 22:07:59 prox-xx-01 kernel: [365301.995828] zio pool=sata-zfs vdev=/dev/sdh1 error=5 type=1 offset=311568621568 size=20480 flags=1808a8
Sep 11 22:08:00 prox-xx-01 kernel: [365303.636317] zio pool=sata-zfs vdev=/dev/sdh1 error=5 type=1 offset=311582863360 size=20480 flags=1808a8
Sep 11 22:08:00 prox-xx-01 kernel: [365303.636321] zio pool=sata-zfs vdev=/dev/sdh1 error=5 type=1 offset=311580786688 size=1036288 flags=40080ca8
Sep 11 22:08:00 prox-xx-01 kernel: [365303.637262] zio pool=sata-zfs vdev=/dev/sdh1 error=5 type=1 offset=311581822976 size=1040384 flags=40080ca8
Sep 11 22:10:43 prox-xx-01 smartd[7718]: Device: /dev/sdh [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 84 to 70
Sep 12 13:40:58 prox-xx-01 smartd[7718]: Device: /dev/sdh [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 70 to 72

sieht nach einer sterbenden festplatte aus (oder kaputtes kabel/controller/etc)
error=5 == Input/Output Error, was soviel heißt er konnte nicht davon lesen/darauf schreiben

chrwa · Sep 13, 2021

Hallo,

die Festplatten sind laut smart vollkommen i.O. Es wird vollkommen wahlfrei jedesmal eine andere Festplatte als defekt ausgehängt. Also kann es eigentlich nur eine Inkompatibilität vom Proxmox 7 mit dem Controller sein?
Broadcom / LSI SAS3224 PCI-Express Fusion-MPT SAS-3 (rev 01)

Dunuin · Sep 13, 2021

Klingt für mich auch nach einem Problem mit dem Controller. Du könntest ja mal gucken ob da zwischen PVE6 und PVE7 die LSI Treiber des Kernels aktualisiert wurden. Vielleicht läuft da jetzt einfach ein neuer Treiber und der verträgt sich nicht mit der Hardware.
Falls das der Fall wäre könnte man die Firmware des Controllers aktualisieren oder zur Not den neuen Treiber entfernen und durch den alten lauffähigen ersetzen.

chrwa · Oct 14, 2021

Hallo Dunuin,

Controller war natürlich richtig. Ein BIOS-Update alleine hat nicht gereicht, die Firmware mußte auch auf den neuesten Stand gebracht werden. Zur Info - LSI hat die FW-Datei auf .bin umbenannt, das Manual aber nicht angepasst.

Search

Search

Nach dem Upgrade auf Proxmox 7 ist das ZFS-RAID 2 wiederholt degraded

chrwa

Member

fireon

Distinguished Member

chrwa

Member

dcsapak

Proxmox Staff Member

chrwa

Member

Dunuin

Distinguished Member

chrwa

Member