Hallo NG
Ich muss euch mal um Rat bei einem Server bitten welcher immer wieder ZFS Fault fehler bringt
Es handelt sich um ein Supermicro System mit Epic CPU
Anbei Daten zum PVE:
proxmox-ve: 6.2-1 (running kernel: 5.4.34-1-pve)
pve-manager: 6.2-4 (running version: 6.2-4/9824574a)
pve-kernel-5.4: 6.2-1 pve-kernel-helper: 6.2-1
pve-kernel-5.4.34-1-pve: 5.4.34-2
Im System sind folgende Disks verbaut
Beim befüllen des ZFS mit den 3 HDD wurde ein ZFS Fault gemeldet
Meldung siehe Error1 unten
Darauf hin haben wir die defekte Disk getauscht und ein resilver durchgeführt.
System war ok
Ca 1 Woche später erhielten wir ein ZFS Fault error am ZFS1 (4x SSD)
Siehe Error 2
Smart sieht recht ok aus, daher meine Frage woran kann es liegen, dass die Disks in diesem System immer wieder auf degraded fallen?
ERROR1 (HDD)
Resilvering von Error1
ERROR2 (SSD)
Resilvering Error2
Meine Frage>:
Sind hier wirklich immer die Disks defekt oder könnte es ein Softwareproblem sein?
Vielen Dank und schöne Grüße
Roland
Ich muss euch mal um Rat bei einem Server bitten welcher immer wieder ZFS Fault fehler bringt
Es handelt sich um ein Supermicro System mit Epic CPU
Anbei Daten zum PVE:
proxmox-ve: 6.2-1 (running kernel: 5.4.34-1-pve)
pve-manager: 6.2-4 (running version: 6.2-4/9824574a)
pve-kernel-5.4: 6.2-1 pve-kernel-helper: 6.2-1
pve-kernel-5.4.34-1-pve: 5.4.34-2
Im System sind folgende Disks verbaut
* 2x nvme
** zfs - pve
* 4x SSD SAMSUNG_MZ7KH1T9
** zfs1 - Daten
* 3x HDD WD HGST Ultrastar - 0F27352
** zfs1 - Archiv Daten
Beim befüllen des ZFS mit den 3 HDD wurde ein ZFS Fault gemeldet
Meldung siehe Error1 unten
Darauf hin haben wir die defekte Disk getauscht und ein resilver durchgeführt.
System war ok
Ca 1 Woche später erhielten wir ein ZFS Fault error am ZFS1 (4x SSD)
Siehe Error 2
Smart sieht recht ok aus, daher meine Frage woran kann es liegen, dass die Disks in diesem System immer wieder auf degraded fallen?
ERROR1 (HDD)
ZFS device fault for pool 0xF5CC5A39AE06E521 on xxx
The number of checksum errors associated with a ZFS deviceexceeded acceptable levels. ZFS has marked the device as
degraded.
impact: Fault tolerance of the pool may be compromised.
eid: 50
class: statechange
state: DEGRADED
host:
time: 2020-12-13 00:52:40+0100
vpath: /dev/sde1
vphys: pci-0000:43:00.0-sas-phy5-lun-0
vguid: 0x22FFF8E8F8376C8B
devid: scsi-35000cca2a204e710-part1
pool: 0xF5CC5A39AE06E521
Resilvering von Error1
ZFS has finished a resilver:
eid: 57
class: resilver_finish
host:
time: 2020-12-14 18:00:30+0100
pool: zfs02
state: DEGRADED
scan: resilvered 644G in 0 days 07:07:54 with 0 errors on Mon Dec 14 18:00:30 2020
config:
NAME STATE READ WRITE CKSUM
zfs02 DEGRADED 0 0 0
raidz1-0 DEGRADED 0 0 0
replacing-0 DEGRADED 0 0 0
2522007995831250059 FAULTED 0 0 0 was /dev/sde1
sdg ONLINE 0 0 0
wwn-0x5000cca27ee11dc8 ONLINE 0 0 0
wwn-0x5000cca2a20524b8 ONLINE 0 0 0
errors: No known data errors
ERROR2 (SSD)
ZFS device fault for pool 0xD83FC66CF5393C2A on slpvep01
The number of I/O errors associated with a ZFS device exceeded
acceptable levels. ZFS has marked the device as faulted.
impact: Fault tolerance of the pool may be compromised.
eid: 85
class: statechange
state: FAULTED
host:
time: 2020-12-29 21:07:24+0100
vpath: /dev/disk/by-id/wwn-0x5002538e10342220-part1
vphys: pci-0000:43:00.0-sas-phy0-lun-0
vguid: 0x07B660D8E068CBC9
devid: scsi-35002538e10342220-part1
pool: 0xD83FC66CF5393C2A
Resilvering Error2
ZFS has finished a resilver:
eid: 93
class: resilver_finish
host: slpvep01
time: 2020-12-30 09:37:06+0100
pool: zfs01
state: ONLINE
scan: resilvered 2.28G in 0 days 00:00:08 with 0 errors on Wed Dec 30 09:37:06 2020
config:
NAME STATE READ WRITE CKSUM
zfs01 ONLINE 0 0 0
raidz1-0 ONLINE 0 0 0
scsi-35002538e10342222 ONLINE 0 0 0
wwn-0x5002538e10342213 ONLINE 0 0 0
wwn-0x5002538e10342220 ONLINE 0 0 0
wwn-0x5002538e1034221f ONLINE 0 0 0
errors: No known data errors
Meine Frage>:
Sind hier wirklich immer die Disks defekt oder könnte es ein Softwareproblem sein?
Vielen Dank und schöne Grüße
Roland