Hallo Zusammen,
ich bin gerade etwas verunsichert ob ich ein größeres Problem mit meinem neuen Proxmox Server habe und hoffe hier kann mir jemand helfen.
Ich habe mir aus den folgenden Komponente einen kleinen Server aufgebaut:
Gigabyte B550I Aorus Pro AX
AMD Ryzen 7 5700G
2x Kingston Server Premier - DDR4 - 32 GB ungepuffert ECC
2x Samsung NVME M.2 SSD 980 1TB
Die beiden SSDs habe ich bei der Installation als ZFS mirror Pool konfiguriert und Proxmox 7.1-1 installiert.
Nach minimaler Einrichtung habe ich etwa 600GB Daten von einem anderen NAS per NFS share und rsync auf den ZFS mirror Pool kopiert.
Dann kamen noch zwei 8TB Festplatten WD-Red WD80EFAX über SATA dazu die ich auch als ZFS mirror Pool konfiguriert habe.
Auf den so entstandenen Speicher habe ich dann wieder per rsync die 600GB Daten von den SSDs und zusätzlich noch Daten von einer externen Festplatte auf diesen Pool kopiert.
Beim Kopieren der Daten von den SSDs auf die Festplatten kam eine Fehlermeldung bei einer der Dateien, dass sie aufgrund eines Input/Output Errors nicht kopiert werden konnte.
zpool status -v hat auch einen "Permanent error" für eben diese Datei angezeigt und auf beiden SSDs war die Anzahl der CKSUM error identisch.
Zusätzlich kam diese Meldung
status: One or more devices has experienced an error resulting in data corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the entire pool from backup.
see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
Da die Datei mir nicht sonderlich wichtig war hab ich sie gelöscht und nach einigem hin und her sowie ein bisschen Scrubs habe ich die Fehlermeldung beseitigt.
Danach habe ich dann aber plötzlich auf dem Festplatten Pool das selbe Problem nach einem Scrub festgestellt.
CKSUM error sind wieder identisch auf beiden Festplatten - eine Reperatur ist nicht möglich.
Die Datei mit dem Fehler kam dabei diesmal von der externen Festplatte.
Zuerst dachte ich das könnte vielleicht am RAM liegen und habe direkt memtest durchlaufen lassen.
Dieser lief 5 Durchläufe über 8 Stunden und hat keinen Fehler feststellen können.
Ich bin gerade etwas ratlos was ich probieren oder testen könnte um sicherzustellen dass ich kein größeres Problem habe.
Ich dachte auch irgendwie, dass es ja der Sinn von mirror Pools ist Daten redundant zu speichern aber wie kann es dazu kommen dass die Fehler schon auf beide Speicher geschrieben wird?
Die Daten an sich hab ich noch auf diversen Backups aber es wäre natürlich obviously das Ziel dass ich mich auf die Dateiintegrität auf dem Server verlassen kann.
Hat jemand eine Idee?
Beste Grüße
Wolfgang
ich bin gerade etwas verunsichert ob ich ein größeres Problem mit meinem neuen Proxmox Server habe und hoffe hier kann mir jemand helfen.
Ich habe mir aus den folgenden Komponente einen kleinen Server aufgebaut:
Gigabyte B550I Aorus Pro AX
AMD Ryzen 7 5700G
2x Kingston Server Premier - DDR4 - 32 GB ungepuffert ECC
2x Samsung NVME M.2 SSD 980 1TB
Die beiden SSDs habe ich bei der Installation als ZFS mirror Pool konfiguriert und Proxmox 7.1-1 installiert.
Nach minimaler Einrichtung habe ich etwa 600GB Daten von einem anderen NAS per NFS share und rsync auf den ZFS mirror Pool kopiert.
Dann kamen noch zwei 8TB Festplatten WD-Red WD80EFAX über SATA dazu die ich auch als ZFS mirror Pool konfiguriert habe.
Auf den so entstandenen Speicher habe ich dann wieder per rsync die 600GB Daten von den SSDs und zusätzlich noch Daten von einer externen Festplatte auf diesen Pool kopiert.
Beim Kopieren der Daten von den SSDs auf die Festplatten kam eine Fehlermeldung bei einer der Dateien, dass sie aufgrund eines Input/Output Errors nicht kopiert werden konnte.
zpool status -v hat auch einen "Permanent error" für eben diese Datei angezeigt und auf beiden SSDs war die Anzahl der CKSUM error identisch.
Zusätzlich kam diese Meldung
status: One or more devices has experienced an error resulting in data corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the entire pool from backup.
see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
Da die Datei mir nicht sonderlich wichtig war hab ich sie gelöscht und nach einigem hin und her sowie ein bisschen Scrubs habe ich die Fehlermeldung beseitigt.
Danach habe ich dann aber plötzlich auf dem Festplatten Pool das selbe Problem nach einem Scrub festgestellt.
Code:
pool: dpool
state: ONLINE
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
scan: scrub repaired 0B in 01:21:50 with 1 errors on Sun Dec 12 01:45:51 2021
config:
NAME STATE READ WRITE CKSUM
dpool ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
ata-WDC_WD80EFAX-68KNBN0_VG0566ZG ONLINE 0 0 4
ata-WDC_WD80EFAX-68KNBN0_VG058MYG ONLINE 0 0 4
errors: Permanent errors have been detected in the following files:
CKSUM error sind wieder identisch auf beiden Festplatten - eine Reperatur ist nicht möglich.
Die Datei mit dem Fehler kam dabei diesmal von der externen Festplatte.
Zuerst dachte ich das könnte vielleicht am RAM liegen und habe direkt memtest durchlaufen lassen.
Dieser lief 5 Durchläufe über 8 Stunden und hat keinen Fehler feststellen können.
Ich bin gerade etwas ratlos was ich probieren oder testen könnte um sicherzustellen dass ich kein größeres Problem habe.
Ich dachte auch irgendwie, dass es ja der Sinn von mirror Pools ist Daten redundant zu speichern aber wie kann es dazu kommen dass die Fehler schon auf beide Speicher geschrieben wird?
Die Daten an sich hab ich noch auf diversen Backups aber es wäre natürlich obviously das Ziel dass ich mich auf die Dateiintegrität auf dem Server verlassen kann.
Hat jemand eine Idee?
Beste Grüße
Wolfgang