Permanent Errors auf neuem mirror-Pool

Wofey · Dec 12, 2021

Hallo Zusammen,

ich bin gerade etwas verunsichert ob ich ein größeres Problem mit meinem neuen Proxmox Server habe und hoffe hier kann mir jemand helfen.
Ich habe mir aus den folgenden Komponente einen kleinen Server aufgebaut:
Gigabyte B550I Aorus Pro AX
AMD Ryzen 7 5700G
2x Kingston Server Premier - DDR4 - 32 GB ungepuffert ECC
2x Samsung NVME M.2 SSD 980 1TB

Die beiden SSDs habe ich bei der Installation als ZFS mirror Pool konfiguriert und Proxmox 7.1-1 installiert.
Nach minimaler Einrichtung habe ich etwa 600GB Daten von einem anderen NAS per NFS share und rsync auf den ZFS mirror Pool kopiert.
Dann kamen noch zwei 8TB Festplatten WD-Red WD80EFAX über SATA dazu die ich auch als ZFS mirror Pool konfiguriert habe.
Auf den so entstandenen Speicher habe ich dann wieder per rsync die 600GB Daten von den SSDs und zusätzlich noch Daten von einer externen Festplatte auf diesen Pool kopiert.
Beim Kopieren der Daten von den SSDs auf die Festplatten kam eine Fehlermeldung bei einer der Dateien, dass sie aufgrund eines Input/Output Errors nicht kopiert werden konnte.
zpool status -v hat auch einen "Permanent error" für eben diese Datei angezeigt und auf beiden SSDs war die Anzahl der CKSUM error identisch.
Zusätzlich kam diese Meldung
status: One or more devices has experienced an error resulting in data corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the entire pool from backup.
see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A

Da die Datei mir nicht sonderlich wichtig war hab ich sie gelöscht und nach einigem hin und her sowie ein bisschen Scrubs habe ich die Fehlermeldung beseitigt.
Danach habe ich dann aber plötzlich auf dem Festplatten Pool das selbe Problem nach einem Scrub festgestellt.

Code:

  pool: dpool
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
  scan: scrub repaired 0B in 01:21:50 with 1 errors on Sun Dec 12 01:45:51 2021
config:

        NAME                                   STATE     READ WRITE CKSUM
        dpool                                  ONLINE       0     0     0
          mirror-0                             ONLINE       0     0     0
            ata-WDC_WD80EFAX-68KNBN0_VG0566ZG  ONLINE       0     0     4
            ata-WDC_WD80EFAX-68KNBN0_VG058MYG  ONLINE       0     0     4

errors: Permanent errors have been detected in the following files:

CKSUM error sind wieder identisch auf beiden Festplatten - eine Reperatur ist nicht möglich.
Die Datei mit dem Fehler kam dabei diesmal von der externen Festplatte.

Zuerst dachte ich das könnte vielleicht am RAM liegen und habe direkt memtest durchlaufen lassen.
Dieser lief 5 Durchläufe über 8 Stunden und hat keinen Fehler feststellen können.

Ich bin gerade etwas ratlos was ich probieren oder testen könnte um sicherzustellen dass ich kein größeres Problem habe.
Ich dachte auch irgendwie, dass es ja der Sinn von mirror Pools ist Daten redundant zu speichern aber wie kann es dazu kommen dass die Fehler schon auf beide Speicher geschrieben wird?
Die Daten an sich hab ich noch auf diversen Backups aber es wäre natürlich obviously das Ziel dass ich mich auf die Dateiintegrität auf dem Server verlassen kann.

Hat jemand eine Idee?

Beste Grüße
Wolfgang

Dunuin · Dec 13, 2021

ZFS ist immer nur so stabil wie die Hardware auf der es läuft. Findet der Fehler schon in der CPU/RAM statt und sind die Daten schon korrumpiert, bevor ZFS diese auf die Disks schreibt und dann schreibt ZFS natürlich die gleichen kaputten Daten auf beide Disks. Ähnliche Probleme gibt es mit der Stromversorgung (Stromausfall oder einfach nur zu niedrige Spannungen) wo dann beide Laufwerke gleichzeitig ihren flüchtigen Cache (eingebauter RAM Schreibcache)verlieren, sofern man keine Enterprise SSDs gekauft hat, welche eine eingebaute Notstromversorgung (Powerloss Protection) mitbringen. Dann verlieren beide Disks gleichzeitig ihre Daten, die noch im Cache waren, und ZFS kann dann auch nichts mehr machen.

Ich hätte da auch auf RAM getippt, auf defekte Kabel (was ja aber bei NVMes nicht sein kann) oder SMR HDDs (was die WD80EFAX aber nicht sein sollten). Sofern du noch ein anderes Netzteil herumliegen hast würde ich mal versuchen ob ein tausch etwas bringt. Und dann naütrlich nicht vergessen das BIOS zu aktualisieren, falls das ein bekanntes Problem ist und eine neue Version vom Microcode das was mit der CPU fixen kann.

Wofey · Dec 13, 2021

Ja genau die Festplatten hatte ich damals auch deswegen ausgewählt weil sie eben keine SMR sondern CMR Platten sein sollten. SATA Kabel kann ich bei den Festplatten natürlich mal austauschen. BIOS Update hab ich gleich als erstes gemacht als ich den Rechner zusammengebaut habe. Muss ich mit den beobachteten Fehlern Sorgen haben dass weitere vorhandene Daten verloren gehen oder ist das eher auf neu geschriebene Daten beschränkt? Gibt es eine sinnvolle Möglichkeit das ganze zu testen indem man bestimmte Daten schreibt und wieder liest? Ich würde halt schon gerne rausfinden ob ich definitiv irgendwas austauschen muss oder ob das jetzt ein Einzelfall war.

Dunuin · Dec 14, 2021

Ich würde die bestehenden Daten auf jedenfall einmal sichern. Fehler an der falschen Stelle und der ganze Pool ist hinüber.
Zum Testen wie oft die Fehler auftauchen könntest du die Pools zu 80% mit temporären Daten vollschreiben, dann Scrub laufen lassen und gucken ob es wieder Checksum Fehler gibt, dann temporäre Daten löschen und alles so oft wiederholen wie du magst.
Mir persönlich wäre das aber viel zu heikel den Server richtig zu wenden. Ein Server taugt nicht wirklich etwas, wenn man nie weiß, ob die Daten den nächsten Tag noch da sind oder ob alle Dienste noch laufen. Ich würde da dann so lange Teile zurückschicken/austauschen, bis es keine Probleme mehr gibt. Ist halt nur doof wenn man nicht weiß wo das Problem denn liegt. Wenn du den RAM mal über Nacht mit memtest86 maltretiert hast , ohne Fehler zu haben, dann würde ich wie gesagt mal das Netzteil tauschen (was ja auch CPU/RAM/HDDs/Chipsatz/Onboard-Controller und Co zum Spinnen bringen kann) und wenn das nichts hilft Mainboard und CPU einschicken sofern noch keine 6 Monate alt.

Wenn du denkst das könnte ein Software-Problem sein, dann könntest du testweise auch mal ein ein älteres FreeNAS mit den 4 Disks aufsetzen und gucken ob die Fehler weiterhin bestehen. FreeNAS ist ja Unix statt Linux also hättest du gleich ein ganz anderes Betriebssystem, andere Treiber und eine ältere ZFS version. Probleme mit den Disks selbst würde ich jetzt erstmal ausschließen, weil ja alle 4 Stück die Probleme haben und diese dann auch gleichzeitig. Wenn ein Wechsel auf FreeNAS nichts bringt, dann kann es höchstens noch andere defekte Hardware sein.

Search

Search

Permanent Errors auf neuem mirror-Pool

Wofey

New Member

Dunuin

Distinguished Member

Wofey

New Member

Dunuin

Distinguished Member

We value your privacy