zed meldungen

DocMAX · Nov 1, 2023

mein log wird hiermit geflutet. ne idee was das sein könnte?

Code:

Nov 01 12:09:07 pve zed[1173284]: eid=25124 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:07 pve zed[1173412]: eid=25125 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:08 pve zed[1173625]: eid=25126 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:09 pve zed[1173953]: eid=25127 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:09 pve zed[1174108]: eid=25128 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:10 pve zed[1174317]: eid=25129 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:10 pve zed[1174503]: eid=25130 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:11 pve zed[1174614]: eid=25131 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:11 pve zed[1174721]: eid=25132 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:12 pve zed[1174907]: eid=25133 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:12 pve zed[1175096]: eid=25134 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:13 pve zed[1175403]: eid=25135 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:14 pve zed[1175569]: eid=25136 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:14 pve zed[1175662]: eid=25137 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:14 pve zed[1175844]: eid=25138 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:15 pve zed[1176032]: eid=25139 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:15 pve zed[1176085]: eid=25140 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:15 pve zed[1176206]: eid=25141 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:15 pve zed[1176289]: eid=25142 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:15 pve zed[1176350]: eid=25143 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:15 pve zed[1176429]: eid=25144 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:15 pve zed[1176487]: eid=25145 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:15 pve zed[1176571]: eid=25146 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:16 pve zed[1176646]: eid=25147 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:16 pve zed[1176701]: eid=25148 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0

Falk R. · Nov 1, 2023

Das hat irgend etwas mit ZFS zu tun, aber da bin ich raus.
Eventuell mal zpool status abfragen.

DocMAX · Nov 2, 2023

Ausser ein paar CSUM Fehler sehe ich nichts besonderes...

Code:

root@pve:~# zpool status
  pool: zpool
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
  scan: scrub repaired 0B in 07:35:23 with 1 errors on Sun Oct  8 07:59:24 2023
remove: Removal of vdev 1 copied 433G in 4h19m, completed on Thu Sep  7 04:29:37 2023
        45.6M memory used for removed device mappings
config:

        NAME                                                                           STATE     READ WRITE CKSUM
        zpool                                                                          ONLINE       0     0     0
          nvme-nvme.1dee-32313137303635343031343036-424957494e20535344-00000001-part4  ONLINE       0     0  109K
          wwn-0x5002538f41104c52                                                       ONLINE       0     0     0
          nvme-WD_BLACK_SN770_2TB_23070Q805333_1                                       ONLINE       0     0  109K

JensF · Nov 2, 2023

109.000 Checksum Fehler finde ich jetzt nicht "nichts besonderes"!
Da es sich um NVME-Datenträger handelt ruhig mal prüfen, ob die noch fest im Sockel sitzen und gegebenenfalls mal einen Memtest ausführen.

Falk R. · Nov 2, 2023

Checksum Errors sind gar nicht gut und der Status ist ja noch viel Schlimmer:
One or more devices has experienced an error resulting in data corruption. Applications may be affected.

Du hast bereits korrupte Daten und solltest die aus dem Backup restoren.

JensF · Nov 2, 2023

Und das Ganze noch im Raid 0. Ich denke da braucht's kein Restore. Die Daten sind nicht wichtig.

mgabriel · Nov 2, 2023

Hallo @DocMAX,

DocMAX said:
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.

die Meldungen sagen, dass Daten korrupt sind. Wenn du sicher sein möchtest, dass alle Daten konsistent sind, bleibt dir dabei nur ein Restore aus dem Backup.

Viele Grüße,
Marco

DocMAX · Nov 2, 2023

Hmm, weiss nicht woher das bei den NVMEs kommt... hätte erwartet dass es da sata bus Fehler im dmesg gibt, aber ist alles sauber... Den Memtest mach ich mal..

Falk R. · Nov 2, 2023

DocMAX said:
Hmm, weiss nicht woher das bei den NVMEs kommt... hätte erwartet dass es da sata bus Fehler im dmesg gibt, aber ist alles sauber... Den Memtest mach ich mal..

Bei NVMes wirst du nie SATA Fehler haben. NVMe ist ein eigenes Protokoll, so wie SATA oder SCSI, etc.
Gerade Consumer NVMes mit günstigem NAND gehen gern mal kaputt oder die Controller verabschieden sich.
Wenn du mehrere Disks in einem Raid0 oder Span zusammenfasst, hast du ein erhöhtes Ausfallrisiko, da eine Defekte Disk dir deine ganzen Daten zerstört. Deshalb setzt man bei Servern oder bei wichtigen Daten Mirror oder andere "Raid" Techniken ein um Redundanz zu schaffen.
Ich hoffe du hast ein gutes Backup und wartest nicht zu lange mit dem Restore. Irgendwann sind die Daten im Backup auch alle korrupt.

Dunuin · Nov 2, 2023

Und ein altes Backup wiederherstellen...am 7. Oktober hatte der letzte Scrub ja bereits Fehler gemeldet. Müsstest du dann ein Backup wiederherstellen was erstellt wurde bevor der letzte Scrub ohne gefundene Checksum-Fehler lief. Wenn du deinen Pool nicht ordentlich überwacht hast kann das echt lange her sein...

DocMAX · Nov 3, 2023

OK, werde meine (nicht vorhandene) Strategie hin zu einem RAID doch mal überdenken. Dass NVMEs gern kaputt gehen war mir auch nicht so klar...

cwt · Nov 3, 2023

ZFS ist halt eine andere Nummer als die Standard-RAIDs. Eben aufgrund der Komplexität bzw. Features ist die Last und der Anspruch an die Hardware ein(e) andere(r). Eigentlich müsste man im Forum das Thema als pinned oben halten. No consumer drives for ZFS.

Falk R. · Nov 3, 2023

NVMe ist nur das Protokoll was gesprochen wird und eventuell eine andere Schnittstelle. Die NAND Zellen sind gleich gut oder schlecht wie SATA oder SAS.

Dunuin · Nov 3, 2023

Falk R. said:
NVMe ist nur das Protokoll was gesprochen wird und eventuell eine andere Schnittstelle. Die NAND Zellen sind gleich gut oder schlecht wie SATA oder SAS.

Aufgrund des ungünstigen Formfaktors von M.2 (viel zu wenig Platz für ordentliche Kühlkörper und besonders wenn auch die Rückseite bestückt werden muss weil nicht alle NAND Chips auf die Oberseite passen und die Unterseite ist ja überhaupt nicht direkt kühlbar) und der viel höheren Datenrate von NVMe (gerade PCIe 5.0) können die Dinger aber verdammt heißt werden bis zu einem Punkt, wo sie sich dann bei 70 Grad oder so selbst drosseln müssen um sich nicht zu beschädigen.

Ist bei einer ordentlichen NVMe SSD die als U.2, U.3 oder PCIe-Karte kommt aber alles weniger das Problem, aber das kauft ja hier kaum wer für das Homelab.

Was bei der Haktbarkeit aber vor Allem hilft ist:
-DRAM Cache
-Power-loss Protection (PLP)
-guter NAND (wie MLC/SLC und nicht QLC)
-große Spare Area
-Qualitätssicherung

DocMAX · Nov 3, 2023

Hab nun den Memtest gemacht. Keine Fehler. Was kann ich noch tun? Ausserdem warum auf 2 Platten gleichzeitig und die selbe Menge?

Falk R. · Nov 4, 2023

Die gleiche Anzahl Checksum Errors kann kommen wenn die Daten im Raid0 über beide Platten verteilt sind. Wenn dann ein Bit auf einer Disk Defekt ist, dann ist die Checksumme des ganzen Datenblocks falsch. Welche Disk den Fehler verursacht, kannst du eventuell an den SMART Werten erkennen.

cwt · Nov 4, 2023

Dunuin said:
Aufgrund des ungünstigen Formfaktors von M.2 (viel zu wenig Platz für ordentliche Kühlkörper und besonders wenn auch die Rückseite bestückt werden muss weil nicht alle NAND Chips auf die Oberseite passen und die Unterseite ist ja überhaupt nicht direkt kühlbar) und der viel höheren Datenrate von NVMe (gerade PCIe 5.0) können die Dinger aber verdammt heißt werden bis zu einem Punkt, wo sie sich dann bei 70 Grad oder so selbst drosseln müssen um sich nicht zu beschädigen.

Ist bei einer ordentlichen NVMe SSD die als U.2, U.3 oder PCIe-Karte kommt aber alles weniger das Problem, aber das kauft ja hier kaum wer für das Homelab.

Was bei der Haktbarkeit aber vor Allem hilft ist:
-DRAM Cache
-Power-loss Protection (PLP)
-guter NAND (wie MLC/SLC und nicht QLC)
-große Spare Area
-Qualitätssicherung

Randnotiz: selbst die PM1735 Serie von Samsung (PCIe 4.0) mit dicken Kühlkörpern wird sehr warm. Die verbauen wir bei unseren Kunden in 19“ Racks nur noch mit zusätzlichen Industrielüftern. Bei mehr als 2 Karten hat man sonst richtige heat spots im System.

DocMAX · Nov 4, 2023

Meine 2 NVMEs an einem Tag...

DocMAX · Nov 4, 2023

Hab mich jetzt durch einige Foren gekämpft und es sieht aus als wäre das ein verbreitetes Problem mit den NVMEs. Irgendwas mit dem Controller. K.A. wie zu lösen. https://www.reddit.com/r/zfs/comments/rqsion/identical_zfs_checksum_errors_on_mirrored_nvme/

zed meldungen

Member

Famous Member

Member

Well-Known Member

Famous Member

Well-Known Member

Renowned Member

Member

Famous Member

Distinguished Member

Member

Well-Known Member

Famous Member

Distinguished Member

Member

Famous Member

Well-Known Member

Member

Member