zed meldungen

DocMAX

Member
Jan 30, 2023
172
10
18
Bremen
mein log wird hiermit geflutet. ne idee was das sein könnte?

Code:
Nov 01 12:09:07 pve zed[1173284]: eid=25124 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:07 pve zed[1173412]: eid=25125 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:08 pve zed[1173625]: eid=25126 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:09 pve zed[1173953]: eid=25127 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:09 pve zed[1174108]: eid=25128 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:10 pve zed[1174317]: eid=25129 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:10 pve zed[1174503]: eid=25130 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:11 pve zed[1174614]: eid=25131 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:11 pve zed[1174721]: eid=25132 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:12 pve zed[1174907]: eid=25133 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:12 pve zed[1175096]: eid=25134 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:13 pve zed[1175403]: eid=25135 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:14 pve zed[1175569]: eid=25136 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:14 pve zed[1175662]: eid=25137 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:14 pve zed[1175844]: eid=25138 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:15 pve zed[1176032]: eid=25139 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:15 pve zed[1176085]: eid=25140 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:15 pve zed[1176206]: eid=25141 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:15 pve zed[1176289]: eid=25142 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:15 pve zed[1176350]: eid=25143 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:15 pve zed[1176429]: eid=25144 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:15 pve zed[1176487]: eid=25145 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:15 pve zed[1176571]: eid=25146 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:16 pve zed[1176646]: eid=25147 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
Nov 01 12:09:16 pve zed[1176701]: eid=25148 class=data pool='zpool' priority=2 err=52 flags=0x808881 bookmark=18446744073709551615:33168:1:0
 
Das hat irgend etwas mit ZFS zu tun, aber da bin ich raus.
Eventuell mal zpool status abfragen.
 
Ausser ein paar CSUM Fehler sehe ich nichts besonderes...

Code:
root@pve:~# zpool status
  pool: zpool
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
  scan: scrub repaired 0B in 07:35:23 with 1 errors on Sun Oct  8 07:59:24 2023
remove: Removal of vdev 1 copied 433G in 4h19m, completed on Thu Sep  7 04:29:37 2023
        45.6M memory used for removed device mappings
config:

        NAME                                                                           STATE     READ WRITE CKSUM
        zpool                                                                          ONLINE       0     0     0
          nvme-nvme.1dee-32313137303635343031343036-424957494e20535344-00000001-part4  ONLINE       0     0  109K
          wwn-0x5002538f41104c52                                                       ONLINE       0     0     0
          nvme-WD_BLACK_SN770_2TB_23070Q805333_1                                       ONLINE       0     0  109K
 
109.000 Checksum Fehler finde ich jetzt nicht "nichts besonderes"!
Da es sich um NVME-Datenträger handelt ruhig mal prüfen, ob die noch fest im Sockel sitzen und gegebenenfalls mal einen Memtest ausführen.
 
  • Like
Reactions: Dunuin
Checksum Errors sind gar nicht gut und der Status ist ja noch viel Schlimmer:
One or more devices has experienced an error resulting in data corruption. Applications may be affected.

Du hast bereits korrupte Daten und solltest die aus dem Backup restoren.
 
Und das Ganze noch im Raid 0. Ich denke da braucht's kein Restore. Die Daten sind nicht wichtig.
 
Hallo @DocMAX,

status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
die Meldungen sagen, dass Daten korrupt sind. Wenn du sicher sein möchtest, dass alle Daten konsistent sind, bleibt dir dabei nur ein Restore aus dem Backup.

Viele Grüße,
Marco
 
Hmm, weiss nicht woher das bei den NVMEs kommt... hätte erwartet dass es da sata bus Fehler im dmesg gibt, aber ist alles sauber... Den Memtest mach ich mal..
 
Hmm, weiss nicht woher das bei den NVMEs kommt... hätte erwartet dass es da sata bus Fehler im dmesg gibt, aber ist alles sauber... Den Memtest mach ich mal..
Bei NVMes wirst du nie SATA Fehler haben. NVMe ist ein eigenes Protokoll, so wie SATA oder SCSI, etc.
Gerade Consumer NVMes mit günstigem NAND gehen gern mal kaputt oder die Controller verabschieden sich.
Wenn du mehrere Disks in einem Raid0 oder Span zusammenfasst, hast du ein erhöhtes Ausfallrisiko, da eine Defekte Disk dir deine ganzen Daten zerstört. Deshalb setzt man bei Servern oder bei wichtigen Daten Mirror oder andere "Raid" Techniken ein um Redundanz zu schaffen.
Ich hoffe du hast ein gutes Backup und wartest nicht zu lange mit dem Restore. Irgendwann sind die Daten im Backup auch alle korrupt.
 
Und ein altes Backup wiederherstellen...am 7. Oktober hatte der letzte Scrub ja bereits Fehler gemeldet. Müsstest du dann ein Backup wiederherstellen was erstellt wurde bevor der letzte Scrub ohne gefundene Checksum-Fehler lief. Wenn du deinen Pool nicht ordentlich überwacht hast kann das echt lange her sein...
 
  • Like
Reactions: JensF and Falk R.
OK, werde meine (nicht vorhandene) Strategie hin zu einem RAID doch mal überdenken. Dass NVMEs gern kaputt gehen war mir auch nicht so klar...
 
Last edited:
ZFS ist halt eine andere Nummer als die Standard-RAIDs. Eben aufgrund der Komplexität bzw. Features ist die Last und der Anspruch an die Hardware ein(e) andere(r). Eigentlich müsste man im Forum das Thema als pinned oben halten. No consumer drives for ZFS.
 
NVMe ist nur das Protokoll was gesprochen wird und eventuell eine andere Schnittstelle. Die NAND Zellen sind gleich gut oder schlecht wie SATA oder SAS.
 
NVMe ist nur das Protokoll was gesprochen wird und eventuell eine andere Schnittstelle. Die NAND Zellen sind gleich gut oder schlecht wie SATA oder SAS.
Aufgrund des ungünstigen Formfaktors von M.2 (viel zu wenig Platz für ordentliche Kühlkörper und besonders wenn auch die Rückseite bestückt werden muss weil nicht alle NAND Chips auf die Oberseite passen und die Unterseite ist ja überhaupt nicht direkt kühlbar) und der viel höheren Datenrate von NVMe (gerade PCIe 5.0) können die Dinger aber verdammt heißt werden bis zu einem Punkt, wo sie sich dann bei 70 Grad oder so selbst drosseln müssen um sich nicht zu beschädigen.

Ist bei einer ordentlichen NVMe SSD die als U.2, U.3 oder PCIe-Karte kommt aber alles weniger das Problem, aber das kauft ja hier kaum wer für das Homelab.

Was bei der Haktbarkeit aber vor Allem hilft ist:
-DRAM Cache
-Power-loss Protection (PLP)
-guter NAND (wie MLC/SLC und nicht QLC)
-große Spare Area
-Qualitätssicherung
 
  • Like
Reactions: mgabriel
Hab nun den Memtest gemacht. Keine Fehler. Was kann ich noch tun? Ausserdem warum auf 2 Platten gleichzeitig und die selbe Menge?
 
Die gleiche Anzahl Checksum Errors kann kommen wenn die Daten im Raid0 über beide Platten verteilt sind. Wenn dann ein Bit auf einer Disk Defekt ist, dann ist die Checksumme des ganzen Datenblocks falsch. Welche Disk den Fehler verursacht, kannst du eventuell an den SMART Werten erkennen.
 
Aufgrund des ungünstigen Formfaktors von M.2 (viel zu wenig Platz für ordentliche Kühlkörper und besonders wenn auch die Rückseite bestückt werden muss weil nicht alle NAND Chips auf die Oberseite passen und die Unterseite ist ja überhaupt nicht direkt kühlbar) und der viel höheren Datenrate von NVMe (gerade PCIe 5.0) können die Dinger aber verdammt heißt werden bis zu einem Punkt, wo sie sich dann bei 70 Grad oder so selbst drosseln müssen um sich nicht zu beschädigen.

Ist bei einer ordentlichen NVMe SSD die als U.2, U.3 oder PCIe-Karte kommt aber alles weniger das Problem, aber das kauft ja hier kaum wer für das Homelab.

Was bei der Haktbarkeit aber vor Allem hilft ist:
-DRAM Cache
-Power-loss Protection (PLP)
-guter NAND (wie MLC/SLC und nicht QLC)
-große Spare Area
-Qualitätssicherung
Randnotiz: selbst die PM1735 Serie von Samsung (PCIe 4.0) mit dicken Kühlkörpern wird sehr warm. Die verbauen wir bei unseren Kunden in 19“ Racks nur noch mit zusätzlichen Industrielüftern. Bei mehr als 2 Karten hat man sonst richtige heat spots im System.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!