ZFS-Pools korrumpieren

pJonathan

Member
Sep 11, 2021
38
0
11
24
Hey,
ich habe auf meinem Proxmox Server einige ZFS Pools und so einige Probleme.
1. Es korrumpieren immer mal wieder Dateien
1.1 auf dem Boot-Pool löst sich das Problem meist mit
Code:
zpool scrub
1.2 auf den anderen Pools sind es meist journal Dateien
2. Permanente Error werden folgendermaßen angezeigt (ich weiß nicht genau was ich damit anfangen soll):
Code:
        data/subvol-1002-disk-0:<0xc51e>
        data/subvol-1002-disk-0:<0x81c5>
        data/subvol-1002-disk-0:<0xbaf1>
        data/subvol-1012-disk-0:<0x236b3>
        <0x183>:<0x1>

Jetzt ist meine Frage wie die Dateien überhaupt korrumpieren. Es sind alles Mirrord-Pools. Gibt es vielleicht Probleme beim Schreiben, da ja hauptsächlich journal-Dateien betroffen sind die sich häufig ändern?
Ich habe keinen ECC RAM, was ja eigentlich empfohlen wird. Meine ZFS Pools auf einer virtualisieren TrueNAS VM (selber Server) laufen aber suaber ohne Probleme.
Ich hoffe mich kann jemand mal aufklären :)
 
Hast du mal Memtest86+ über Nacht laufen lassen um defekten RAM auszuschließen?
Hängen alle Disks am selben Controller?
Was für Disk Modelle sind denn in Benutzung und alles die selben?
Bei defekter Backplate oder Kabeln hättest du eher Read/Write Fehler und nicht Checksum Fehler.
 
Last edited:
Hallo @Dunuin danke für deine Antwort :)
Ich habe heute mal Memtest laufen lassen und tatsächlich ist ein RAM-Riegel defekt ... hätte man auch selbst drauf kommen können.
Hängen alle Disks am selben Controller?
Unterschiedlich, der Pool mit den kryptischen permanenten Fehlern (z.B. <0x183>:<0x1>) hängt teils an der CPU und teils am Chipsatz (NVMe-SSDs). Ist das ein Problem?

Was für Disk Modelle sind denn in Benutzung und alles die selben?
Ja, alle Disks sind identisch.

Ich werde das Ganze die Tage nochmal beobachten, aber ich denke damit sollte das Problem gefunden sein ... :)
 
Ich habe keinen ECC RAM, was ja eigentlich empfohlen wird.
Ich habe heute mal Memtest laufen lassen und tatsächlich ist ein RAM-Riegel defekt ...
Dann weißt du ja jetzt auch warum zu ECC-RAM geraten wird. Da setzt man sich dann Monitoring auf und bekommt gleich eine Nachricht wenn ein RAM-Fehler detektiert wird (der dann mit Glück auch gleich im RAM gefixt wird) ohne das man sich dann evtl. über Wochen oder Monate unbemerkt die Daten zerschießt. Hättest du da ext4, NTFS oder ähnliches benutzt, was nicht wegen Checksum-Fehlern meckert, wäre dass dann vielleicht erst aufgefallen wenn schon alle Backups korrumpiert und überschrieben sind.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!