ZFS Raid1 Fehler

mpa9 · Jul 27, 2022

Liebe proxmox Gemeinde,

ich habe folgendes Problem das ich alleine nicht lösen kann und soweit im Forum auch nichts gefunden habe

System:
Mainboard supermicro X12SCA-5F (auch getestet mit X12STH-F)
Raid Controller ist aus (auf AHCI gestellt)
Platten direkt am SATA Port (Kabel sind getauscht)
2 x Intenso 500GB SSD (auch getestet mit Crucial MX500 SSD 1TB)
2 x Samsung 32GB DDR4 mit ECC
1 x M.2 NVMe für Daten
Intel Xeon E-2324G
Gehäuse SilverStone CS350

Proxmox VE letzte Version

Installation ging problemlos ZFS Raid1 auf 2 Platten. Mehrere VMs und LXC eingerichtet.
VMs und proxmox selber läuft auf local_ZFS, gesichert wird auf ein NAS. Eine M.2 für Daten ist auch verbaut und läuft problemlos.

Erstes einfrieren des kompletten Systems beim Hochladen einer 6GB großen Win iso. Dann beim runterladen eines größeren docker Containers. Also immer wenn vielen Daten geschrieben werden.
Konnte mal einen screenshot machen (ist angefügt).

Festplatte getauscht, selber Fehler. ZFS wird degraded und die Platte scheint nicht mehr unter disks auf. Proxmox rpool meldet disconnected.
Neue Festplatte gekauft und per zpool replace getauscht. Die darauffolgende rpool Herstellung bricht nach 5 Minuten ab und die neu Festplatte scheint nicht mehr auf. Bios kennt sie noch.
Hardware wurde getauscht: SSD, Kabel, Mainboard

Liegt es an den konsumer SSDs?

Hoffe ich konnte mich halbwegs verständlich ausdrücken, ist mein erster Forumseintrag.
Bin für jeden Tipp sehr dankbar.

abader · Jul 27, 2022

Hi,

also dein Problem ist etwas unspezifiziert.

ich kenne das - in abgeschwächter Form - von meinem Ex-Server mit ConsumerSSDs (waren MX500 2TB und Samsung860 2TB im ZFS StripedMirror) wo bei schreibzugriffen die IO Wait auf 60% hing.

das Problem ist bei ZFS und Consumer das es dateien nicht Überschreibt sondern als COW die alten Inhalte behält und neu schreibt. Damit hast du schnell auf den SSD wenige leere Spare Area und die GarbageCollection funktioniert nicht mehr.

das Einzige was mir damals halbwegs geholfen hat, war ein TRIM alle 7 Tage.

zur Diagnose mach bitte mal folgendes:

- einen SmartCTL -a von den Devices.
- via ssh verbindung einen "iostat -x 5" mitlaufen lassen - um die IO Wait jeder Disk zu sehen (ggf vorher mit "apt install sysstat" installieren)
- wenn die SSD nichtmehr auftaucht mal einen "lsblk" ausführen, ob die SSD da noch gelistet ist.

bei mir hat sich das Problem erledigt, als ich die Consumer SSD gegen gegen Enterprise getauscht habe. Seither keinerlei IO Probleme mehr.

VG

Dunuin · Jul 27, 2022

Am besten auch gucken, dass du da keine QLC SSDs erwischt hast. Die sind besonders langsam.

mpa9 · Jul 27, 2022

Vielen Dank für die Antworten. Dachte mir schon das es an den SSD's liegen könnte, da sonst alles aus dem Server Bereich kommt. Hättet Ihr einen Vorschlag für gute (auf alle Fälle im ZFS Raid1 funktionierende) Preis/Leisungs Enterprise SSD's? Danke lg Patrick

Dunuin · Jul 27, 2022

NVMe oder SATA?
M.2 hast du meist keine große Auswahl, da hier U.2 im 2.5" Formfactor gängig ist wegen mehr Platz für Komponenten und besserer Kühlung.

SATA Enterprise SSDs mit 1+ DWPD (also nicht so langlebig oder flott im Schreiben): https://geizhals.de/?cat=hdssd&xf=4643_Power-Loss+Protection~4832_1~4836_2~5838_1
SATA Enterprise SSDs mit 3+ DWPD (mittel haltbar und flott im Schreiben): https://geizhals.de/?cat=hdssd&xf=4643_Power-Loss+Protection~4832_1~4836_2~5838_3
SATA Enterprise SSDs mit 10+ DWPD (sehr haltbar und sehr flott im Schreiben): https://geizhals.de/?cat=hdssd&xf=4643_Power-Loss+Protection~4832_1~4836_2~5838_10

M.2 Enterprise SSDs mit 1+ DWPD (also nicht so langlebig oder flott im Schreiben): https://geizhals.de/?cat=hdssd&xf=4643_Power-Loss+Protection~4832_3~5838_1
M.2 Enterprise SSDs mit 3+ DWPD (mittel haltbar und flott im Schreiben): https://geizhals.de/?cat=hdssd&xf=4643_Power-Loss+Protection~4832_3~5838_3
M.2 Enterprise SSDs mit 10+ DWPD (also nicht so langlebig oder flott im Schreiben): https://geizhals.de/?cat=hdssd&xf=4643_Power-Loss+Protection~4832_3~5838_10

Deutlich mehr Auswahl hast du bei NVMe wenn du auch U.2 mit M.2-zu-U.2-Adapter-Kabel in betrcht ziehst: https://geizhals.de/?cat=hdssd&xf=4643_Power-Loss+Protection~4832_7~5838_1

Bei M.2 nicht vergessen, dass das oft die langen 22110 sind die nicht überall reinpassen und dann meist doppelseitig bestückt was wieder nicht überall passt oder sich schlecht kühlen lässt. Consumer M.2 SSDs sind ja meist einseitig bestückt und nur 80 statt 110mm lang.

abader · Jul 27, 2022

Wieviel Platz benötigst du denn?

ich habe sehr gute Erfahrungen gemacht mit gebrauchten Enterprise SATA bzw SAS SSDs von Ebay oder Brokern gebrauchter IT Hardware.

servershop24.de
2nd-source.de
gekko-computer.de

um nur ein paar zu nennen.

Bei den Disks aber aufpassen, aus welchen Systemem die kommen - wenn das aus Enterprise Storage Systemen der Fall ist, dann sind die meistens nicht mit 512Byte formatiert.

SAS kann man umkonvertieren - SATA meist nicht!

die Händler wissen das aber in der Regel!

Dunuin · Jul 27, 2022

abader said:
Bei den Disks aber aufpassen, aus welchen Systemem die kommen - wenn das aus Enterprise Storage Systemen der Fall ist, dann sind die meistens nicht mit 512Byte formatiert.

Wäre das in der Praxis nicht eh relativ egal, da die SSDs intern ja mit viel größeren Blockgrößen arbeiten (8K/16K etc und zum löschen/überschreiben sogar 64K+)?

abader · Jul 27, 2022

leider nicht

die Disks sind nicht formatierbar für X86 systeme.

da sämtliche Blockgrößen ein Vielfaches von 512byte sind. Sobald du als kleinste Einheit 520byte oder 528Byte hast, passen die größeren Units nichtmehr in die Blöcke.

Konnte die 520Byte SATA-SSDs leider weder unter BSD, Linux, Windows etc ansteuern - meist werden Sie als Gerät angezeigt - aber jeder Versuch des Formatieren schlägt fehl.

Theoretisch sollte es kein Problem sein, und das OS müsste die "zuvielen" Bytes "einfach" nur ignorieren - das passiert aber nicht.

hab hier noch 70 Stück rumliegen

falls dir Langweilig ist. --> Interessanter Thread zu dem Thema: https://forum.hddguru.com/viewtopic.php?t=37553

die SAS SSD konnte ich bisher immer Umschreiben auf 512Byte (eine Spezifikation des SAS Protokolls anscheinend) - bei SATA braucht man eine Firmware des Herstellers (die man natürlich nicht ohne weiteres bekommt)

mpa9 · Jul 27, 2022

Danke für die Info's. Werd es jetzt mal mit 2 Stück neuen SATA Enterprise SSDs mit 3+ DWPD ohne QLC versuchen.

mpa9 · Aug 17, 2022

Habe jetzt die Systemplatten gegen 2 Stück SATA Enterprise SSDs (Samsung 480 GB SM883) getauscht. proxmox neu aufgesetzt in ZFS Raid1. Alles aus backup eingespielt. Nach ca. 2 Stunden kam die Meldung im rpool. System läuft aber noch. Keine Ahnung was ich jetzt noch machen kann. Habe alles getauscht. Wäre um jede hilfe dankbar.

abader · Aug 18, 2022

was sagen die SMART Werte zu der Disk?

mpa9 · Aug 19, 2022

google meint es wäre ein Kabelfehler, habe aber auch schon die Kabel getauscht

abader · Aug 20, 2022

hmm...meist ist es das Kabel, das stimmt bzw dessen Steckverbindung.

- ist die SSD noch in einem extra gehäuse (Wechselrahmen, etc)
- anderer Port auf dem Mainboard frei? evtl. ist der das Problem
- auch wenn es unwahrscheinlich ist, hast du noch ein anderes (evtl. neues) Kabel?

mpa9 · Aug 22, 2022

Danke für den Tipp. Muss noch umfangreicher testen aber bis jetzt schaut es ganz gut aus.
Der Fehler war die backplane und vorhe die konsumer Platten.
Vielen Dank proxmox Forum!!

mpa9 · Nov 22, 2022

Habe seit 2 Wochen wieder ein ähnliches Problem. ZFS geht auf degraded. Hardware nichts verändert.
Die Error counter der SSDs scheinen aber unverändert zu bleiben. Normal hilft ein zpool clear rpool. Kann aber doch nicht Sinn der Sache sein das alle 3 Tage zu machen. Mainboard ist neu, Kabel sind neu, 2 Stück Samsung Enterprice SSDs.
Funktionieren tut aber alles - wieso eigentlich wenn eine Platte faulted und die andere degraded ist?
Kann ich auf einem einfachen Weg auf eine Platte ohne Raid 1 umstellen? Würden dann die Fehler verschwinden?
Habe die Vm und CT mit 321 Regel gesichert.
Kann es an den 19% Fragmentierung liegen, spielt das bei SSDs ein Rolle?
Was kann passieren wenn ich es so lasse?

Frage am Rande: Kann ich die Netzwerkerinstellungen im pve irgenwie sichern und nach der Neuinstallation einfach zurückspielen. Harware ist die selbe.

Vielen Dank fürs lesen!

Dunuin · Nov 22, 2022

mpa9 said:
Kann ich auf einem einfachen Weg auf eine Platte ohne Raid 1 umstellen? Würden dann die Fehler verschwinden?

Ja, das geht. Aber ob das sinn macht sei mal dahin gestellt. Besser ein raid1 wo eine Platte gegelendlich Probleme macht als gar keine Redundanz. Du kannst mit dem "zpool offline" Befehl eine Platte des Pool offline nehmen, damit die nicht mehr benutzt wird. "zpool detach" Befehl entfern eine Disk komplett vom Mirror.

Die Schreibfehler sind weniger wild. Problematischer sind die Checksum-Fehler (=Datenkorruption).

mpa9 said:
Kann es an den 19% Fragmentierung liegen, spielt das bei SSDs ein Rolle?

Die sollte nicht das Problem sein.

mpa9 said:
Kann ich die Netzwerkerinstellungen im pve irgenwie sichern und nach der Neuinstallation einfach zurückspielen

Netzwerk-Konfig ist in "/etc/hosts", "/etc/resolv.conf" und "/etc/network/interfaces". Security Groups, Aliases, IP Sets und Co in "/etc/pve/firewall/cluster.fw".

RolandK · Nov 22, 2022

>- ist die SSD noch in einem extra gehäuse (Wechselrahmen, etc)

ich hab gestern in einem neuen server in denen die 2 SSDs in 2 verschiedenen typen von 2,5"->3,5" adaptern stecken auf einer ssd massiv errors gehabt, und erst gedacht, die ssd sei im arsch (neu gekauft, lief vorher noch nicht).

nachdem ich den wechselrahmen getauscht hatte (von einem der intern einen stecker-adapter hatte zu einem bei dem die ssd keinen adapterstecker hat) waren die errors weg.

das mit dem einfrieren/schluckauf bei kopieren grösser datenmengen mit consumer ssd's kenne ich auch allzu gut. besonders schlimm waren da die billigen SANdisk SSDs SSD Plus.

abader · Nov 22, 2022

hmm....also das ist schon komisch

- ist es immer die gleiche SSD, welche als Faulted markiert wird?
- falls das der Fall ist (und du wie gesagt die SATA Kabel bereits getauscht hast) hat ggf. der Onboard Steckplatz ein Problem. Ggf mal nen anderen nehmen bzw mal nen HBA dazwischenschalten.

mpa9 · Nov 22, 2022

nein die Platte hängt direkt mit einem SATA Kabel am mainboard

mpa9 · Nov 22, 2022

abader said:
hmm....also das ist schon komisch

- ist es immer die gleiche SSD, welche als Faulted markiert wird?
- falls das der Fall ist (und du wie gesagt die SATA Kabel bereits getauscht hast) hat ggf. der Onboard Steckplatz ein Problem. Ggf mal nen anderen nehmen bzw mal nen HBA dazwischenschalten.

es ist immer die gleiche, eine faulted und das ganze degraded.
Steckerplätze habe ich schon gewechselt.
Was würde eine HBA bringen? Ist doch im Prinzip nichts anderes als der Raidcontroller vom mainboard im IT bzw. AHCI Modus. Oder hab ich dadurch andere Vorteile?

ZFS Raid1 Fehler

New Member

Attachments

Active Member

Distinguished Member

New Member

Distinguished Member

Active Member

Distinguished Member

Active Member

New Member

New Member

Active Member

New Member

Active Member

New Member

New Member

Attachments

Distinguished Member

Renowned Member

Active Member

New Member

New Member

We value your privacy