ZFS Raid1 Fehler

Jul 27, 2022
10
0
1
Liebe proxmox Gemeinde,


ich habe folgendes Problem das ich alleine nicht lösen kann und soweit im Forum auch nichts gefunden habe


System:
Mainboard supermicro X12SCA-5F (auch getestet mit X12STH-F)
Raid Controller ist aus (auf AHCI gestellt)
Platten direkt am SATA Port (Kabel sind getauscht)
2 x Intenso 500GB SSD (auch getestet mit Crucial MX500 SSD 1TB)
2 x Samsung 32GB DDR4 mit ECC
1 x M.2 NVMe für Daten
Intel Xeon E-2324G
Gehäuse SilverStone CS350

Proxmox VE letzte Version


Installation ging problemlos ZFS Raid1 auf 2 Platten. Mehrere VMs und LXC eingerichtet.
VMs und proxmox selber läuft auf local_ZFS, gesichert wird auf ein NAS. Eine M.2 für Daten ist auch verbaut und läuft problemlos.

Erstes einfrieren des kompletten Systems beim Hochladen einer 6GB großen Win iso. Dann beim runterladen eines größeren docker Containers. Also immer wenn vielen Daten geschrieben werden.
Konnte mal einen screenshot machen (ist angefügt).

Festplatte getauscht, selber Fehler. ZFS wird degraded und die Platte scheint nicht mehr unter disks auf. Proxmox rpool meldet disconnected.
Neue Festplatte gekauft und per zpool replace getauscht. Die darauffolgende rpool Herstellung bricht nach 5 Minuten ab und die neu Festplatte scheint nicht mehr auf. Bios kennt sie noch.
Hardware wurde getauscht: SSD, Kabel, Mainboard

Liegt es an den konsumer SSDs?

Hoffe ich konnte mich halbwegs verständlich ausdrücken, ist mein erster Forumseintrag.
Bin für jeden Tipp sehr dankbar.
 

Attachments

  • Bild1.png
    Bild1.png
    129 KB · Views: 13
Hi,

also dein Problem ist etwas unspezifiziert.

ich kenne das - in abgeschwächter Form - von meinem Ex-Server mit ConsumerSSDs (waren MX500 2TB und Samsung860 2TB im ZFS StripedMirror) wo bei schreibzugriffen die IO Wait auf 60% hing.

das Problem ist bei ZFS und Consumer das es dateien nicht Überschreibt sondern als COW die alten Inhalte behält und neu schreibt. Damit hast du schnell auf den SSD wenige leere Spare Area und die GarbageCollection funktioniert nicht mehr.

das Einzige was mir damals halbwegs geholfen hat, war ein TRIM alle 7 Tage.

zur Diagnose mach bitte mal folgendes:

- einen SmartCTL -a von den Devices.
- via ssh verbindung einen "iostat -x 5" mitlaufen lassen - um die IO Wait jeder Disk zu sehen (ggf vorher mit "apt install sysstat" installieren)
- wenn die SSD nichtmehr auftaucht mal einen "lsblk" ausführen, ob die SSD da noch gelistet ist.


bei mir hat sich das Problem erledigt, als ich die Consumer SSD gegen gegen Enterprise getauscht habe. Seither keinerlei IO Probleme mehr.

VG
 
Am besten auch gucken, dass du da keine QLC SSDs erwischt hast. Die sind besonders langsam.
 
Vielen Dank für die Antworten. Dachte mir schon das es an den SSD's liegen könnte, da sonst alles aus dem Server Bereich kommt. Hättet Ihr einen Vorschlag für gute (auf alle Fälle im ZFS Raid1 funktionierende) Preis/Leisungs Enterprise SSD's? Danke lg Patrick
 
NVMe oder SATA?
M.2 hast du meist keine große Auswahl, da hier U.2 im 2.5" Formfactor gängig ist wegen mehr Platz für Komponenten und besserer Kühlung.

SATA Enterprise SSDs mit 1+ DWPD (also nicht so langlebig oder flott im Schreiben): https://geizhals.de/?cat=hdssd&xf=4643_Power-Loss+Protection~4832_1~4836_2~5838_1
SATA Enterprise SSDs mit 3+ DWPD (mittel haltbar und flott im Schreiben): https://geizhals.de/?cat=hdssd&xf=4643_Power-Loss+Protection~4832_1~4836_2~5838_3
SATA Enterprise SSDs mit 10+ DWPD (sehr haltbar und sehr flott im Schreiben): https://geizhals.de/?cat=hdssd&xf=4643_Power-Loss+Protection~4832_1~4836_2~5838_10

M.2 Enterprise SSDs mit 1+ DWPD (also nicht so langlebig oder flott im Schreiben): https://geizhals.de/?cat=hdssd&xf=4643_Power-Loss+Protection~4832_3~5838_1
M.2 Enterprise SSDs mit 3+ DWPD (mittel haltbar und flott im Schreiben): https://geizhals.de/?cat=hdssd&xf=4643_Power-Loss+Protection~4832_3~5838_3
M.2 Enterprise SSDs mit 10+ DWPD (also nicht so langlebig oder flott im Schreiben): https://geizhals.de/?cat=hdssd&xf=4643_Power-Loss+Protection~4832_3~5838_10

Deutlich mehr Auswahl hast du bei NVMe wenn du auch U.2 mit M.2-zu-U.2-Adapter-Kabel in betrcht ziehst: https://geizhals.de/?cat=hdssd&xf=4643_Power-Loss+Protection~4832_7~5838_1

Bei M.2 nicht vergessen, dass das oft die langen 22110 sind die nicht überall reinpassen und dann meist doppelseitig bestückt was wieder nicht überall passt oder sich schlecht kühlen lässt. Consumer M.2 SSDs sind ja meist einseitig bestückt und nur 80 statt 110mm lang.
 
Last edited:
Wieviel Platz benötigst du denn?

ich habe sehr gute Erfahrungen gemacht mit gebrauchten Enterprise SATA bzw SAS SSDs von Ebay oder Brokern gebrauchter IT Hardware.

servershop24.de
2nd-source.de
gekko-computer.de

um nur ein paar zu nennen.

Bei den Disks aber aufpassen, aus welchen Systemem die kommen - wenn das aus Enterprise Storage Systemen der Fall ist, dann sind die meistens nicht mit 512Byte formatiert.

SAS kann man umkonvertieren - SATA meist nicht!

die Händler wissen das aber in der Regel!
 
Bei den Disks aber aufpassen, aus welchen Systemem die kommen - wenn das aus Enterprise Storage Systemen der Fall ist, dann sind die meistens nicht mit 512Byte formatiert.
Wäre das in der Praxis nicht eh relativ egal, da die SSDs intern ja mit viel größeren Blockgrößen arbeiten (8K/16K etc und zum löschen/überschreiben sogar 64K+)?
 
leider nicht :(

die Disks sind nicht formatierbar für X86 systeme.

da sämtliche Blockgrößen ein Vielfaches von 512byte sind. Sobald du als kleinste Einheit 520byte oder 528Byte hast, passen die größeren Units nichtmehr in die Blöcke.

Konnte die 520Byte SATA-SSDs leider weder unter BSD, Linux, Windows etc ansteuern - meist werden Sie als Gerät angezeigt - aber jeder Versuch des Formatieren schlägt fehl.

Theoretisch sollte es kein Problem sein, und das OS müsste die "zuvielen" Bytes "einfach" nur ignorieren - das passiert aber nicht.

hab hier noch 70 Stück rumliegen :) falls dir Langweilig ist. --> Interessanter Thread zu dem Thema: https://forum.hddguru.com/viewtopic.php?t=37553

die SAS SSD konnte ich bisher immer Umschreiben auf 512Byte (eine Spezifikation des SAS Protokolls anscheinend) - bei SATA braucht man eine Firmware des Herstellers (die man natürlich nicht ohne weiteres bekommt)
 
  • Like
Reactions: Dunuin
Habe jetzt die Systemplatten gegen 2 Stück SATA Enterprise SSDs (Samsung 480 GB SM883) getauscht. proxmox neu aufgesetzt in ZFS Raid1. Alles aus backup eingespielt. Nach ca. 2 Stunden kam die Meldung im rpool. System läuft aber noch. Keine Ahnung was ich jetzt noch machen kann. Habe alles getauscht. Wäre um jede hilfe dankbar.Screenshot 2022-08-17 175801.png
 
hmm...meist ist es das Kabel, das stimmt bzw dessen Steckverbindung.

- ist die SSD noch in einem extra gehäuse (Wechselrahmen, etc)
- anderer Port auf dem Mainboard frei? evtl. ist der das Problem
- auch wenn es unwahrscheinlich ist, hast du noch ein anderes (evtl. neues) Kabel?
 
Danke für den Tipp. Muss noch umfangreicher testen aber bis jetzt schaut es ganz gut aus.
Der Fehler war die backplane und vorhe die konsumer Platten.
Vielen Dank proxmox Forum!!
 
Habe seit 2 Wochen wieder ein ähnliches Problem. ZFS geht auf degraded. Hardware nichts verändert.
Die Error counter der SSDs scheinen aber unverändert zu bleiben. Normal hilft ein zpool clear rpool. Kann aber doch nicht Sinn der Sache sein das alle 3 Tage zu machen. Mainboard ist neu, Kabel sind neu, 2 Stück Samsung Enterprice SSDs.
Funktionieren tut aber alles - wieso eigentlich wenn eine Platte faulted und die andere degraded ist?
Kann ich auf einem einfachen Weg auf eine Platte ohne Raid 1 umstellen? Würden dann die Fehler verschwinden?
Habe die Vm und CT mit 321 Regel gesichert.
Kann es an den 19% Fragmentierung liegen, spielt das bei SSDs ein Rolle?
Was kann passieren wenn ich es so lasse?

Frage am Rande: Kann ich die Netzwerkerinstellungen im pve irgenwie sichern und nach der Neuinstallation einfach zurückspielen. Harware ist die selbe.

Vielen Dank fürs lesen!
 

Attachments

  • Screenshot 2022-11-22 191541.jpg
    Screenshot 2022-11-22 191541.jpg
    147.2 KB · Views: 5
  • Screenshot 2022-11-22 191506.jpg
    Screenshot 2022-11-22 191506.jpg
    143.8 KB · Views: 4
  • Screenshot 2022-11-22 191412.jpg
    Screenshot 2022-11-22 191412.jpg
    53.5 KB · Views: 4
  • Screenshot 2022-11-22 191351.jpg
    Screenshot 2022-11-22 191351.jpg
    52.9 KB · Views: 4
  • Screenshot 2022-11-22 191321.jpg
    Screenshot 2022-11-22 191321.jpg
    50.9 KB · Views: 4
  • Screenshot 2022-11-22 191242.jpg
    Screenshot 2022-11-22 191242.jpg
    80.8 KB · Views: 4
  • Screenshot 2022-11-22 192152.jpg
    Screenshot 2022-11-22 192152.jpg
    26.8 KB · Views: 4
Kann ich auf einem einfachen Weg auf eine Platte ohne Raid 1 umstellen? Würden dann die Fehler verschwinden?
Ja, das geht. Aber ob das sinn macht sei mal dahin gestellt. Besser ein raid1 wo eine Platte gegelendlich Probleme macht als gar keine Redundanz. Du kannst mit dem "zpool offline" Befehl eine Platte des Pool offline nehmen, damit die nicht mehr benutzt wird. "zpool detach" Befehl entfern eine Disk komplett vom Mirror.

Die Schreibfehler sind weniger wild. Problematischer sind die Checksum-Fehler (=Datenkorruption).
Kann es an den 19% Fragmentierung liegen, spielt das bei SSDs ein Rolle?
Die sollte nicht das Problem sein.
Kann ich die Netzwerkerinstellungen im pve irgenwie sichern und nach der Neuinstallation einfach zurückspielen
Netzwerk-Konfig ist in "/etc/hosts", "/etc/resolv.conf" und "/etc/network/interfaces". Security Groups, Aliases, IP Sets und Co in "/etc/pve/firewall/cluster.fw".
 
>- ist die SSD noch in einem extra gehäuse (Wechselrahmen, etc)

ich hab gestern in einem neuen server in denen die 2 SSDs in 2 verschiedenen typen von 2,5"->3,5" adaptern stecken auf einer ssd massiv errors gehabt, und erst gedacht, die ssd sei im arsch (neu gekauft, lief vorher noch nicht).

nachdem ich den wechselrahmen getauscht hatte (von einem der intern einen stecker-adapter hatte zu einem bei dem die ssd keinen adapterstecker hat) waren die errors weg.

das mit dem einfrieren/schluckauf bei kopieren grösser datenmengen mit consumer ssd's kenne ich auch allzu gut. besonders schlimm waren da die billigen SANdisk SSDs SSD Plus.
 
Last edited:
hmm....also das ist schon komisch

- ist es immer die gleiche SSD, welche als Faulted markiert wird?
- falls das der Fall ist (und du wie gesagt die SATA Kabel bereits getauscht hast) hat ggf. der Onboard Steckplatz ein Problem. Ggf mal nen anderen nehmen bzw mal nen HBA dazwischenschalten.
 
hmm....also das ist schon komisch

- ist es immer die gleiche SSD, welche als Faulted markiert wird?
- falls das der Fall ist (und du wie gesagt die SATA Kabel bereits getauscht hast) hat ggf. der Onboard Steckplatz ein Problem. Ggf mal nen anderen nehmen bzw mal nen HBA dazwischenschalten.
es ist immer die gleiche, eine faulted und das ganze degraded.
Steckerplätze habe ich schon gewechselt.
Was würde eine HBA bringen? Ist doch im Prinzip nichts anderes als der Raidcontroller vom mainboard im IT bzw. AHCI Modus. Oder hab ich dadurch andere Vorteile?
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!