ZFS + Raid: Aufteilung NVMe SSD's

Obmawo

New Member
Mar 31, 2024
13
0
1
Hallo zusammen,

ich habe die folgende Hardware:

- 4xIntel DC P4510 4TB
- 2xSamsung 990 Pro 4TB
- 2xWD SN850X 4TB

- Xeon D-2733NT

Wie soll ich jetzt am besten meine ZFS Pools erstellen? Alle gemeinsam zu einem RaidZ2 oder doch lieber 2x ein Raid10?

Ich freue mich über ein paar Vorschläge :)

PS:

Das System liegt bereits auf 2xIntel DC P4510 2TB in einem Raid 1 (ZFS).
 
Last edited:
Du hast keine Infos über den Verwendungszweck gegeben.
Nebenbei haben nur die 4 Intels eine PLP und wären daher für ZFS empfohlen. Nicht die Samsungs oder WDs.
Für VMs willst du üblicherweise IOPS performance, also 8-disk raid10, die damit dann 4 mal so hoch wäre wie mit einem raidz2 und dir eine kleinere Blockgröße (volblocksize) erlaubt.
Willst du die primär als Cold Storage und daher mehr Kapazität wäre auch ein 8-disk Raidz2 eine Option.
Wenn da drauf noch DBs laufen sollen besser noch eine Optane als SLOG rein, dass dir da die WDs und Samsungs nicht sie Intels ausbremsen.
 
Last edited:
Danke schon einmal!
Sorry, Verwendungszweck:

- primär VMs und Container.
- Eine größere InfluxDB mit Telemetriedaten
- Ein TrueNas als VM für ca. 2TB Daten. Bilder, Dokumente etc.

Also trenne ich die Consumer NVMEs besser von den Intels. Die Consumer NVMEs sind PCIe 4.0 und potentiell schneller als die Intels.
 
Die Consumer NVMEs sind PCIe 4.0 und potentiell schneller als die Intels.
Und die NVMes sind potenziell 100x langsamer, da fehlende PLP und kein DRAM-caching möglich, sobald du Sync Writes hast, wie z.B. Bei einer DB. ;) PM9A3 oder PM983 wäre da besser gewesen als die 990 Pros. Die Samsung Pros sind auch schon lange nicht mehr "pro", seitdem die von MLC auf TLC gewechselt sind.
 
Last edited:
Da bin ich bei dir. Die hatte ich halt noch "so rumliegen". Auf Dauer kommen die Consumer SSD's gegen Micron 7500 Pro's getauscht.

Also würde ich es wie folgt machen:

1x RaidZ1 mit 2xWD und 2xSamsung für "langsame" und "große" Daten.
1x Raid10 mit 4xIntel P4510 für die VM's und InfluxDB

Zum ZFS: Compression (default=LZ4?), Checksum an? Die NVME's sind alle auf nativen 4k Sektor Größe eingestellt.
 
1x RaidZ1 mit 2xWD und 2xSamsung für "langsame" und "große" Daten.
1x Raid10 mit 4xIntel P4510 für die VM's und InfluxDB
Ja, das klingt nach einem brauchbaren Kompromiss.
Zum ZFS: Compression (default=LZ4?), Checksum an? Die NVME's sind alle auf nativen 4k Sektor Größe eingestellt.
Musst du mal benchmarken. Aber LZ4 hilft meistens mehr als es schadet. Aber bei NVMe SSDs kann das ei Grenzfall sein. Da verzichtet man dann ja oft z.B. auch schon auf Daten-Caching im RAM, weil die NVMes schnell genug sind.

Beim 4-disk raidz1 nicht vergessen, dass man die Blockgröße vom ZFS Storage auf Minimum 16K setzen sollte. Eventuell sogar 64K, wenn du weitere 6% Rohkapazität nicht wegen Padding Overhead verlieren willst.
 
Last edited:
  • Like
Reactions: Obmawo
würde noch dazu ergänzen:

sicher das du die non-enterprise SSDS im raidz laufen lassen willst? damit machst du die noch schneller tot als ohnehin. ich persönlich würde (wenn ich die nehmen würde) definitiv als striped-mirror mit regelmäßigem ZFS Trim (1x die woche?) laufen lassen.
 
würde noch dazu ergänzen:

sicher das du die non-enterprise SSDS im raidz laufen lassen willst? damit machst du die noch schneller tot als ohnehin. ich persönlich würde (wenn ich die nehmen würde) definitiv als striped-mirror mit regelmäßigem ZFS Trim (1x die woche?) laufen lassen.
Zum Verständnis: was machen die enterprise Platten hier anders? Aber gegen ein Raid10 ist hier nichts einzuwenden.
 
die machen erstmal nichts anders, nur können die eben viel mehr schreibzyklen ab.

als plastischen Vergleich aus der realen Welt des Handwerks:

du kannst mit einem billigen Baumarktbohrhammer genauso Löcher bohren wie mit einem Markengerät für den "Profi" was den 10fachen Preis hat. Die Komponenten des billigen sind aber evtl. auf 100 Löcher ausgelegt - und muss nach 4 Löchern pausieren weil zu heiss; und die des Markengeräts des "Profis" eben für 5000 löcher und kann 20 Löcher am Stück bohren. etc pp

von aussen sieht man das dem Ding bestenfalls an der Verarbeitung an. das Wahre KnowHow und die Langlebige Technik steckt aber innen. bei SSDs ist das ähnlich.

Consumer funktionieren schon - in dem entsprechenden Bereich - also mal kurze Peak-Leistung und ganz viel Idle

in Server ist aber oftmals wenig peak dafür fast nie Idle - ZFS ist ein HorrorBS für ssds -da es keine Zeit läst um die nötigen optimierungen durchzuführen (vor allem als RaidZ)

die Enterprise sind für dieses Szenario gebaut - können also damit viel besser umgehen.

Hoffe das war eingermaßen verständlich :)
 
  • Like
Reactions: Obmawo
Alles klar. Das passt soweit.
Da mein System aber eher so meine Spielewiese ist, würde ich wohl ein Raid10 für beide Konstellationen bevorzugen.

Muss ich das trimmen echt von Hand anwerfen?
 
Alles klar. Das passt soweit.
Da mein System aber eher so meine Spielewiese ist, würde ich wohl ein Raid10 für beide Konstellationen bevorzugen.

Muss ich das trimmen echt von Hand anwerfen?
Nein man legt sich einen Cronjob unter /etc/cron.d/zfs-trim an.
 
die machen erstmal nichts anders, nur können die eben viel mehr schreibzyklen ab.

als plastischen Vergleich aus der realen Welt des Handwerks:

du kannst mit einem billigen Baumarktbohrhammer genauso Löcher bohren wie mit einem Markengerät für den "Profi" was den 10fachen Preis hat. Die Komponenten des billigen sind aber evtl. auf 100 Löcher ausgelegt - und muss nach 4 Löchern pausieren weil zu heiss; und die des Markengeräts des "Profis" eben für 5000 löcher und kann 20 Löcher am Stück bohren. etc pp

von aussen sieht man das dem Ding bestenfalls an der Verarbeitung an. das Wahre KnowHow und die Langlebige Technik steckt aber innen. bei SSDs ist das ähnlich.

Consumer funktionieren schon - in dem entsprechenden Bereich - also mal kurze Peak-Leistung und ganz viel Idle

in Server ist aber oftmals wenig peak dafür fast nie Idle - ZFS ist ein HorrorBS für ssds -da es keine Zeit läst um die nötigen optimierungen durchzuführen (vor allem als RaidZ)

die Enterprise sind für dieses Szenario gebaut - können also damit viel besser umgehen.

Hoffe das war eingermaßen verständlich :)
Und der andere Punkt ist halt die Power-Loss Protection (PLP). Schreibst du Daten direkt auf den NAND, ohne diese vorher im RAM/DRAM-Cache zu sammeln und optimieren, steigt deine Write Amplification halt massiv an. Sagen wir du willst 1TB in der VM schreiben aber wegen der Write Amplification erzeugt der 1 TB an Daten dann halt 60TB an Writes auf den NAND. Eine SSD mit 600TB TBW klingt zwar erstmal viel, aber hast du eine Write Amplification von Faktor 60, dann sind die 600TB Haltbarkeit ja schon überschritten, nachdem man nur 10TB an Daten in einer VM geschrieben hat. Diese Write Amplification ist da halt meist das Problem, sobald du Server-Workloads laufen hast. Für ein Bare-Metal Windows wo vielleicht alle paar Wochen mal ein Steam-Spiel installiert wird reichen die Consumer SSDs locker. Da hast du dann aber hakt auch keine anspruchsvollen CoW-Dateisysteme wie ZFS, üblicherweise kein Raid, kein Virtualisierungsoverhead, keine verschachtelten Dateisysteme, weniger DBs die viele Sync Writes absetzen, keine gemischten Blockgrößen, ...

Billige consumer SSD ohne DRAM-Cache: kann weder async noch sync writes cachen/optimieren

Bessere Consumer/Prosumer SSD mit DRAM-Cache: kann nur async aber keine sync Writes cachen/optimieren

Enterprise SSD mit DRAM-Cache + PLP:
Kann sowohl async wie auch sync Writes cachen/optimieren.
 
Last edited:
  • Like
Reactions: Obmawo
Danke für die zahlreichen Info's!

Was haltet ihr von den Intel Optane P4800x 375GB SSD's für DB's? Juckt mich schon ein wenig in den Fingern :-D
 
optanes sind klasse. das beste, was du für geld kaufen kannst, wenn dir die kapazität reicht.
die haben write endurance zum sau füttern.
zum vergleich.
die 375gb p4800x hat 20pbw, also 20000tbw, während meine intel sata enterprise ssd 10pbw hat, allerdings bei mehr als 4 facher kapazität.
das heisst die optane hat im verhältnis die 8-fache write endurance meiner enterprise-ssd.
das ist massiv.
 
  • Like
Reactions: Obmawo
Eine ganz andere Frage:

Die vier P4510 sind Dell gebrandet. Gibt es die Möglichkeit, hier die originale Intel (Solidigm) Firmware draufzuspielen?
 
nicht soweit ich weiss (was nichts heissen muss).
meine s3610 sind auch dell gebrandet.
hab einfach die letzte dell firmware eingespielt und benutze sie so.
ich hab bisher nichts zu beanstanden.
 
Funktionieren tun die bei mir auch super, alles kein Problem. Allerdings werden die Dells nicht vom Supermicro BMC erkannt und dann unter Storage angezeigt. Ist ein nice to have feature :)
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!