Hi Leute, ich schreibe euch mal in der Hoffnung ein paar Lösungen und Ideen zu meinem merkwürdigen Problem zu finden. Kurz: ich habe 2 Server, auf dem einem Performancen die SSDs ohne Probleme, auf dem anderen Server habe ich mit wirklich hohem i/o Delay zu kämpfen, obwohl auf beiden, die selbe Anwendung läuft, und sie sonst auch identisch aufgesetzt sind.
Von vorne weg, mir ist klar, das Consumer SSDs wie die SA500 nicht unbedingt ideal für ZFS Systeme sind, jedoch geht es mir hier nicht um die maximale Performance da das Budget hier auch ein gewisse Rolle spielt. Das Problem ist einfach, dass auf dem einem System die SA500 ohne grössere Probleme arbeiten, auf dem anderen aber nicht. Ich entschuldige mich auch, wenn ich hier keine Fachausdrücke verwende, nicht bis is Detail in die Technik blicke, und/oder sehr Laienhaft die Thematik beschreibe, und auch nicht mit Benchmarks komme. Falls diese erwünscht sind, liefere ich die nach, wenn mir jemand sagt, was er für Benchmarks braucht, um die Situation besser beurteilen zu können. Ich selber bin nur Hobby Sysadmin und betreibe ein paar Server aus Spass an der Freude. Auch weiss ich, dass hier ziemliche Profis unterwegs sind, also entschuldigt mich, wenn etwas fehlt, oder ich etwas zu ungenau beschreibe, oder was auch immer
Nun die lange Version:
Problem:
Ich betreibe zwei Proxmox-Server mit der aktuellen Version 8.3.4 und beobachte massive Unterschiede in der I/O-Performance bei identischer Software und eigentlich gleichen SSDs. Wenn man es genauer nimmt: eigentlich nicht identisch, weil a: auf Server 1 die Software massiv mehr zu tun hat, als auf Server 2, und b: die WDSA500 auf Server 2 einer neueren Version entsprechen. Sie werden zumindest anders bezeichnet beim Disk Check unter pve --> Disks
Kommen wir zu den Problemen und dem Setup:
Server 1 (keine Probleme):
- Hardware:
- 2x WDSA500 (WDC_WDS200T1R0A-68A4W0) im ZFS-Mirror
- 128GB DDR4 RAM @ 3200 MHz
- Anwendungen:
- grössere Bitcoin- und Lightning-Node in einem LXC-Container mit Ubuntu 24.04, über 60 Kanäle zu anderen Nodes, sehr hohes Routing aufkommen, sehr hohe Schreib und Leselast
- Performance:
- Keine I/O Delays**, keine Performanceprobleme. Beim starten und initialisieren der Node evt 5% i/o delay laut Proxmox. Während dem Betrieb der Node, i/o delax von höchstens 2-3%
- Die Node ist nach einem Neustart nach ca 2 Minuten Betriebsbereit
Server 2 (massive I/O Delays & Container-Freezes):
- Hardware:
- 1x WD SA500 (WD_Red_SA500_2.5_2TB) (neuere Version)
- AMD Ryzen **5700G**
- 128GB DDR4 3200MHz RAM
- Anwendungen:
- kleinere Bitcoin- und Lightning-Node ebenso in einem LXC-Container mit Ubuntu 24.04 (die Node hat aber im Vergleich zu Node 1 auf Server 1 praktisch nichts zu tun da sie nur 4 Kanäle hat, und praktisch kein Routing betrieben wird)
- Probleme:
- Extreme I/O Delays beim Starten der Node bis zu 40% i/o Delay beim Start und initialisieren der Node.
- Über den Tag hinweg heftige I/O-Spitzen, sodass manche Docker-Container hängen bleiben (Datenbank-Locks in den Containern)
- `lndg (ein Rebalancer für Bitcoin Lightning Channels)` bleibt über Nacht häufig komplett stehen. Teilweise gehen die spitzen beim Betrieb auf 18% und mehr
- Die Node ist nach einem Neustart teilweise erst nach 10 Minuten betriebsbereit
Zusätzliche Beobachtungen:
1. Mein Kumpel hat exakt dieselben neuen WD SA500 SSDs (selbe Bezeichnung wie auf Server 2) und genau das gleiche Problem. Die Nodesoftware ist die selbe.
- Auch neueste PVE-Version
- er betreibt wie ich auf Server 1 ein ZFS Mirror-Setup von 2x SA500
- AMD Ryzen 5500G
- 32GB DDR4 RAM
2. Alle Systeme laufen mit ZFS
3. Die alten WDSA500 auf dem Server 1 haben keinerlei Probleme, selbst unter Last.
4. Die Nodesoftware ist auf allen System identisch und läuft auf Ubuntu 24.04
Hintergrund zu den Anwendungen:
- Bitcoin Full Node (bitcoind): Liest und schreibt intensiv auf die Disk (Blockdaten, Indexe, Mempool etc.).
- Lightning Node (lnd): Arbeitet mit kleinen, häufigen Lese- und Schreibzugriffen, was SSDs mit schlechter Random-Write-Performance stark belasten kann. Stark datenbanklastige Anwendung.
---
Fragen:
1. Gibt es bekannte Unterschiede zwischen der alten und neuen WD SA500 bezüglich Firmware oder Performance unter ZFS?
2. Hat jemand ähnliche I/O-Probleme mit der neueren Versionen der WD SA500?
3. Hat jemand ne Idee, wieso es zu derart grossen i/o Last Differenzen kommen kann bei eigentlich dem selben SSD Model?
Ich bin für jede Hilfe oder Anregung dankbar! Ich suche schon seit Wochen nach dem Problem, aber im Internet finde ich nichts. Die Software ist identisch. Die LXC Container Einstellungen unterscheiden sich nicht. Auch gibt es keine Spezialkonfigurationen auf Server 2.
Jemand hat empfohlen, mal auf System 2 den ZFS sync auf disabled zu stellen, jedoch ist das nicht gerade optimal da LND bzw die Lightning Node Datenbanken verwendet, und ein Verlust der Daten bei einem Kernel-Crash katastrophal enden könnte. Ausserdem erschliesst sich mir nicht, wieso die einen Disks mit voller ZFS Funktionalität keine Probleme machen, die anderen im zweiten Server jedoch schon.
Die beiden Server sind zwar an einer UPS, riskieren möchte ich dies aber irgendwie nicht.
Also nun, ich hoffe ich konnte die Situation einigermassen genau beschreiben, und hoffe, dass der ein oder andere evt nen Tipp für mich hat.
Greetings
Wario
Von vorne weg, mir ist klar, das Consumer SSDs wie die SA500 nicht unbedingt ideal für ZFS Systeme sind, jedoch geht es mir hier nicht um die maximale Performance da das Budget hier auch ein gewisse Rolle spielt. Das Problem ist einfach, dass auf dem einem System die SA500 ohne grössere Probleme arbeiten, auf dem anderen aber nicht. Ich entschuldige mich auch, wenn ich hier keine Fachausdrücke verwende, nicht bis is Detail in die Technik blicke, und/oder sehr Laienhaft die Thematik beschreibe, und auch nicht mit Benchmarks komme. Falls diese erwünscht sind, liefere ich die nach, wenn mir jemand sagt, was er für Benchmarks braucht, um die Situation besser beurteilen zu können. Ich selber bin nur Hobby Sysadmin und betreibe ein paar Server aus Spass an der Freude. Auch weiss ich, dass hier ziemliche Profis unterwegs sind, also entschuldigt mich, wenn etwas fehlt, oder ich etwas zu ungenau beschreibe, oder was auch immer

Nun die lange Version:
Problem:
Ich betreibe zwei Proxmox-Server mit der aktuellen Version 8.3.4 und beobachte massive Unterschiede in der I/O-Performance bei identischer Software und eigentlich gleichen SSDs. Wenn man es genauer nimmt: eigentlich nicht identisch, weil a: auf Server 1 die Software massiv mehr zu tun hat, als auf Server 2, und b: die WDSA500 auf Server 2 einer neueren Version entsprechen. Sie werden zumindest anders bezeichnet beim Disk Check unter pve --> Disks
Kommen wir zu den Problemen und dem Setup:
Server 1 (keine Probleme):
- Hardware:
- 2x WDSA500 (WDC_WDS200T1R0A-68A4W0) im ZFS-Mirror
- 128GB DDR4 RAM @ 3200 MHz
- Anwendungen:
- grössere Bitcoin- und Lightning-Node in einem LXC-Container mit Ubuntu 24.04, über 60 Kanäle zu anderen Nodes, sehr hohes Routing aufkommen, sehr hohe Schreib und Leselast
- Performance:
- Keine I/O Delays**, keine Performanceprobleme. Beim starten und initialisieren der Node evt 5% i/o delay laut Proxmox. Während dem Betrieb der Node, i/o delax von höchstens 2-3%
- Die Node ist nach einem Neustart nach ca 2 Minuten Betriebsbereit
Server 2 (massive I/O Delays & Container-Freezes):
- Hardware:
- 1x WD SA500 (WD_Red_SA500_2.5_2TB) (neuere Version)
- AMD Ryzen **5700G**
- 128GB DDR4 3200MHz RAM
- Anwendungen:
- kleinere Bitcoin- und Lightning-Node ebenso in einem LXC-Container mit Ubuntu 24.04 (die Node hat aber im Vergleich zu Node 1 auf Server 1 praktisch nichts zu tun da sie nur 4 Kanäle hat, und praktisch kein Routing betrieben wird)
- Probleme:
- Extreme I/O Delays beim Starten der Node bis zu 40% i/o Delay beim Start und initialisieren der Node.
- Über den Tag hinweg heftige I/O-Spitzen, sodass manche Docker-Container hängen bleiben (Datenbank-Locks in den Containern)
- `lndg (ein Rebalancer für Bitcoin Lightning Channels)` bleibt über Nacht häufig komplett stehen. Teilweise gehen die spitzen beim Betrieb auf 18% und mehr
- Die Node ist nach einem Neustart teilweise erst nach 10 Minuten betriebsbereit
Zusätzliche Beobachtungen:
1. Mein Kumpel hat exakt dieselben neuen WD SA500 SSDs (selbe Bezeichnung wie auf Server 2) und genau das gleiche Problem. Die Nodesoftware ist die selbe.
- Auch neueste PVE-Version
- er betreibt wie ich auf Server 1 ein ZFS Mirror-Setup von 2x SA500
- AMD Ryzen 5500G
- 32GB DDR4 RAM
2. Alle Systeme laufen mit ZFS
3. Die alten WDSA500 auf dem Server 1 haben keinerlei Probleme, selbst unter Last.
4. Die Nodesoftware ist auf allen System identisch und läuft auf Ubuntu 24.04
Hintergrund zu den Anwendungen:
- Bitcoin Full Node (bitcoind): Liest und schreibt intensiv auf die Disk (Blockdaten, Indexe, Mempool etc.).
- Lightning Node (lnd): Arbeitet mit kleinen, häufigen Lese- und Schreibzugriffen, was SSDs mit schlechter Random-Write-Performance stark belasten kann. Stark datenbanklastige Anwendung.
---
Fragen:
1. Gibt es bekannte Unterschiede zwischen der alten und neuen WD SA500 bezüglich Firmware oder Performance unter ZFS?
2. Hat jemand ähnliche I/O-Probleme mit der neueren Versionen der WD SA500?
3. Hat jemand ne Idee, wieso es zu derart grossen i/o Last Differenzen kommen kann bei eigentlich dem selben SSD Model?
Ich bin für jede Hilfe oder Anregung dankbar! Ich suche schon seit Wochen nach dem Problem, aber im Internet finde ich nichts. Die Software ist identisch. Die LXC Container Einstellungen unterscheiden sich nicht. Auch gibt es keine Spezialkonfigurationen auf Server 2.
Jemand hat empfohlen, mal auf System 2 den ZFS sync auf disabled zu stellen, jedoch ist das nicht gerade optimal da LND bzw die Lightning Node Datenbanken verwendet, und ein Verlust der Daten bei einem Kernel-Crash katastrophal enden könnte. Ausserdem erschliesst sich mir nicht, wieso die einen Disks mit voller ZFS Funktionalität keine Probleme machen, die anderen im zweiten Server jedoch schon.
Die beiden Server sind zwar an einer UPS, riskieren möchte ich dies aber irgendwie nicht.
Also nun, ich hoffe ich konnte die Situation einigermassen genau beschreiben, und hoffe, dass der ein oder andere evt nen Tipp für mich hat.
Greetings
Wario
Last edited: