IO Backpressure, mein Fehler

Jan 18, 2025
53
6
8
Austria
Hallo und frohes Neues 2026. Alles Gute für Euch und das ganze Team!

Ich hab nicht gehört und nun bekomme ich die Rechnung. Mein Proxmox system Läuft auf einem ZFS von ca 3TB aus 3 jeweils 1TB großen Consumer SSDs.
1767299920367.png

1767300326921.png
Nun passiert es regelmäßig, dass das ganze System "zögert" also langsam bis gar nicht reagiert, wenn auf dem System-ZFS etwas passiert. Beispiele sind z.B. Home Assistant, der vor dem Update ein Backup macht oder seine Daten aufräumt beim löschen, Ändern oder Hinzufügen von Sensoren.

Wie komme ich aus dem Schlamassel elegant raus, ohne gleich auf 3 Server-SSDs umzurüsten? Ich habe z.B. noch einen Slot im SSD_Tray frei und könnte eine super schnelle aber kleine SSD hinzufügen als Cache. Oder ich könnte eine PCIe-8x Karte hinzustecken mit Steckplätzen für NVMEs. Aber aktuell habe ich noch andere Prioritäten und suche daher einen zuverlässigen kostengünstigen Weg, den Consumer SSDs die Last zu reduzieren und das ganze System flüssiger zu bekommen.

Für ein paar einfache Schritte und ggf. nötige Kaufempfehlungen wäre ich sehr dankbar!

Alles Gute und vielen Dank
Astralix
 
Hier der zpool status:
Bash:
  pool: rpool
 state: ONLINE
status: Some supported and requested features are not enabled on the pool.
        The pool can still be used, but some features are unavailable.
action: Enable all features using 'zpool upgrade'. Once this is done,
        the pool may no longer be accessible by software that does not support
        the features. See zpool-features(7) for details.
  scan: scrub repaired 0B in 00:04:41 with 0 errors on Sun Dec 14 00:29:06 2025
config:

        NAME                                        STATE     READ WRITE CKSUM
        rpool                                       ONLINE       0     0     0
          raidz1-0                                  ONLINE       0     0     0
            ata-CT1000BX500SSD1_2435E98A4C02-part3  ONLINE       0     0     0
            ata-CT1000BX500SSD1_2435E98A4BEF-part3  ONLINE       0     0     0
            ata-CT1000BX500SSD1_2408E898FA2B-part3  ONLINE       0     0     0

errors: No known data errors

Dass ich da noch extra ein "zpool upgrade" machen muss ist mir allerdings entgangen. Ich bin aber fast sicher, dass das das eigentliche Problem nicht löst?

Die SSDs sind Crucial CT1000BX500SSD1
1767301187710.png

There is no swap partition enabled in the system, even there is one on a older SSD that is sitting in the system to have it's data moved to the other partitions.

Code:
:~# cat /proc/swaps
Filename                                Type            Size            Used            Priority
:~# swapon --show
:~# vmstat
procs -----------memory---------- ---swap-- -----io---- -system-- -------cpu-------
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st gu
 0  0      0 49880552   1388 2476352    0    0 13702  1421 1974    1  0  0 98  1  0  0
:~#
 
Last edited:
die bx500 sind richtig übel. unterste schublade für proxmox zusammen mit sämtlichen qlc ssds ohne dram cache.
du könntest, wenn du schon nicht auf enterprise ssds umstellen willst, zumindest bessere consumer-ssds verwenden.
hier gilt in der regel "you get, what you pay for", also je billiger, desto schlechter.

wenn es unbedingt consumer-ssds sein müssen (kann nur abraten), dann schau wenigstens, dass es welche mit dram-cache sind und keine HMB-Laufwerke (die verwenden das system-ram als cache).

beste performance mit zfs liefern natürlich laufwerke mit PLP, aber da gibts im consumer-bereich so gut wie keine mehr.
 
Ein zpool upgrade wird Dir nichts bringen, das Design Deines RAIDS (Z1) gepaart mit den Crucial BX ist quasi „worst choice“. RAIDZ ist generell nicht für VM workloads sonderlich geeignet, eher für wenig frequentierte virtuelle Speicher. Und die SSDs an sich sind low end desktop Laufwerke. Striped Mirror (aka RAID1+0) sind die performanteste Variante. Das könntest Du mit einer zusätzlichen SSD aus der Serie realisieren. Allerdings würde ich dann noch 2 kleine NVME als Cache oder SLOG mirror hinzufügen, je nach Anwendung.

Oder aber: 4x gebrauchte 960GB Server SSDs. Gerechnet auf 1x neue zusätzliche Crucial + 2x NVME wird das fast gleich teuer.
 
Was wäre langfristig der richtige Weg? 4x NVMe und wenn ja welche? Oder (gebrauchte) 960er Server SSD?
Oder gebrauchte Server NVMEs?
Und kann mir da jemand per PN eine respektable Quelle nennen? Die Hälfte meiner "Gebrauchten Server HDDs" musste ich nämlich umtauschen, weil Fakes.

Finaler Ausbau dann 4x SATA 960GB Server SSD + NVME CACHE + NVME SLOG?
 
Moment, ich denke ich habe das nicht korrekt gelesen.
Langfristig wäre es besser für das Proxmox System und die VM kein ZFS zu verwenden sondern einen Hardware-RAID und diesen dann mit SAS Server SSDs? Dann wäre auch kein SLOG und CACHE nötig? ZFS und RAIDZ nur für die reinen Datenlaufwerke, die sind bei mir alle mechanische HDD