I/O Delay bis zum Freeze

tweak

Member
Dec 27, 2019
35
1
8
36
Hallo Leute,
habe ein Problem mit meiner Proxmox Installation.
Und zwar hab ich ein Raid1 mit ZFS bestehend aus Enterprise SSDs (PM883) für die VMs bzw. für das OS.
Für Storage habe ich ein Raid1 ebenfalls mit ZFS bestehend aus Seagate Exos E 7E2000.

Auf dem Host läuft eine OMV (Openmediavault) VM als NAS sowie eine Nextcloud Instanz, parallel zu ein paar Jumphosts.
Wenn ich nun etwas größeres bzw. viele kleine Dateien kopiere, geht es soweit das die Jumphosts sogar freezes haben und das obwohl ich ja eigentlich nur auf dem ZFS Raid der Seagates schreibe. Die SSDs bekommen keine Last ab.

Kann mir bitte jemand sagen bzw weiterhelfen wo hier der Fehler liegt ?

Code:
Linux 5.4.55-1-pve (pve)        10/15/2020      _x86_64_        (12 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           2.87    0.00    1.28    0.09    0.00   95.76

Device             tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sdc               0.85         3.40        69.52   13146656  268856932
sdb              46.43       325.02      1012.27 1256962363 3914829175
sda              46.49       324.95      1012.27 1256700387 3914829172
sdd               0.84         3.35        69.52   12940908  268857092
zd0               5.82        51.46        73.39  199021491  283842905
zd16              0.07         1.10         2.69    4260175   10396349
zd32              3.83        11.57       118.47   44759609  458152956
zd48              0.33         4.48         9.92   17317689   38382786
zd64              0.00         0.00         0.00        116          0
zd80              0.00         0.00         0.00        116          0
zd96              0.00         0.00         0.00       2440        312
zd112             0.00         0.00         0.00       9024          0
zd128             0.00         0.00         0.00       9024          0
zd144             0.00         0.00         0.00        536        220
zd160             0.00         0.00         0.00       2124          0
zd176             0.01         0.01         8.03      44889   31062692
zd208             5.37        66.72        82.30  258025119  318266800
zd192             0.02         0.20         1.24     764022    4788908
zd224             0.03         0.01        24.88      44845   96218395
 

tweak

Member
Dec 27, 2019
35
1
8
36
Hallo,
eventuell zur Eingränzung des Fehlers, ich dachte anfänglich das es eventuell mit der Firewall zu tun habe die zwischen den beiden VMs sitzt und gegebenfalls Aufgrund der Load Pakete dropt oder ähnliches.
Daher hab ich mal eine Teststellung wirklich innerhalb von Proxmox gemacht mit einer Bridge. Kopiere ich von VM1 HDD (zfs) auf VM2 SSD (zfs) alles gut, keine Freezes und ich erreiche ca. 110 mb/s.

Schiebe ich die selbe datei wieder zurück von SSD auf HDD ereiche ich 400mb/s und hab nach 1 Sekunde wieder einen Einbruch. Eigentlich verhält es sich, wie eine zick-zack Linie und die HDDs kommen mit dem schreiben nicht nach.

Aber weshalb freezt hier das komplette System?

mfg
 

fireon

Famous Member
Oct 25, 2010
3,551
266
103
38
Austria/Graz
iteas.at
Hmm, klingt komisch. Du hast auch gute Disks gewählt, an dem kann es also nicht liegen. Poste doch bitte mal sämtliche Info's deines Systems. Event. fällt ja was auf. Also RAM, CPU, usw. inkl. bitte dieser Ausgaben:
Code:
zpool list
zpool status
pveperf /dein-SSD-Pool
pveperf /dein-HDD-Pool
 

tweak

Member
Dec 27, 2019
35
1
8
36
Hallo Fireon, danke für die Rückmeldung. Beim System handelt es sich um einen HP DL20 Gen10 ohne HW-Raid.

CPU: Xeon E-2136
RAM: 32 GB (davon 8GB für ZFS max reserviert)

zpool list:

Code:
NAME      SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
hdd-zfs  1.81T   499G  1.33T        -         -     0%    26%  1.00x    ONLINE  -
rpool    1.73T   502G  1.24T        -         -    12%    28%  1.00x    ONLINE  -

zpool status:

Code:
  pool: hdd-zfs
state: ONLINE
  scan: scrub repaired 0B in 0 days 00:01:49 with 0 errors on Sun Oct 11 00:25:50 2020
config:

        NAME        STATE     READ WRITE CKSUM
        hdd-zfs     ONLINE       0     0     0
          mirror-0  ONLINE       0     0     0
            sdc     ONLINE       0     0     0
            sdd     ONLINE       0     0     0

errors: No known data errors

  pool: rpool
state: ONLINE
  scan: scrub repaired 0B in 0 days 00:19:11 with 0 errors on Sun Oct 11 00:43:14 2020
config:

        NAME                                                     STATE     READ WRITE CKSUM
        rpool                                                    ONLINE       0     0     0
          mirror-0                                               ONLINE       0     0     0
            ata-SAMSUNG_MZ7LH1T9HMLT-00005_S455NY0M917655-part3  ONLINE       0     0     0
            ata-SAMSUNG_MZ7LH1T9HMLT-00005_S455NY0M501444-part3  ONLINE       0     0     0

errors: No known data errors

pveperf /hdd-zfs:

Code:
CPU BOGOMIPS:      79199.76
REGEX/SECOND:      4363455
HD SIZE:           420.16 GB (hdd-zfs)
FSYNCS/SECOND:     1090.32
DNS EXT:           18.07 ms
DNS INT:           19.73 ms (test.lan)

pveperf /rpool:

Code:
CPU BOGOMIPS:      79199.76
REGEX/SECOND:      4426697
HD SIZE:           1218.71 GB (rpool)
FSYNCS/SECOND:     10460.92
DNS EXT:           17.07 ms
DNS INT:           20.74 ms (test.lan)

Das kann ja alles nicht nur sein, weil ich kein Zil verwende oder?
Sonst hätte ich noch nen M2 Slot für ne Intel Optane...

Aber der aktuelle Zustand ist eher unbrauchbar, vor allem wenn man mal Images (5-6GB) verschieben muss. Bzw. wenn ich anschließend zyklisch Backups mache.

LG
 
Last edited:

gmed

Well-Known Member
Dec 20, 2013
412
49
48
Zuwenig RAM und kein SSD-Cashing.
Zudem ist deine CPU eher von der gemächlichen Sorte, was IO angeht.

Wir sind bei ähnlicher Performance auf ähnlicher Hardware auf HW-Raid zurück.
Liegt aber in unserem Fall nicht daran, dass wir ZFS nicht "mögen", sondern daran, dass wir schlichtweg nicht genug Zeit hatten, uns mit ZFS in der Tiefe zu befassen.
 

fireon

Famous Member
Oct 25, 2010
3,551
266
103
38
Austria/Graz
iteas.at
Sieht ja alles ganz ok aus. Ich selbst betrieb nen Cluster mit lediglich 32GB pro node und ner wesentlich schwächeren CPU. Lief ganz normal. Wobei ich immer mind. 6 und mehr HDD's im ZFS Raid10 hatte.

Was ich dir aber schon aus Erfahrung sagen kann ist dass wir mit HP Maschinen und ZFS bis jetzt immer super viel Probleme hatten. Bis dahin, dass die Maschinen einfach nicht mehr booten konnten. Hättest ne andere Maschine nur zum Testen?
Was müsstest du tun: Andere Maschine verwenden, HDD's/SSD's umstecken, hoch fahren, Netzwerk setzten, und wieder testen.

Wenn du diese Hänger/Last am System hast, was schreibt des das Log exakt zu dieser Zeit?
Code:
journalctl -f
Und vor allem wie ist die Systemlast beim Kopieren? CPU/RAM/I/O Wait.

FSYNCS/SECOND: 1090.32
Der Wert ist zwar nicht optimal. Aber wenn hier bei meinem Backupserver wo ich ein RaidZ10 mit 8 zusammengewürfelten HDD's fahre, Fsync von 94 rausbekomme und beim Kopieren das ganz noch immer bei 120MB/s ansteht und nicht zuckt, sollte es bei dir mit den guten HDD's auf alle Fälle tun.
 

tweak

Member
Dec 27, 2019
35
1
8
36
Hallo,
danke für die Rückmeldungen, also Host habe ich aktuell leider keinen anderen zur Verfügung.
Bezüglich der Limitierung mit RAM bin ich mir auch nicht sicher ob das die Ursache ist, ZFS nutzt nicht einmal die komplett freigegebe Menge an Ram, wie eingehens erwähnt, habe ich 8GB für ZFS reserviert. Jedoch werden nur maximal 4-6 GB genutzt.

Die CPU zeigt sich vom Kopiervorgang her eher unbekümmert, also könnte nicht sagen das hier der Flaschenhals ist.
Es ist wirklich ärgerlich, denn somit ist eigentlich das ganze System unnutzbar...

Achja journalctl zeigt sich unberührt, keine Einträge.

Ich hänge mal ein File von nem simplen Kopiervorgang mittels Windows an:

Es startet mit 330mb/s hält dann kurz und dann kommen die Einbrüche, dann freezt alles für ein paar Sekunden und geht wieder hoch auf 90 mb/s.

mfg

PS: Habe bereits versucht den DiskSpeed von den HDDs in der VM zu limitieren, aber das Problem tritt dennoch auf egal ob Limit 100mb/s oder 50mb/s

PS2:
im syslog gesehen:

Code:
Oct 17 18:42:20 pve smartd[29622]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 82 to 83
Oct 17 18:42:20 pve smartd[29622]: Device: /dev/sdc [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 65 to 64
Oct 17 18:42:20 pve smartd[29622]: Device: /dev/sdc [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 35 to 36
Oct 17 18:42:20 pve smartd[29622]: Device: /dev/sdc [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 18 to 19
Oct 17 18:42:25 pve smartd[29622]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 80 to 81
Oct 17 18:42:25 pve smartd[29622]: Device: /dev/sdd [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 64 to 63
Oct 17 18:42:25 pve smartd[29622]: Device: /dev/sdd [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 36 to 37
Oct 17 18:42:25 pve smartd[29622]: Device: /dev/sdd [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 17 to 18
 

Attachments

  • Unbenannt.PNG
    Unbenannt.PNG
    9.9 KB · Views: 1
Last edited:

H4R0

Active Member
Apr 5, 2020
314
49
28
28
Versuch mal folgendes:
/etc/modprobe.d/zfs.conf
options zfs zfs_arc_min=4294967296
options zfs zfs_arc_max=8589934592
options zfs zfs_txg_timeout=20

Wenn es besser wird aber nicht behoben, timeout in 5er schritten erhöhen, bis maximal 60.

Du erhöhst damit denn async cache, usv vorausgesetzt.
 

tweak

Member
Dec 27, 2019
35
1
8
36
Hallo,
ne das hat eigentlich absolut nichts gebracht... keine Veränderung feststellbar.
Am internen HP S100i Chip wird es ja wohl nicht liegen? Software-Raid mache ich damit keines sondern die Platten nur mittels AHCI durch.

Hm hab eben nochmals daten von HDD Richtung SSD kopiert und ein selbes Bild hat sich abgezeichnet, das IO-Delay geht zwar nicht so in die Höhe aber die Einbrüche bei der Übertragungsgeschwindigkeit sind weiterhin da nur nicht so intensiv wie von SSD auf HDD...

mfg
 
Last edited:

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE and Proxmox Mail Gateway. We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get your own in 60 seconds.

Buy now!