Proxmox High Load

TZockt

Member
Jul 20, 2021
30
1
8
20
Moin moin, ich hab gerade folgendes Problem: Meins Server hat nach einer gewissen Laufzeit immer eine hohe Load Average und ein hoher IO Delay. Wie kann ich jetzt am besten herausfinden an welcher Platte das liegt? https://i.imgur.com/RcWnPUP.png
 

Attachments

  • chrome_8ew7oR7Ld3.png
    chrome_8ew7oR7Ld3.png
    23.3 KB · Views: 23

Dunuin

Famous Member
Jun 30, 2020
4,219
917
143
Germany
Wow, das sieht echt nicht normal aus... Load average von 291 = 291 CPU Threads benötigt. Gleichzeitig aber nur eine CPU Auslastung von 4% bei 24 Threads, also nur 1 Thread benutzt. Irgendwas passt da also überhaupt nicht, wenn sich deine CPU langweilt obwohl die Last so groß ist. Kann natürlich sein, dass da die Prozesse einfach auf die Disks warten müssen und sich die Last daher so staut...aber das ist schon sehr extrem.
Du könntest mal das hier versuchen: watch "(ps -eo stat,pid,comm|awk '(NR==1)||(\$1~/D/){print}')"
Das sollte dir zeigen welche Prozesse gerade auf IO warten.
 
  • Like
Reactions: Sourcenux

Newlife

Member
Sep 27, 2017
11
0
21
27
Die load-average kommt sehr wahrscheinlich von dem IO delay. Schau mal mit iotop welcher Prozess dein IO so blockiert.
 

UdoB

Well-Known Member
Nov 1, 2016
185
39
48
Germany
Guten Morgen,

ich hatte vor Monaten einen ähnlichen Effekt (Systemlast bis 340 während CPU=Idle) auf einem Asrock/Threadripper-System. Anscheinend wurde/wird dies durch meine nächtlichen Backups ausgelöst - die zeitlichen Zusammenhänge deuten sehr darauf hin. In den Logdateien kann ich aber leider nichts finden, was dies explizit bestätigt.

Dann hatte ich alle eingeschalteten VM von Festplatte/HDD auf SSD verschoben. Danach war dieses Fehlerbild für Wochen verschwunden.

Vor zwei Tagen habe ich ein oder zwei winzige VM auf den Blechplatten wieder eingeschaltet - und heute früh prompt wieder eine Systemlast von "nur" 170.

An dieser Stelle hilft anscheinend nur Strom aus / Strom an :-(

Mein aktueller Plan: wechseln von "Backup Mode: Snapshot" zu "Suspend". Mal sehen..., so etwas zu testen dauert ja immer Wochen. Manuell gestartete Backups funktionieren für mich immer ohne Probleme.

Viele Grüße
 

fireon

Famous Member
Oct 25, 2010
3,821
304
103
39
Austria/Graz
iteas.at
Wir hatten solches Verhalten auch. Hier bei uns bockte eine eingehängt NFS Freigabe die nicht richtig reagierte. @TZockt ansonsten bitte mal genauere Angaben deiner Datenstorages. Poste doch auch die /etc/pve/storage.cfg.
 

TZockt

Member
Jul 20, 2021
30
1
8
20
Wir hatten solches Verhalten auch. Hier bei uns bockte eine eingehängt NFS Freigabe die nicht richtig reagierte. @TZockt ansonsten bitte mal genauere Angaben deiner Datenstorages. Poste doch auch die /etc/pve/storage.cfg.
Code:
root@pve ~ # cat /etc/pve/storage.cfg
dir: local
        path /var/lib/vz
        content backup,iso,vztmpl

lvmthin: local-lvm
        thinpool data
        vgname pve
        content images,rootdir

dir: blue1-backup
        path /mnt/blue1/backup
        content rootdir,backup,snippets,vztmpl,images,iso
        prune-backups keep-all=1
        shared 0

lvm: diamond
        vgname diamond
        content images,rootdir
        nodes pve
        shared 0

dir: iron
        path /mnt/iron
        content vztmpl,iso,snippets,backup,rootdir
        prune-backups keep-all=1
        shared 0
 

TZockt

Member
Jul 20, 2021
30
1
8
20
Iron ist eine RAID 1 Festplatte von meinem Raid Controller
und Blue1-backup hab ich gestern rausgeschmissen weil ich die nicht mehr gebraucht habe
 

TZockt

Member
Jul 20, 2021
30
1
8
20
Wow, das sieht echt nicht normal aus... Load average von 291 = 291 CPU Threads benötigt. Gleichzeitig aber nur eine CPU Auslastung von 4% bei 24 Threads, also nur 1 Thread benutzt. Irgendwas passt da also überhaupt nicht, wenn sich deine CPU langweilt obwohl die Last so groß ist. Kann natürlich sein, dass da die Prozesse einfach auf die Disks warten müssen und sich die Last daher so staut...aber das ist schon sehr extrem.
Du könntest mal das hier versuchen: watch "(ps -eo stat,pid,comm|awk '(NR==1)||(\$1~/D/){print}')"
Das sollte dir zeigen welche Prozesse gerade auf IO warten.
Eben ist wieder das Problem aufgetaucht.

Code:
Every 2.0s: (ps -eo stat,pid,comm|awk '(NR==1)||($1~/D/){print}')                                                                                                    pve.tzockt.de: Mon Oct 18 09:05:51 2021

STAT     PID COMMAND
D        226 kworker/u177:1+flush-253:11
D        390 kworker/u177:3+flush-253:11
D        391 kworker/u177:4+flush-253:11
D        392 kworker/u177:5+flush-253:6
D        393 kworker/u177:6+flush-253:11
D        399 kworker/u177:9+flush-253:12
D       1025 jbd2/sdb-8
D       1675 kmmpd-dm-11
D       1676 jbd2/dm-11-8
Ds      1811 systemd-journal
D       2065 kworker/u177:12+flush-253:12
D       4481 kmmpd-dm-7
D       4483 jbd2/dm-7-8
Ds      4494 systemd
Dl      4991 python3
Dsl     5038 nagios
D       5622 kmmpd-dm-12
D       5623 jbd2/dm-12-8
D<      6580 loop0
D       7192 kmmpd-loop0
D       7194 jbd2/loop0-8
D       8548 kmmpd-dm-15
D       8550 jbd2/dm-15-8
Ds      8559 systemd
Ds      8797 systemd-resolve
Ds      8803 avahi-daemon
Dsl     8815 udisksd
D       8934 jsvc
Dl      8935 launcher
Ds      9108 master
D       9109 pickup
D       9639 kworker/u178:8+flush-253:15
D       9641 kworker/u178:10+flush-7:0
D      10305 cron
D      10306 cron
D      10307 cron
D      10456 kworker/u177:0+flush-253:11
D      10461 kworker/u177:2+flush-253:11
D      10488 cron
D      10489 cron
D      10656 cron
D      10657 cron
D      10827 cron
D      10828 cron
D      10994 cron
D      10995 cron
D      11164 cron
D      11165 cron
D      11166 cron
D      11167 cron
D      11335 cron
D      11336 cron
D      11429 kworker/u177:7+flush-253:12
D      11506 cron
D      11507 cron
 

TZockt

Member
Jul 20, 2021
30
1
8
20
Ebenso hab ich eben in den Syslog gefunden das es eventuell ein Problem mit meinem RAID Controller gibt Oct 18 09:25:33 pve kernel: [29181.244367] megaraid_sas 0000:09:00.0: Controller in crit error
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get your own in 60 seconds.

Buy now!