"Load average" plötzlich auf 3 Server angestiegen // Load average suddenly increase on 3 servers

Jan 19, 2024
30
9
8
Moin Moin Zusammen,

ich stehe hier von einem (noch) kleinen Problem. Die Load average meiner Proxmox-Server ist angestiegen, ob wohl kein wesentlicher Workload dazu kam, noch das es administrative Änderung gab. Ab dem Zeitpunkt des Anstiegs gab es ein Problem - welches ich allerdings im Glauben war behoben zu haben.

Auf Server 1: gab es ein Aussetzer - ich gehe davon aus, dass dieser entstanden ist, weil im Backup-Task (integrierte Backupfunktion) der Backupspeicher nicht erreichbar war. 1762856080270.png
Die Server haben alle unterschiedliche Uptimes - aber alle größer 100 Tage.

1762854554930.png

1762854522191.png

1762854582074.png
Detaillierterer Screenshot vom Anstieg:
1762854723309.png

Ich bin die versch. Foreneinträge durchgegangen, aber ein wirkliches "handling" zu meinem Problem, oder gar eine Lösung habe ich nicht gefunden.
- https://forum.proxmox.com/threads/p...average-due-to-process-z_wr_iss.156483/page-2 (Sehe ich / trifft zu)
- https://forum.proxmox.com/threads/demystifying-load-averages.112303/#post-485014
- https://forum.proxmox.com/threads/load-average-increasing.112529/

Uptime:
Server 1: 11:04:06 up 127 days, 14:29, 3 users, load average: 130.51, 130.44, 130.59
Server 2: 11:04:42 up 118 days, 20:25, 2 users, load average: 101.12, 100.79, 99.89
Server 3: 11:05:02 up 224 days, 1:39, 1 user, load average: 80.55, 79.85, 79.50

Schritte und Maßnahmen:
- Backupspeicher disabled und umount durchgeführt (gleichzeitig festgestellt, das z.T. noch Mounts gehalten wurden(über mount) die im Proxmox nicht mehr sichtbar waren.
-- gefunden durch
Code:
lsof | grep -i lock
-- nach umount keine Fehlermeldung mehr und auch keine locks gefunden
-- Immer wiederkehrend in diesem Forum gibt es im Zusammenhang mit Freigaben "spannende" Phänomene zu lesen.
- Integrierter Backup wurde deaktiviert
-- Primär wird über Veeam gesichert
- Uninterruptible Sleeps
--
Code:
 ps -eo stat,cmd | grep '^D'
(kein Ausgabe)
- zpool list zeigt keine Probleme auf den Systemen an.

Gibt es ein Punkt wo ich noch genau hinschauen kann?

Sicherlich würde ein Neustart dieses Symptom beheben, vermutlich wird es auch eine einmalige Sache sein - aber: Ich will gerne verstehen was los war, zumindest aber ein "Werkzeug" um dieses noch etwas besser zu untersuchen.
Und bei beides Scheitert meine Linux-Kenntnis und hoffe auf eure Hilfe

Grüße
 
Ich hatte das Problem auch schon - und konnte nicht den konkreten Verursacher finden. Meine "Lösung" war brutal, aber dank Cluster einfach: jeweils einen Node evakuieren und neu booten... :-(