vermutlich stört VM die Funktionen von Proxmox

Jan 19, 2024
27
8
3
Hallo zusammen,

ich habe ein Problem mit einem meiner Proxmox-Server, das mich in heute beschäftigt. Der Hypervisor wird "träge" und die WebUI ist entweder extrem langsam oder gar nicht mehr zugänglich. In der Timeline tauchen immer wieder Gaps auf (siehe Bild unten). Sowohl vom Proxmoxserver selbst, als auch in den VMs.

3. Fälle: WebUI geöffnet über Server selbst:
- reagiert träge,
- wird gar nicht angezeigt
- zeigt Fehlermeldungen [Bild2]
Andere Nodes sehen den Server , heißt aber nicht, dass die ebenfalls Probleme habe.
Erstmalig ist mir der GAP heute morgen zwischen 5 und 6 aufgefallen.
Das "System Log" wurde in dieser Zeit weiterhin befüllt, sehe jetzt aber auf den 1. Blick nicht, was es sein könnte

Gut für mich:
Die VMs selber haben kein Ausfall gezeigt.

Situation:
  • Proxmox-Version: 8.2.2
  • CPU: 48 Kerne (2 x Intel Xeon Gold 6146 @ 3.20 GHz)
  • RAM: 512 GiB
  • Uptime: 107 Tage
  • SWAP: 3,43% Nutzung
  • IO Delay: 4,90%
1726140267405.png

1726140319585.png

SSH war ebenfalls "recht verzögert", bin dann über ILO ran.

systemctl restart pve-cluster.service

systemctl restart corosync.service

brachte kein Erfolg.

Warum hab ich jetzt die Vermutung mit einer VM?
Meine Idee war nicht hochwichtige VMs herunterfahren um im Nachgang dann die wichtigen zu migrieren.
qm shutdown xxxx hat bei der ersten VM nicht mal funktioniert.
=> Herunterfahren über Windows selbst aber schon.
Als die Windows VM heruntergefahren war, war der Proxmox-Server unmittelbar wieder ansprechbar. Während des Problems hatte ich 11% IO delay.

Die Windows VM beinhaltet eine Veeam B&R Community Version 12.2. Es waren keine Backups im Gange (Die waren am Tag zuvor um 21:40 abgeschlossen)
Die VM hatte zu dem Zeitpunkt 32GB Ram, 4 Cores und 64GB SSD

Einzig was auf 2 Nodes öfters als Fehler auftritt:
Sep 12 13:35:55 hv03 kernel: CIFS: VFS: No writable handle in writepages rc=-9
Kein Backup im Gang, und Unmount über die Datacenter->Storagefunktion löst das Problem nicht

Hat jemand eine Idee, wo ich genau nachschauen kann?
 
Last edited:
Ist der I/O Delay herunter gegengen als du die Veeam VM herunter gefahren hast?
 
Das Delay ist aber trotzdem sehr hoch.
Entweder sind deine Disks am Limit, das checke ich am liebsten mit nmon und gucke wie Busy die Disks sind oder die CPU ist zu sehr überbucht.
 
Hallo,

Da ich jetzt > 15 Tage a.D. war folgt nun meine Rückmeldung:
Mit nmon (kannte ich vorher leider nicht) sehe ich Werte, diese Werte kann ich aber nicht beurteilen.

Gibt es im NMON direkt ein paar Punkte wo ich hinschauen sollte?

Was mir aufgefallen ist, auf einem Server hat die CPU an bestimmten Cores einfach selbst eine hohe WAIT-Zeit. Das verwundert mich.

Da die VM generell aber einer Teststellung angedacht ist, konnte ich die VM einfach herunterfahren und es gab erstmal kein Impact in die Prod.Umgebung.
 
Last edited:
Hallo,

Da ich jetzt > 15 Tage a.D. war folgt nun meine Rückmeldung:
Mit nmon (kannte ich vorher leider nicht) sehe ich Werte, diese Werte kann ich aber nicht beurteilen.

Gibt es im NMON direkt ein paar Punkte wo ich hinschauen sollte?

Was mir aufgefallen ist, auf einem Server hat die CPU an bestimmten Cores einfach selbst eine hohe WAIT-Zeit. Das verwundert mich.

Da die VM generell aber einer Teststellung angedacht ist, konnte ich die VM einfach herunterfahren und es gab erstmal kein Impact in die Prod.Umgebung.
Imnmon schaue dir erst einmal die disks an mit d.
Da ganz Wichtig die %Busy anzeige bei den einzelnen Disks.
 
Bei dem oben betroffenden Server habe ich aktuell eine max busy-Auslastung von 10% auf einzelnen Partitionen als Peak.
Das werde ich danach noch mal beobachten, wenn ich den Testserver hochfahre und er die Sicherung durchgeführt hat.

Vielleicht lässt sich das Verhalten nach den Backups reproduzieren

Gleichwohl fällt mir aber auf, das andere Partitionen auf mein anderen Server mit bis zu 70% Busy-Time im Schnitt dabei sind. Was wohl nicht zuletzt daran liegt, dass hier leider immer noch QVOs am Werk sind.
 
Wenn du QLC SSDs benutzt, erklärt das auch die 5% I/O Delay im Idle. gerade Veeam kann ganz gut I/o erzeugen was bei so einer QLC SSD tödlich sein kann.
Du kannst di QLC ja benutzen mit LVM-Pool aber auch da darf man keine Rakete erwarten.
 
Die QLCs stehen bei mir auf der Liste der aussterbenden Hardware. Die sind ein epischer Fehler gewesen, was nicht zu letzt dem Budget geschuldet war. Okay, dann ist das Delay zumindest erklärt.
Stand heute ist mit dem Testbackup aber auch kein weiteres Problem aufgetreten. Werde mir dann mit nmon die Daten anschauen, wenn das Problem wieder auftritt.

Danke das ich hier von NMON erfahren durfte. :)
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!