Ubuntu 20.04 und 22.04 VMs bleiben zufällig hängen, BSD VMs nicht

Boppel

New Member
Aug 8, 2022
11
1
3
Guten Morgen zusammen,

ich habe ein Proxmox Cluster mit drei Nodes, auf dem rgelmäßig Ubuntu VMs hängen bleiben.
Eine davon ist eine Quorum Node (minimal), welche keine VMs bereit stellt.
Das Cluster ist auf dem neuesten Stand (7.2-7)

Jede Cluster Node hat folgende Hardwarespezifikationen:
  • Intel Celeron 5105 Quad Core
  • 32 GB Ram
  • 1 TB Samsung EVO 970
  • 4x 2,5 Gigabit Ports

Auf meinem Cluster laufen mehrer Linux Ubuntu VMs in den Versionen 20.04 und 22.04, sowie eine Opnsense VM.
Nun ist es so, dass die Linux Ubuntu VMs zufällig hängen bleiben.
Die Opnsense (BSD) VM ist bisher kein einziges Mal hängen gebleiben.
Die Cluster Nodes selbst laufen einwandfrei.

Zuletzt konnte ich von einer der VMs noch einen Screenshot der Console machen, diese werden nur sehr selten angezeigt, wenn eine VM hängt:
1659938225760.png

Leider bin ich nicht Linux erfahren genug um das Thema vernünftig diagnostizieren zu können.


Vorab vielen Dank für eure Hilfe.

Gruß,
Boppel
 

Boppel

New Member
Aug 8, 2022
11
1
3
Tagebuchupdate: (für die die es interessiert)

Jetzt habe ich sogar einen Absturz der Opnsense VM (BSD) mitbekommen.
Innerhalb von 24h gleich zwei Mal.
Diese scheint im Gegensatz zu Ubuntu selbstständig neu zu starten.

Folgendes habe ich seit dem unternommen:

  • UEFI Update der Topton HSX-1338NP-12 von v14 auf v16, restored UEFI defaults
  • ACPI im UEFI aktiviert
  • Intel Microcode Update
  • 80 mm Lüfter im Rack positioniert, der die beiden passiv gekühlten Toptons kühlt
  • Wärmeleitpaste korrekt und in ausreichender Menge zwischen Heatspreader und Gehäuse aufgetragen. (Das kann der Hersteller wohl nicht so gut)
Seit ca. 2h laufen alle VMs, ich bin gespannt.
 
Last edited:

Boppel

New Member
Aug 8, 2022
11
1
3
Logbucheintrag Nr 2.

Wir schreiben den 10.08.ZweitausendZweiundZwanzig, es ist 22:14 Uhr, der Mond steht kurz vor seiner nächsten Vollmondphase.
*hust*

Leider hat das Bios Update nichts gebracht.
Es ist seit der Aktion eine VM (auch noch meine influxdb :/ ) hängen geblieben.
1660162224140.png
Auf dem Bild ist zu sehen wie die CPU Last direkt auf 100% springt.
Anschließend sind reagiert die gesamte VM nicht mehr.

Immerhin sorgt der Lüfter jetzt dafür dass die beiden Nodes nicht mehr kochen.
 
Last edited:

Boppel

New Member
Aug 8, 2022
11
1
3
Logbucheintrag Nr. 3

Es scheit so, als ob vorzugsweise VMs mit hoher IO dazu tendieren hängen zu bleiben.
So sind sowohl meine graylog VM als auch meine Influxdb VM am meisten davon betroffen.
Befinden sich beiden VMs auf einer Node um Cluster, ist die Wahrscheinlichkeit hoch, dass weitere VMs mit in den Tod gerissen werden.
Seitdem beide VMs auf unterschiedlichen Nodes laufen, hat sich bisher lediglich die Influxdb VM mehrfach aufgehängt.

Immer noch kein gutes Ergebnis.
Ich werde jetzt die VM Guest Tools von der Kiste schmeißen und schauen ob das etwas bringt.
 
Last edited:

Boppel

New Member
Aug 8, 2022
11
1
3
Logbucheintrag Nr. 4

Seit 24h ist keine VM abgestürzt.
Die Guest Tools auf der Influxdb VM wurden deinstalliert, momentan läuft alles stabil.
Die VM hatte sich zuletzt gleich mehrfach am Tag aufgehängt.
 

Boppel

New Member
Aug 8, 2022
11
1
3
Logbucheintrag Nr.5

VMs mit "höherer" random IO auf einem Host, tendieren eher dazu hängen zu bleiben.
Ohne weitere erkennbare Muster.

Nachdem ich diese VMs identifiziert und um Cluster verteilt habe, stürzen weitaus weniger VMs ab.
Aktuell sind es nur noch 3 von 10.
Die opnsene BSD VM stürzt gar nicht mehr ab und scheint weniger anfällig für das Verhalten zu sein.
 

Boppel

New Member
Aug 8, 2022
11
1
3
Das Thema wurde gelöst.
Ein anderer Kernel (PVE Edge 5.19.4-1) verschafft Abhilfe.
Seit zwei Wochen laufen die VMs ohne Probleme.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get your own in 60 seconds.

Buy now!