Ubuntu-Server-VM in Proxmox-VE immer wieder plötzlich ohne Vorankündigung down

PKay

New Member
Apr 17, 2024
11
3
3
Hallo Proxmox-VE-User,
ich versuche es erstmal in deutsch.
Es handelt sich hier um eine Arztpraxis. Auf dem Server (Intel XEON) läuft Proxmox-VE mit 2 VMs. Eine Ubuntu-Server-VM mit der eigentlichen Patientendatenbank und eine zweite Windows-Server 2019-VM für die zentrale Datenbank der Geräte (wie EKG uws.)
Das Problem ist, dass in unregelmäßigen Abständen, die Ubuntu-VM plötzlich down ist. Als ob jemand den virtuellen Computer heruntergefahren hat, was natürlich niemand getan hat. Ich hab aus irgendeinem Grund die Windows-Updates im Verdacht, da es meist gleichzeitig auftritt, wenn die Windows-VM aufgrund eines nächtlichen Updates neu starten musste. Ich bin mir nicht sicher, ob das überhaupt möglich ist, dass sich die VMs gegenseitig irgendwie beeinflussen können.
In den Tasks oder Cluster-Logs kann ich nichts finden. Gibt es eine Log-Datei, die eventuell mehr Aufschluss geben könnte, was zu diesem ungewollten Abschalten der Ubuntu-VM führt?
Bin für jede Hilfe dankbar und viele Grüße.
 
Der PVE loggt eigentlich so ziemlich alles mit, auch Start/Stop einer VM. Das syslog sollte hier Einträge haben. Ist der Host ggf. ressourcentechnisch überbucht (vCPU und insbesondere RAM)?
 
Was ich schon mal auf einer Ubuntu Server Installation (TEXT Server) hatte, war das nach einem Update die grafische Umgebung gestartet war und diese dann die Kiste in den Stromsparmodus geschickt hat und somit nicht mehr erreichbar war.
 
Was ich schon mal auf einer Ubuntu Server Installation (TEXT Server) hatte, war das nach einem Update die grafische Umgebung gestartet war und diese dann die Kiste in den Stromsparmodus geschickt hat und somit nicht mehr erreichbar war.
Vielen Dank für den Tipp. In der Tat startet der Ubuntu-Server die grafische Oberfläche. Auch die Updates sind auf automatisch laden und installieren gestellt. Das könnte es sein. Müsste ich beobachten.
 
  • Like
Reactions: ThoSo
Weiss nicht ob das bei Ubuntu auch so ist aber wenn man Gnome installiert wird möglicherweise in der Energieverwaltung der automatische Standby Modus aktiviert.

disable-automatic-suspend-ubuntu.webp
 
  • Like
Reactions: ThoSo
Performance gibt es nicht... glaube, mehr geht bei mir nicht... sollte eigentlich nicht in den Ruhemodus gehen
 

Attachments

  • Bild 06.06.25 um 14.04.jpeg
    Bild 06.06.25 um 14.04.jpeg
    58.5 KB · Views: 5
Hier mal die Einstellungen der Konfiguration und der mir sichtbaren Log-Einträge. Die t2med-VM ist die Ubuntu-VM. Die prax-VM ist die Windows-VM. bei den Logs sehe ich nur, dass ein Backup erfolgreich erstellt wurde. als nächstes ist der Moment, wo ich die VM 100 wieder starte, weil sie plötzlich aus war...
 

Attachments

  • Bild 06.06.25 um 13.55.jpeg
    Bild 06.06.25 um 13.55.jpeg
    136.6 KB · Views: 8
  • Bild 06.06.25 um 13.55.jpeg
    Bild 06.06.25 um 13.55.jpeg
    56.5 KB · Views: 8
  • Bild 06.06.25 um 13.56.jpeg
    Bild 06.06.25 um 13.56.jpeg
    56.9 KB · Views: 8
  • Bild 06.06.25 um 13.58.jpeg
    Bild 06.06.25 um 13.58.jpeg
    49 KB · Views: 8
  • Bild 06.06.25 um 14.00.jpeg
    Bild 06.06.25 um 14.00.jpeg
    96.2 KB · Views: 8
Laut den Screenshots hast du den qemu guest agent (virtio-tools) nicht installiert / aktiviert, absichtlich?

Das einzigste was mir da einfällt ist dass dir der Speicher ausgeht und der OOM Killer die VM abschießt aber das kann auch nicht sein weil du das ja in den Logs sehen würdest, RAM Auslastung sieht laut Screenshot auch OK aus. Verwendest du ZFS mit ARC Cache? Ansonsten könnte es mit dem RAM doch knapp werden.
 
Falls die GUI auf dem VM Server nicht benötigt wird kannst den Dienst auch einfach mal beenden. Dann siehst ob es daher kommt.
Ist die VM nach dem Backup aus, oder hast die Abgeschossen und neu gestartet?
 
Laut den Screenshots hast du den qemu guest agent (virtio-tools) nicht installiert / aktiviert, absichtlich?

Das einzigste was mir da einfällt ist dass dir der Speicher ausgeht und der OOM Killer die VM abschießt aber das kann auch nicht sein weil du das ja in den Logs sehen würdest, RAM Auslastung sieht laut Screenshot auch OK aus. Verwendest du ZFS mit ARC Cache? Ansonsten könnte es mit dem RAM doch knapp werden.
Hier ist die Konfiguration der VMs. ZFS und Virtio sind dabei. Bei der Ubuntu-VM sehe ich aber die Anzeige auf Standard-Einstellung... weiß nicht, ob das ausschlaggebend ist...
 

Attachments

  • Bild 06.06.25 um 16.09 (1).jpeg
    Bild 06.06.25 um 16.09 (1).jpeg
    154.5 KB · Views: 5
  • Bild 06.06.25 um 16.09.jpeg
    Bild 06.06.25 um 16.09.jpeg
    152.5 KB · Views: 5
Überprüfe mal den RAM Verbauch auf dem PVE Host, eventuell noch die Ausgabe von arc_summary

Die Zeile ARC size (current): wäre da interessant
 
Was mir noch einfällt... sollte nicht eigentlich Ubuntu mir direkt eine Warnmeldung beim Start anzeigen, dass es ein Absturz gab? Oder etwas im Sinne "kein reguläres Herunterfahren"? Windows macht das doch normalerweise... Genau so etwas kommt beim Start eben nicht. Es scheint alles ganz normal, wenn ich starte. Keine Warnmeldungen. Trotzdem ist irgendwann auf einmal die VM down ohne Vorwarnung (1-2x/Woche).

@ThoSo
Die VMs werden beim Backup nicht runtergefahren. Ein Backup wird im Snapshot-Modus gemacht und wiederholt sich alle 1,5 bis 2 Stunden. Die Daten werden auf ein angeschlossenes NAS geschoben.
 
  • Like
Reactions: ThoSo
Der ARC Cache ist bei 32GB, die Ubuntu VM bei 16GB, die Windows VM bei 32GB, macht zusammen theoretischen 80GB, dein PVE Host hat aber nur 64GB RAM?

Wenn die VM's den vollen zugewiesenen RAM benötigen, PVE mehr RAM benötigt (z.b. bei einem Backup), der ARC Cache voll ist, SWAP auch voll dann muss irgendwas weg, somit würde ich darauf tippen dass bei dir in einigen Szenarien der OOM Killer die VM beendet weil zu wenig RAM vorhanden ist.

Du könntest den ARC Cache reduzieren und den VM's etwas weniger zuweisen damit immer genug RAM vorhanden ist.
 
eventuell via journalctl -b nach oom events suchen
oder dmesg -T | egrep -i 'killed process'
oder grep -i 'killed process' /var/log/messages
 
Vielen Dank für die sagenhafte Fehlersuche.
Jetzt ist nur meine Frage, wie weise ich am sinnvollsten den Speicher zu?
Die Ubuntu-VM hat jetzt 32 GB, die Windows-VM 16 GB.
Die ZFS-Partition hat 1,91 TB (die verbaute SSD). Theoretisch müssten doch so 4 GB für ZFS ausreichen. Dann würde eigentlich der Speicher für alles reichen. Macht es Sinn die kompletten restlichen 16 GB zuzuweisen?

PS: laut der von MarkusKo verlinkten Anleitung soll es eine Datei /etc/modprobe.d/zfs.conf geben. Die existiert bei mir nicht in dem Verzeichnis. Ist es korrekt, wenn ich die Datei mit der einzigen Zeile aus der Anleitung für 8 GB erstelle?:

options zfs zfs_arc_max=8589934592

Steht da normalerweise nicht mehr drin?
 
Last edited:
Braucht der Server 2019 die 16GB? Vielleicht beiden jeweils 4096MB RAM „abknapsen“ und für den PVE über lassen. Lässt sich ja testen, ob die Performance in den VMs anschließend noch passt.