VM crasht, auch keine console mehr

otto001

Member
Jul 11, 2019
90
6
13
51
Hallo,
ich betreibe einige VMs unter proxmox 6.2.6
Eine Maschine unter debian buster macht mir dabei immer wieder Probleme und ich stehe ein wenig auf dem Schlauch.
Die Maschine crasht, ist per ssh nicht mehr erreichbar und die Services darauf ebenfalls nicht. Pingbar ist sie noch.
Auch die proxmox-console kann die Maschine nicht mehr erreichen.
Ich würde nun gerne herausfinden, was die crashes (die unregelmässig alle paar Tage auftreten) verursacht. Coredumps konnte ich auf dem System keine finden, das zentrale syslog (auf einer anderen Maschine) bricht an dieser Stelle für die Maschine einfach ab, manchmal tauchen hier an der Stelle auch noch ein paar Zeilen unlesbare Zeichen für die Maschine auf.

Hat jemand eine Idee, wie ich dem Problem auf die Spur kommen kann?
Die config der Maschine sieht so aus:
Code:
agent: 1
bootdisk: scsi0
cores: 3
cpu: kvm64
memory: 8192
name: fhem
net0: virtio=4A:6F:81:3F:63:03,bridge=vmbr0
numa: 0
onboot: 1
ostype: l26
scsi0: maul_virt:103/vm-103-disk-0.qcow2,size=60G
scsihw: virtio-scsi-pci
smbios1: uuid=f295a7f2-0a4a-49c5-b018-7f449879006e
sockets: 1
startup: order=4
usb0: host=0a12:0001
usb1: host=1a86:7523
usb2: host=051d:0002
vmgenid: 564c3eeb-b773-40de-b6f7-e59f5d77cd16

Als die Probleme begannen, war die CPU noch auf host eingestellt. Ein Rückstellen auf kvm brachte leider nicht den gewünschten Erfolg.
Die Maschine ist übrigens mehr als ein Jahr unauffällig gelaufen, bis die Probleme vor ein paar Wochen angefangen haben.
Über Hinweise wäre ich sehr dankbar.
Danke im voraus und beste Grüße,
Otto
 
Wie sieht denn die Last auf dem Host aus?
Ist RAM genug frei?
Gibt es ein Backup der VM, welches man testen kann?
 
Die CPU idlet im Normalfall fast vor sich hin. und von den 8GB RAM sind fast 7 frei.
Da läuft nicht viel drauf. Nur ein mosquitto-broker und ein perl-Programm zur Hausautomatisierung. Beides verursacht im Normalfall nicht wirklich viel Last.

im syslog finde ich unmittelbar vor derartigen Abstürzen keine Ungewöhnlichkeiten.
Ein Backup gibt es zwar, aber das ist so eine Sache, weil sich in der Hausautomatisierung in letzter Zeit viel getan hat bei mir - das würde ich wirklich nur als allerletzte Lösung machen wollen. Lieber wäre es mir, den Störenfried zu finden - vielleicht mit irgend einer Möglichkeit, doch noch auf die Console zuzugreifen oder so....
 
Danke für den Hinweis! Das kannte ich nocvh nicht.
Ich werde mir das neue proxmox-Backup ansehen, wenn damit jetzt inkrementelle Backups gehen, ist das sicher nicht nur für mich eine wesentliche Verbesserung. Das Problem an der Sache ist, dass ich nicht ganz genau weiß, wann das Problem zum ersten mal aufgetreten ist und ich es nicht nachstellen kann. Da es nur alle paar Tage mal auftritt, ist das ein Klassiker :-(
Wüsste jetzt aber auch nicht, wo in der Hausautomatisierung ein Knopf sein könnte - das würden auch andere user dieser Software mitbekommen, denke ich....
Danke nochmal!
 
Das Proxmox-Backup-System ist evtl. etwas Overkill für dich, da du eine komplette 2. Hardware dafür brauchst. Das ist eher etwas für größere Umgebungen.
Bei einer 60GB VM wird ein pve-backup als snapshot mit zst als Komprimierung evtl. 20-30GB groß sein und den laufenden Betrieb nich groß stören.
Da passen in eine 1TB USB-Platte jede Menge Sicherungen rein.

Wenn die serielle Konsole steht, sollte sich da was machen lassen.
Viel Glück.
 
Danke für den Hinweis. Aber ich habe doch etliche debian-VMs am laufen und eigentlich auch mehrere proxmox-Server (die halt nicht alle immer laufen).
Aber ich meine, gelesen zu haben, dass der Backup-Server auch auf einem proxmox-host laufen kann. Habe mich aber noch nicht genauer eingelesen...
Danke auf jeden Fall! Habe die serielle Konsole mal eingerichtet und harre darauf, daß die VM sich wieder verabschiedet. Mal schauen, ob ich seriell noch drauf komme. Vielleicht hat sich ja auch nur der Netzwerk-Stack verabschiedet (was ich aber nicht glaube, weil ich ja per novnc auch keinen Zugriff mehr bekomme in solchen Fällen)....
 
Hat leider nicht funktioniert. VM ist auch per serieller Konsole in so einem Fall nicht erreichbar.
Hab mir jetzt damit beholfen, daß ich ein kleines Skript geschrieben habe, das prüft, ob die VM noch per ssh erreichbar ist und sie ggf stoppt und dann neu startet sowie mich per telegram benachrichtigt.
Ist sowieso eine grundsätzlich gute Idee sowas, weil Hausautomatisierung doch ein relativ kritischer Task ist, finde ich....
 
Mir ist da noch ein anderer Ansatz eingefallen.
Und zwar die Nutzung eines watchdog-Dienstes.
Der "Hund" sitzt auf der VM im Hintergrund und solange alles gut ist, macht der nix.
Merkt er aber, das irgenwas nicht passt, macht der nen automatischen Reset und die Maschine läuft wieder.
Das Ganze gibt's schon seit Jahren für kritische Geräte und ist Bestandteil von Linux.

Hier mal nen Link, wo einer das auch auf KVM in Proxmox umgesetzt hat. Ist halt in Englisch.

Den Watschdog kann man auf diverse Sachen, wie CPU Last, Netzwerkverbindung etc. ansetzen. Also recht gut konfigurierbar.

Wir haben es auf ein paar Rasperry im Einsatz, welche Monitore mit Hinweisen ansteuern.

https://tompaw.net/proxmox-vm-watchdogs/

Vielicht ne Alternative zu deinem Script?
 
Hallo und sorry wegen der späten Antwort!
Der Watchdog klingt spannend, ich werde mir den auf jeden Fall sehr genau ansehen!
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!