Proxmox stürzt immer wieder ab mit einem Watchdog

mafe68

Well-Known Member
Oct 30, 2018
107
20
58
56
Upper Austria
Habe jetzt in der letzten Tagen immer wieder das der Proxmox abstürzt oder hängen beleibt. Da kann man weder noch per UI oder auch auf der Konsole nichts mehr machen. Da geht nur mehr ein Hard Rest per Power Knopf.
Auf der Kosnole bekommt man einen Watchdog angezeigt
Code:
watchdog: Bug: soft lockup-CPU#3 Stuck for 23s! [pveproxy:2187]
watchdog: Bug: soft lockup-CPU#3 Stuck for 23s! [pvedaemon:2187]

Wenn ich das richtig verstehe wäre das ein Kernel Problem.
Hier auch noch die Systeminfo
Code:
root@pve:~# pveversion -v
proxmox-ve: 6.1-2 (running kernel: 5.3.18-3-pve)
pve-manager: 6.1-8 (running version: 6.1-8/806edfe1)
pve-kernel-helper: 6.1-7
pve-kernel-5.3: 6.1-6
pve-kernel-5.0: 6.0-11
pve-kernel-5.3.18-3-pve: 5.3.18-3
pve-kernel-5.0.21-5-pve: 5.0.21-10
pve-kernel-5.0.15-1-pve: 5.0.15-1
ceph-fuse: 12.2.11+dfsg1-2.1+b1
corosync: 3.0.3-pve1
criu: 3.11-3
glusterfs-client: 5.5-3
ifupdown: 0.8.35+pve1
ksm-control-daemon: 1.3-1
libjs-extjs: 6.0.1-10
libknet1: 1.15-pve1
libpve-access-control: 6.0-6
libpve-apiclient-perl: 3.0-3
libpve-common-perl: 6.0-17
libpve-guest-common-perl: 3.0-5
libpve-http-server-perl: 3.0-5
libpve-storage-perl: 6.1-5
libqb0: 1.0.5-1
libspice-server1: 0.14.2-4~pve6+1
lvm2: 2.03.02-pve4
lxc-pve: 3.2.1-1
lxcfs: 4.0.1-pve1
novnc-pve: 1.1.0-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.1-3
pve-cluster: 6.1-4
pve-container: 3.0-23
pve-docs: 6.1-6
pve-edk2-firmware: 2.20200229-1
pve-firewall: 4.0-10
pve-firmware: 3.0-6
pve-ha-manager: 3.0-9
pve-i18n: 2.0-4
pve-qemu-kvm: 4.1.1-4
pve-xtermjs: 4.3.0-1
qemu-server: 6.1-7
smartmontools: 7.1-pve2
spiceterm: 3.1-1
vncterm: 1.6-1
zfsutils-linux: 0.8.3-pve1
 
was steht denn im journal zu dem Zeitpunkt (soweit verfügbar, da nach einem hardreset wohl die letzten zeilen nicht auf disk geschrieben werden können):
`journalctl -b -1` (ist das log vom vorletzten boot - sollte also auch am Schluss alles bis zum hardreset beinhalten)
 
Ich hänge mich hier mal ran, habe glaube ich das gleiche Problem... Auf einem am Server angeschlossenen Monitor kommen auch zig Meldungen, von "hängenden" Prozessen. Leider scheint das einfach eine Liste diverser Prozesse zu sein. Bin seit gestern auch am Beobachten, die Probleme treten aber schon etwa zwei Wochen auf - leider muss ich aber zum Resetten immer selbst zum Server fahren, was in der aktuellen Zeit halt etwas schwieriger ist. Betroffen sind bei mir alle Server im Cluster, so wie es aussieht. Manchmal schaffen sie ein paar Stunden, manchmal ein paar Tage, aber früher oder später scheinen sie alle wegzubrechen... Ich gucke mal, ob ich noch an irgendwas an Logs rankomme.
 
Hallo Zusammen!

Bin jetzt erst dazu gekommen das ich nachsehe wenn er hängen bleibt. Heute ist es wieder mal soweit gewesen, dass er nur mehr mit einem Hard Rest sich wieder beleben lies. Nach dem Rest habe ich im Journal nachgeschaut nur findet man da nichts.
Code:
root@pve:~# journalctl -b -1
Specifying boot ID or boot offset has no effect, no persistent journal was found.
Das ist das ganze was man bei ausführen des Befehl an Ausgabe bekommt.
Habe auch versucht bevor ich den Rest gemacht habe, auf eine andere Konsole zu wechseln aber das ging auch nicht keine Reaktion mehr.
 
no persistent journal was found.
hm - hatte vergessen, dass per default persistent journalling nicht aktiviert ist - würde ich aber potentiell empfehlen (einfach `mkdir /var/log/journal; systemctl restart systemd-journald` ausführen) .

ansonsten sollten die meisten zeilen aus dem journal ohnehin auch im syslog landen: /var/log/syslog
 
Ok das soll heißen das es die journal Datei nicht gibt und man sie erstellen soll und dann per systemctl starten. Der systemctl Befehl soll aber so heißen
Code:
systemctl restart systemd-journal
Ohne dem "d" am ende von journal
 
Ok das soll heißen das es die journal Datei nicht gibt und man sie erstellen soll und dann per systemctl starten.
die journal-datei gibt es allerdings nicht persistent (wird in /run gespeichert, welches auf einem tmpfs liegt) - wenn das verzeichnis
/var/log/journal existiert, dann schreibt der journald das journal auch dorthin (und dieses ist normalerweise über reboots hinweg peristent)

siehe auch die journal.conf (5) manpage:
https://www.freedesktop.org/software/systemd/man/journald.conf.html

Ohne dem "d" am ende von journal
der journald (journal-daemon) hat bei allen mir bekannten systemd basierten linux system 'systemd-journald.service' als service file - und dieses soll restarted werden.
 
Habe jetzt mal das Journal nach dem Absturz nur sehen ich nicht wirklich was auffälliges das auf ein Problem hinweist.
Hier mal die letzte Ausgabe vom Journal
Code:
Apr 09 06:32:02 pve systemd[1]: Started Proxmox VE replication runner.
Apr 09 06:33:00 pve systemd[1]: Starting Proxmox VE replication runner...
Apr 09 06:33:02 pve systemd[1]: pvesr.service: Succeeded.
Apr 09 06:33:02 pve systemd[1]: Started Proxmox VE replication runner.
Apr 09 06:34:00 pve systemd[1]: Starting Proxmox VE replication runner...
Apr 09 06:34:02 pve systemd[1]: pvesr.service: Succeeded.
Apr 09 06:34:02 pve systemd[1]: Started Proxmox VE replication runner.
Apr 09 06:35:00 pve systemd[1]: Starting Proxmox VE replication runner...
Apr 09 06:35:02 pve systemd[1]: pvesr.service: Succeeded.
Apr 09 06:35:02 pve systemd[1]: Started Proxmox VE replication runner.
Apr 09 06:36:00 pve systemd[1]: Starting Proxmox VE replication runner...
Apr 09 06:36:02 pve systemd[1]: pvesr.service: Succeeded.
Apr 09 06:36:02 pve systemd[1]: Started Proxmox VE replication runner.
Apr 09 06:37:00 pve systemd[1]: Starting Proxmox VE replication runner...
Apr 09 06:37:02 pve systemd[1]: pvesr.service: Succeeded.
Apr 09 06:37:02 pve systemd[1]: Started Proxmox VE replication runner.
Apr 09 06:38:00 pve systemd[1]: Starting Proxmox VE replication runner...
Apr 09 06:38:02 pve systemd[1]: pvesr.service: Succeeded.
Apr 09 06:38:02 pve systemd[1]: Started Proxmox VE replication runner.
Apr 09 06:38:46 pve systemd[1]: Starting Daily apt upgrade and clean activities...
Apr 09 06:38:47 pve systemd[1]: apt-daily-upgrade.service: Succeeded.
Apr 09 06:38:47 pve systemd[1]: Started Daily apt upgrade and clean activities.
Apr 09 06:39:00 pve systemd[1]: Starting Proxmox VE replication runner...
Apr 09 06:39:02 pve systemd[1]: pvesr.service: Succeeded.
Apr 09 06:39:02 pve systemd[1]: Started Proxmox VE replication runner.
Apr 09 06:40:00 pve systemd[1]: Starting Proxmox VE replication runner...
Apr 09 06:40:02 pve systemd[1]: pvesr.service: Succeeded.
Apr 09 06:40:02 pve systemd[1]: Started Proxmox VE replication runner.
Apr 09 06:41:00 pve systemd[1]: Starting Proxmox VE replication runner...
Apr 09 06:41:02 pve systemd[1]: pvesr.service: Succeeded.
Apr 09 06:41:02 pve systemd[1]: Started Proxmox VE replication runner.
Apr 09 06:42:00 pve systemd[1]: Starting Proxmox VE replication runner...
Apr 09 06:42:02 pve systemd[1]: pvesr.service: Succeeded.
Apr 09 06:42:02 pve systemd[1]: Started Proxmox VE replication runner.
Apr 09 06:43:00 pve systemd[1]: Starting Proxmox VE replication runner...
Apr 09 06:43:02 pve systemd[1]: pvesr.service: Succeeded.
Apr 09 06:43:02 pve systemd[1]: Started Proxmox VE replication runner.
Apr 09 06:44:00 pve systemd[1]: Starting Proxmox VE replication runner...
Apr 09 06:44:02 pve systemd[1]: pvesr.service: Succeeded.
Apr 09 06:44:02 pve systemd[1]: Started Proxmox VE replication runner.
Apr 09 06:45:00 pve systemd[1]: Starting Proxmox VE replication runner...
Apr 09 06:45:02 pve systemd[1]: pvesr.service: Succeeded.
Apr 09 06:45:02 pve systemd[1]: Started Proxmox VE replication runner.
Apr 09 06:46:00 pve systemd[1]: Starting Proxmox VE replication runner...
Apr 09 06:46:02 pve systemd[1]: pvesr.service: Succeeded.
Apr 09 06:46:02 pve systemd[1]: Started Proxmox VE replication runner.
Apr 09 06:47:00 pve systemd[1]: Starting Proxmox VE replication runner...
Apr 09 06:47:02 pve systemd[1]: pvesr.service: Succeeded.
Apr 09 06:47:02 pve systemd[1]: Started Proxmox VE replication runner.
Apr 09 06:48:00 pve systemd[1]: Starting Proxmox VE replication runner...
Apr 09 06:48:02 pve systemd[1]: pvesr.service: Succeeded.
Apr 09 06:48:02 pve systemd[1]: Started Proxmox VE replication runner.
Apr 09 06:49:00 pve systemd[1]: Starting Proxmox VE replication runner..

Wie bekomme ich das ganze Journal, das ich es hier zeigen kann. Wo wir sie als Datei abgespeichert?
 
Wie bekomme ich das ganze Journal, das ich es hier zeigen kann. Wo wir sie als Datei abgespeichert?
das journal ist ein binary file, am einfachsten ist es journalctl output zu redirecten:
* `journalctl --since 2020-04-05 > journalout.txt`

sonst sehen die Meldungen tatsächlich nicht sonderlich aufschlussreich aus ...
 
Habe hier mal den Log von systemd-journald als Datei gesepeichert nach dem letzten Absturz, vllt kann man wer drüber schauen ob euch was auffällt an was es liegen kann, dass mein System immer wieder mal crasht. Ich konnte nicht wirklich was finden.
 

Attachments

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!