Nach Upgrade auf neueste Version "watchdog: BUG: soft lockup - CPU#X"

Dec 31, 2022
28
1
3
NRW
Hallo zusammen,

ich habe mein Proxmox heute auf die neueste Version upgedatet.

Nun habe ich massive Probleme. Die Kiste rebootet zwar, die VMs sind auch teilweise (kurz) erreichbar, aber dann geht nichts mehr.

Logge ich mich über SSH ein bekomme ich massenhaft folgende Meldungen:

Code:
Message from syslogd@fatman01 at May  1 14:33:14 ...
 kernel:[ 1012.432020] watchdog: BUG: soft lockup - CPU#10 stuck for 625s! [CPU 1/KVM:2243]

Message from syslogd@fatman01 at May  1 14:33:26 ...
 kernel:[ 1024.431933] watchdog: BUG: soft lockup - CPU#9 stuck for 474s! [kworker/9:2:144]

Message from syslogd@fatman01 at May  1 14:33:30 ...
 kernel:[ 1028.430905] watchdog: BUG: soft lockup - CPU#6 stuck for 640s! [CPU 1/KVM:1848]

Vorher lief der Server tadellos, der Effekt hat also vermutlich etwas mit dem Upgrade zu tun.

Wenn ich per SSH drauf bin und mir die VMs mit "qm list" anzeigen lasse funktioniert das anfangs nach dem Reboot auch, später hängt sich der Befehl dann in der Shell auf.

Ich bin ziemlich hilflos (und nervös) gerade und wäre für jeden Tipp dankbar. Backups der VMs sind natürlich im Notfall vorhanden.

Hier noch das Output von "pveversion -v":

Code:
pveversion -v
proxmox-ve: 8.2.0 (running kernel: 6.8.4-2-pve)
pve-manager: 8.2.2 (running version: 8.2.2/9355359cd7afbae4)
proxmox-kernel-helper: 8.1.0
pve-kernel-5.15: 7.4-3
proxmox-kernel-6.8: 6.8.4-2
proxmox-kernel-6.8.4-2-pve-signed: 6.8.4-2
proxmox-kernel-6.5.13-5-pve-signed: 6.5.13-5
proxmox-kernel-6.5: 6.5.13-5
proxmox-kernel-6.5.13-1-pve-signed: 6.5.13-1
pve-kernel-5.15.107-2-pve: 5.15.107-2
amd64-microcode: 3.20230719.1~deb11u1
ceph-fuse: 16.2.11+ds-2
corosync: 3.1.7-pve3
criu: 3.17.1-2
glusterfs-client: 10.3-5
ifupdown: residual config
ifupdown2: 3.2.0-1+pmx8
intel-microcode: 3.20230214.1~deb11u1
libjs-extjs: 7.0.0-4
libknet1: 1.28-pve1
libproxmox-acme-perl: 1.5.0
libproxmox-backup-qemu0: 1.4.1
libproxmox-rs-perl: 0.3.3
libpve-access-control: 8.1.4
libpve-apiclient-perl: 3.3.2
libpve-cluster-api-perl: 8.0.6
libpve-cluster-perl: 8.0.6
libpve-common-perl: 8.2.1
libpve-guest-common-perl: 5.1.1
libpve-http-server-perl: 5.1.0
libpve-rs-perl: 0.8.8
libpve-storage-perl: 8.2.1
libspice-server1: 0.15.1-1
lvm2: 2.03.16-2
lxc-pve: 6.0.0-1
lxcfs: 6.0.0-pve2
novnc-pve: 1.4.0-3
proxmox-backup-client: 3.2.0-1
proxmox-backup-file-restore: 3.2.0-1
proxmox-kernel-helper: 8.1.0
proxmox-mail-forward: 0.2.3
proxmox-mini-journalreader: 1.4.0
proxmox-widget-toolkit: 4.2.1
pve-cluster: 8.0.6
pve-container: 5.0.11
pve-docs: 8.2.1
pve-edk2-firmware: 4.2023.08-4
pve-firewall: 5.0.5
pve-firmware: 3.11-1
pve-ha-manager: 4.0.4
pve-i18n: 3.2.2
pve-qemu-kvm: 8.1.5-5
pve-xtermjs: 5.3.0-3
qemu-server: 8.2.1
smartmontools: 7.3-pve1
spiceterm: 3.3.0
swtpm: 0.8.0+pve1
vncterm: 1.8.0

Vielen Dank vorab für eure Hilfe und beste Grüße.

Stefan
 
  • Bios/UEFI aktuell?
  • Alle Firmwares allgemein aktuell?
  • Code:
    amd64-microcode: 3.20230719.1~deb11u1
    [...]
    intel-microcode: 3.20230214.1~deb11u1

    Checken, ob die Debian non-free-firmware Repositories konfiguriert sind: [1] bzw. warum die Versionen [2] [3] immer noch (veraltet) von Debian 11/Bullseye sind. -> Aktualisieren

Ansonsten mal mit dem 6.5er Kernel booten, ob damit (erstmal) wieder alles läuft.

[1] https://pve.proxmox.com/wiki/Package_Repositories#sysadmin_debian_firmware_repo
[2] https://packages.debian.org/bookworm/amd64-microcode
[3] https://packages.debian.org/bookworm/intel-microcode
 
Hi Neobin,
danke schon mal für deine Antwort, die mich leider überfordert. Bin gerade mal mit der Hetzner Recsue-Konsole auf der Kiste.
Hier die BIOS-Infos:

Code:
Base Board Information
    Manufacturer: Gigabyte Technology Co., Ltd.
    Product Name: B360HD3PLM-CF
    Version: Default string
    Serial Number: Default string
BIOS Information
    Vendor: American Megatrends Inc.
    Version: F7b HZ
    Release Date: 07/29/2021

Nun habe ich nach Anleitungen gesucht, wie man das BIOS eines dedizierten Servers bei Hetzner updaten kann, aber leider keine brauchbaren Infos gefunden. Werde dahingehend dann mal den Hetzner Support anschreiben.

Wie bekomme ich den alten Kernel reaktiviert? Indem ich die neue Version entferne, also so:

Code:
proxmox-boot-tool kernel remove 6.8.4-2-pve

Danke und beste Grüße.

Stefan
 
Hallo Neobin,

ganz, ganz vielen Dank für deine schnelle Hilfe, super!

Ich habe nun den alten Kernel "gepinnt" und das System läuft wieder ganz wunderbar. :D

Mein Bios ist von 2021 und fwupd sagt, dass es keine Updates gibt. Ob das stimmt kann ich mangels Knowledge nicht wirklich überprüfen.

Da ja so viele Leute Probleme melden gehe ich aber davon aus, dass es wohl eher ein Bug im neuen Proxmox-Kernel ist.

Wie auch immer, du hast mich auf jeden Fall vor einer schlaflosen Nacht bewahrt, top.

Viele Grüße,
Stefan
 
  • Like
Reactions: Neobin
Bzgl. BIOS hast du eventuell ein kleines Problem. Das hier wären die offiziellen BIOSe des Boards:
https://www.gigabyte.com/de/Motherboard/B360-HD3P-rev-10/support#support-dl-bios

Wenn ich mir deine DMI-Info anschaue, dann steht da "F7b HZ".
Das ist erstens ziemlich sicher nicht absolut aktuell und zweitens aber wohl für oder von Hetzner angepasst. Würde ich mal anhand des "HZ"-zusatzes raten.
Und ja, der Fehler sieht irgendwie nach einem CPU-Errata oder dergl. aus. Heißt also BIOS könnte helfen.
 
Hallo zusammen,

der Hetzner-Support hat mein BIOS geprüft und schreibt:

"[...]wir haben den Server geprüft. Dieser hat bereits die aktuellste von uns freigegebene BIOS-Version[...]"

Am BIOS liegt es also vermutlich nicht. Ich belasse es dann erstmal beim älteren Kernel...

Beste Grüße,
Stefan
 
Nur kurz zur Einordnung, weil ich grade schmunzeln musste:
Wenn dir der Support schreibt "die aktuellste von uns freigegebene BIOS-Version", dann heißt das nicht "die technisch neuste, und auf einem aktuellen Stand". Das heißt nur genau das, was dort wortwörtlich steht. Sie haben nichts anderes/neueres freigegeben. Das kann auch gut steinalt sein. Über die Aktualität ist hier keine Aussage enthalten.

Daraus zu schlussfolgern, dass es nicht am BIOS liegt, ist eine gewagte These.
Da ich selbst in der (erweiterten) Branche arbeite, kenne ich meine Pappenheimer. :)
Das heißt widerum nicht, dass es definitiv und zu 100% am BIOS liegt, aber man muss halt schon genau lesen, was einem der Support so mitteilt.
 
  • Like
Reactions: Neobin
Hi celemine1gig,

da hast du natürlich absolut Recht. "Mein" aktuelles BIOS ist übrigens aus Mitte 2021, also nicht unbedingt steinalt. Aber ich habe ja scheinbar keine Chance, mir unabhängig von Hetzner ein neues BIOS auf den Server zu bügeln. Vermutlich wird Hetzner ja auch Gründe haben, wieso mit eigens freigegebenen BIOS-Versionen gearbeitet wird.

Beste Grüße,
Stefan
 
Nachdem Hetzner das ja anscheinend nicht weiter interessiert, wirst du eh so oder so nicht weiterkommen, selbst wenn es definitiv am BIOS läge. Also wohl abhaken.
 
Wir haben das Problem auch. Nach Update auf 6.8 traten `soft lockup` auf, noch und nöcher. Die Windows VM die das verursacht lahmt und hängt sich schnell auf und reisst den Proxmox Host mit ins verderben. Das das nicht passieren sollte bei virtualisierung ist klar.
Wir haben zurückgedreht auf 6.5 und hoffen auf einen kernel fix
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!