Proxmox freeze nach kernel update to 6.8.4-2-pve

Hallo zusammen,
wir betreiben für mehrere Sachen ca. 45 EX101-Server mit Proxmox und kämpfen auch mit den Problemen. Und Hetzner sind die Probleme auch bekannt. Ich möchte gerne unsere Erfahrungen schildern, denn vllt. hilft es jemandem hier. Wir haben auch guten Kontakt zu Hetzner und man will den

Es tut mir so leid wenn ich das lesen. Genau das habe ich vorhergesagt :(

Ich habe 5 Tage auf eigenes Budget und unter viel Schmerzen versucht herauszufinden, was denn jetzt so mit 6.8.4-x-pve ist.

- Immer die gleiche Hardware
- 6.2.x-pve und 6.5.x-pve läuft
- 6.8.4-x-pve crasht

Ich habe dann 6.8.7 - 6.8.9 vanilla "Torwads" auf Debian 12 mit libvird (gleiche qcow2 Dateien ...) getestet und voila das läuft.

(Auch die vanilla laufen under Proxmox ohne Crashes, aber halt mit dem Problem kein cephfs, zfs, ...) aber stabil.

Ich habe dann einen 6.8.4-x-pve gebaut und habe nur die Proxmox Patches weggelassen. Der crasht genau so.

Ergo - es ist der Ubuntu Kernel der kaputt ist. Und der könnte mir nicht mehr egal sein. (Jemand hat auch geschrieben, das der auf WSL2 aktuell auch Ärger macht - aber k.A: ob es der gleiche ist).


Jetzt stehen wir hier - 3 Wochen nach release von 8.2.2

Ich habe im Forum, Discord, Facebook um Hilfe gebeten, eigene Custom Kernels zu bauen - oder zumindest das Problem mit einem besonderen Kernel zu fixen. Interessiert niemanden - incl. der Proxmox GmbH.

Es gab mal dieses Projekt hier: https://github.com/fabianishere/pve-edge-kernel Es macht Sinn das von der Community aus wiederzubeleben, weil wir solche Probleme wie dieses hier massiv in Zukunft bekommen werden.

-> Ich habe für mich und meine Kunden eine Lösung.

Ich suche jemanden der Bock hat mitzumachen. Meine eigene Zeit "for free" stecke ich nicht mehr rein. Im Gegenteil - Ich in im Nelsen "haha" Mode, wenn ich sehe was andere Leute so an Geld verbrennen und wie das gemanaged wird.
 
Achso 2: Wenn das Proxmox-Team sich das mal anschauen möchte, helfen wir gerne beim Debugging, wenn das gewünscht ist. (z.B. Host zum Debugging bereitstellen, Debugging betreiben, Fixes testen, ... egal)

Wurde auch Vorgeschlagen. Ohne kommentar.

Wir brauchen für die ggf. Community PVE Kernels genau so eine Regressionsliste. Ich würde das auch managen und mit den Leuten sprechen. Es gab Ärger auf mehreren Hetzner Server Klassen, Epyc, Xeon, Ryzen, ...

Wenn man - im Projektmanagement SInnvoll - mit sowas umgehen will, muss man halt für ein paar Releasezyklen auf den Kisten die jetzt ärger haben, die neuen Kernels ausprobieren (am dollsten bevor man die in einen ISO steckt).

(Aber auch eine custom iso ist etwas, das man mit edge kerneln machen könnte).
 
Nur der Vollständigkeit halber: Das Netzwerkkarten-Problem (Problem 1 in meinem Post) mit dem EX101 hatten wir auch unter Debian 11 / Proxmox 7 (also altem Kernel) nachvollziehen können. Das lag ganz sicher nicht am neuen Kernel! Warum sind wir darauf gekommen? Weil dem Ansprechpartner von Hetzner im Telefonat mit mir aufgefallen ist, dass ja Debian 12 auf der Webseite als Kompatibel steht, obwohl intern wohl schon bekannt war, dass das wohl nicht der Fall ist... Dann haben Sie es von der Seite entfernt.)

Das Stabilitätsproblem (Problem 2 in meinem Post) haben wir noch nicht im alten Kernel getestet. Aber guter Punkt, versuchen wir mal, wenn Zeit dafür ist.
 
Last edited:
Nur der Vollständigkeit halber: Das Netzwerkkarten-Problem (Problem 1 in meinem Post) mit dem EX101 hatten wir auch unter Debian 11 / Proxmox 7 (also altem Kernel) nachvollziehen können. Das lag ganz sicher nicht am neuen Kernel!
Das Stabilitätsproblem (Problem 2 in meinem Post) haben wir noch nicht im alten Kernel getestet. Aber guter Punkt, versuchen wir mal, wenn Zeit dafür ist.

Das ist kein Bug sondern ein Feature. Es dokumentiert, wie man sowas umgeht und "good practice" das anzupinnen.

https://pve.proxmox.com/wiki/Network_Configuration

"Overriding network device names"
 
Das ist kein Bug sondern ein Feature. Es dokumentiert, wie man sowas umgeht und "good practice" das anzupinnen.

https://pve.proxmox.com/wiki/Network_Configuration

"Overriding network device names"

Da kann ich jetzt gerade nicht folgen. Wieso kein Bug? Und was hat das Crashen des Kernels mit dem Umbenennen von Netzwerk-Device-Namen zu tun? Problem 1 war, dass wir immer wieder Random Crashes mit unrecoverable AER-Fehlern bekommen haben. Sowohl in alten, als auch in neuen Kernel-Versionen auf dem EX101.
 
@lordwebbie
Ich hatte in den letzten Wochen auch viel Spaß und musste innerhalb von 6 Wochen nun erneut die Hardware bei meinem EX101 tauschen lassen
( Details hier: https://forum.proxmox.com/threads/random-freezes-maybe-zfs-related.145695/page-3 )

Zu den Netzwerkproblemen:
Ursprünglich lief mal Proxmox 8.1.x drauf und ich hatte bei Last dann auch Netzwerkprobleme.
Bei mir half es dann pcie_aspm.policy=performance zu setzen, was ich auch unter 8.2.x so beibehalten habe.
 
Das Stabilitätsproblem (Problem 2 in meinem Post) haben wir noch nicht im alten Kernel getestet. Aber guter Punkt, versuchen wir mal, wenn Zeit dafür ist.

Der 6.5.x-pve er Kernel geht garantiert :) Gesetz der Großen Zahlen.

Was mich aber (gestern) geschockt hat, es gibt Leute die noch auf 6.2.x-pve sind, weil "irgendwas mit 6.5.x-pve" und das gibts auch bei 6.8.x-pve bei denen.

:rolleyes::rolleyes::rolleyes:
 
@lordwebbie
Ich hatte in den letzten Wochen auch viel Spaß und musste innerhalb von 6 Wochen nun erneut die Hardware bei meinem EX101 tauschen lassen
( Details hier: https://forum.proxmox.com/threads/random-freezes-maybe-zfs-related.145695/page-3 )

Zu den Netzwerkproblemen:
Ursprünglich lief mal Proxmox 8.1.x drauf und ich hatte bei Last dann auch Netzwerkprobleme.
Bei mir half es dann pcie_aspm.policy=performance zu setzen, was ich auch unter 8.2.x so beibehalten habe.

Jup. Die CMD-Line haben wir auch noch auf allen Kisten so laufen. Hatte dazu im Hetzner-Forum auch einen langen Beitrag geschrieben, in dem ich das auch empfohlen habe. Schlussendlich hat aber nur die zusätzliche NIC mit anderem Chipsatz geholfen, das Problem ordentlich in den Griff zu bekommen.
 
Da kann ich jetzt gerade nicht folgen. Wieso kein Bug? Und was hat das Crashen des Kernels mit dem Umbenennen von Netzwerk-Device-Namen zu tun?

Habe ich im Text so gekennzeichnet :) Das ist kein "Bug" das ist der Server Administrator (vermutlich du) der die Namen nicht angepinnt hat.

Es ist dokumentiert in Proxmox wie man das tut und ich mache es immer z.B: wan0/lan0/lan1 ...
 
Habe ich im Text so gekennzeichnet :) Das ist kein "Bug" das ist der Server Administrator (vermutlich du) der die Namen nicht angepinnt hat.

Es ist dokumentiert in Proxmox wie man das tut und ich mache es immer z.B: wan0/lan0/lan1 ...

Das war leider nicht das Problem, denn wir haben ein Scheme gepinnt (ja ich weiß, kann sich trotzdem ändern), aber es gab zu den Zeiten der Ausfälle keinerlei Updates o.ä., die zeitgleich gelaufen sind. Die Fehler, die wir hatten, haben zu einem kompletten Crash mit Kernel-Panic geführt und dann war aus die Maus... Im Dump haben wir noch gesehen, dass sich das Netzwerk-Device (sowie zwei andere Devices, wenn ich es richtig in Erinnerung habe) einfach vom Bus verabschiedet hat und nicht mehr wiedergekommen ist. Das Problem hatten auch viele andere Personen und es war nicht Proxmox-Spezifisch, sondern lag an der NIC auf dem MoBo. Es gab sogar Windows-User mit diesem Asus Mobo, die das Problem hatten. Ich hatte einen Reddit-Thread gefunden, in denen User das Problem sogar von Intel haben untersuchen lassen und die sind dann zum Schluss gekommen, dass es wahrscheinlich ein thermisches Problem im Design des Asus MoBos gibt, was die NIC abschmieren lässt.

Ist aber alles auch eh Wurst, weil wir mit der aktuellen Konfiguration (dedizierte NIC) überhaupt keine Probleme mehr haben.

Edit: Aber danke dir trotzdem mit dem Tipp des konkreten Anpinnens des Device-Namens nach MAC-Addr. Das hört sich sinnvoll an, auch, wenn ich bislang noch nie ein Problem damit hatte (wie gesagt: Scheme habe ich gepinnt).
 
Last edited:
  • Like
Reactions: Der Harry
Es gab sogar Windows-User mit diesem Asus Mobo, die das Problem hatten. Ich hatte einen Reddit-Thread gefunden, in denen User das Problem sogar von Intel haben untersuchen lassen und die sind dann zum Schluss gekommen, dass es wahrscheinlich ein thermisches Problem im Design des Asus MoBos gibt, was die NIC abschmieren lässt.

DIese bekannten Probleme (thermisch, Hardware) sind - für das Kernel Problem mit 6.8.4-x-pve - möglicherweise minder relevant.
 
  • Like
Reactions: lordwebbie
Ich habe auch schon mehrfach gesehen, dass mit 6.8er Kernel Broadcom NICs down bleiben beim Reboot.
Wenn man nach dem Reboot ein ifup auf das interface macht, läuft aber alles ganz normal. Nervt nur auf die echte Konsole zu müssen um das Interface up zu nehmen.
 
Es tut mir so leid wenn ich das lesen. Genau das habe ich vorhergesagt :(

Ich habe 5 Tage auf eigenes Budget und unter viel Schmerzen versucht herauszufinden, was denn jetzt so mit 6.8.4-x-pve ist.

- Immer die gleiche Hardware
- 6.2.x-pve und 6.5.x-pve läuft
- 6.8.4-x-pve crasht

Ich habe dann 6.8.7 - 6.8.9 vanilla "Torwads" auf Debian 12 mit libvird (gleiche qcow2 Dateien ...) getestet und voila das läuft.

(Auch die vanilla laufen under Proxmox ohne Crashes, aber halt mit dem Problem kein cephfs, zfs, ...) aber stabil.

Ich habe dann einen 6.8.4-x-pve gebaut und habe nur die Proxmox Patches weggelassen. Der crasht genau so.

Ergo - es ist der Ubuntu Kernel der kaputt ist. Und der könnte mir nicht mehr egal sein. (Jemand hat auch geschrieben, das der auf WSL2 aktuell auch Ärger macht - aber k.A: ob es der gleiche ist).


Jetzt stehen wir hier - 3 Wochen nach release von 8.2.2

Ich habe im Forum, Discord, Facebook um Hilfe gebeten, eigene Custom Kernels zu bauen - oder zumindest das Problem mit einem besonderen Kernel zu fixen. Interessiert niemanden - incl. der Proxmox GmbH.

Es gab mal dieses Projekt hier: https://github.com/fabianishere/pve-edge-kernel Es macht Sinn das von der Community aus wiederzubeleben, weil wir solche Probleme wie dieses hier massiv in Zukunft bekommen werden.

-> Ich habe für mich und meine Kunden eine Lösung.

Ich suche jemanden der Bock hat mitzumachen. Meine eigene Zeit "for free" stecke ich nicht mehr rein. Im Gegenteil - Ich in im Nelsen "haha" Mode, wenn ich sehe was andere Leute so an Geld verbrennen und wie das gemanaged wird.

Ist wirklich sehr bedauerlich das es nach all der Zeit immer noch keinen offiziellen Lösungsansatz gibt.

Grundsätzlich würde ich ja gerne helfen, habe aber 1. nur den einen Server und der muss laufen und 2. leider viel zu wenig Ahnung von der Geschichte Kernel bauen usw.
 
Last edited:
Grundsätzlich würde ich ja gerne helfen, habe aber 1. nur den einen Server und der muss laufen und 2. leider viel zu wenig Ahnung von der Geschichte Kernel bauen usw.

Da können wir aber wie geschrieben gerne aushelfen und z.B. einen Server bereitstellen oder Fixes testen oder... :)
 
  • Like
Reactions: Der Harry
Ja hatte ich installiert, sah auch im Vergleich erst gut aus. Proxmoxx stürzte aber nach ein paar Stunden genau so ab bei mir. Im englischen Thread habe ich mein Fehlerlog gepostet, falls für dich interessant.

Bin dann wieder zurück auf 6.5.

Finde es sehr Schade das es noch kein Statement offiziell dazu gibt.

Post in thread 'Random 6.8.4-2-pve kernel crashes'
https://forum.proxmox.com/threads/random-6-8-4-2-pve-kernel-crashes.145760/post-662386
 
  • Like
Reactions: chserver
Ich glaube der Fehler ist schwer auszumachen, Ubuntu soll wohl die gleichen Probleme machen, wenn man virtuelle Maschinen ausführt.
 
Aber eine offizielle Bestätigung und wir suchen den Fehler habe ich auch noch nicht gelesen. Das wäre ja ein Anfang.

Hat ja nur mal geheißen Bios-Update usw. was ja wohl nicht die Lösung ist wenn es z.B. keines gibt oder der Server im RZ steht.

Bitte um Korrektur falls ich was nicht mitbekommen habe.
 
  • Like
Reactions: chserver
Hat schon jemand die 6.8.4-3 getestet? Ist der Fehler noch da?
Ja. Fehler ist da.

Ich weiß auch wo das Problem ist. Gemeinsame hilfe es zu fixen ist leider (seit jetzt fast einem Monat) nicht aufzutreiben. Ich habe für mich eine Lösung gefunden.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!