Maschine schaltet sich nach Update auf PVE 8 nicht mehr aus

fowr0yl

Member
Mar 15, 2022
47
8
13
63
Braunschweig
Hallo,

ich habe meine Notfall Maschine (die 2km von hier bei meinen Eltern steht) gestern Abend mal von einer älteren 7.4 Version auf 8.1.10 aktualisiert.
Das hat weitestgehend ohne Probleme funktioniert.
Einzig der ssh server hat offensichtlich Probleme bereitet, da er wohl als Abhängigkeit in PVE deklariert ist, ich wegen der miserablem performance von ssh aber hpnssh einsetze. Ich musste daher für den Update Vorgang erst mal auf ssh zurückdrehen ...

Ich nutze die Notfall Maschine auch gleichzeitig zur Datenreplikation um immer eine komplett lauffähige Maschine inkl. ZFS Pool greifbar zu haben.
Nachts wird die remote Maschine über mein Wireguard VPN per WOL aufgeweckt, dann alls ZFS Volumes gesynct und die Maschine danach wieder ausgeschaltet.

Das funktioniert mit PVE 8 und Kernel 6.5.13-5-pve nicht mehr. Die Maschine fährt beim Befehl "poweroff" zwar herunter, schaltet sich aber nicht aus.
Damit geht natürlich auch WOL nicht mehr. Man kann die Maschine jetzt nur noch hart aus- und einschalten oder den Reset Knopf drücken.
Beides funktioniert auf Grund der Entfernung aber nicht wirklich ...

Ich habe die Maschine mal händisch via Grub mit dem ebenfalls noch installierten Kernel 5.15.149-1-pve gebootet. Da funktioniert "poweroff" und anschließendes WOL korrekt. Im Netz habe ich diverse Artikel zu dem Problem mit Kernel 6.5 gefunden. Aber keine Lösung :(
Einige User habe berichtet das es mit Kernel 6.6 wieder funktionieren soll. Das hilft mir hier jetzt aber nicht wirklich ....

Ideen?

VG
Henning
 
@cwt
Sehr gute Idee.
Hab ich gleich ausprobiert. Leider ändert sich am Verhalten aber nichts. Heul.

Scheint ein tiefer liegendes Problem zu sein.
Ich fürchte fast, das es etwas mit der onboard Netwerkkarte (Realtek 8111E) zu tun haben könnte...
 
Hallo,

was spricht denn dagegen den 5.15 er Kernel dauerhaft zu verwenden?

Und wie werde ich den nicht funktionsfähigen 6.5 / 6.8 er los?
Sorry, ich kenne mich mit Debian absolut gar nicht aus.
Wenn ich versuche den mit "apt remove" zu löschen, dann möchte er ja scheinbar gleich das ganze System schreddernd ...

Code:
root@pve-b:~# apt remove proxmox-kernel-6.5
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following package was automatically installed and is no longer required:
  proxmox-kernel-helper
Use 'apt autoremove' to remove it.
The following packages will be REMOVED:
  proxmox-default-kernel proxmox-kernel-6.5 proxmox-ve
0 upgraded, 0 newly installed, 3 to remove and 0 not upgraded.
After this operation, 55.3 kB disk space will be freed.
 
du kannst einen kernel pinnen - sh. admin guide:

https://pve.proxmox.com/pve-docs/chapter-sysadmin.html#sysboot_kernel_pin

das problem damit ist allerdings, dass der alte kernel keine updates mehr kriegt (auf PVE 8.x, aber irgendwann auch prinzipiell nicht mehr).

vermutlich waers also besser rauszufinden was beim shutdown haengt - ist im journal irgendwas sichtbar? oder wenn du lokal nen bildschirm dran haengen laesst? faehrt die maschine komplett runter wenn du WOL deaktivierst?
 
So,
habe einen noch älteren Rechner vom Dachboden geholt. Darauf 7.4 installiert und dann auf PVE 8.1.10 aktualisiert.
Der Rechner zeigt keinerlei Shutdown Probleme ...

Dann habe ich auf dem Problem-Rechner das BIOS mal komplett zurück gesetzt und nur das notwendigste geändert. Insbesondere alles was auch nur im entferntesten mit Energie sparen zu tun hat habe ich auf "default" gelassen.
Und siehe da "poweroff" funktioniert.

Dann habe ich im nächsten Versuch WOL im BIOS aktiviert. Nennt sich bei dem ASROCK Board "PCIE Devices Power On".
Und schwupps, die Maschine schaltet sich nicht mehr aus.
Am Monitor kann man leider nicht viel erkennen.
Die letzten einigermaßen gut erkennbaren Meldungen sind "systemd-shutdown" und "stopping disks".
Danach kommt irgendwas mit "link down"

Aber ich meine, das ohne WOL ganz kurz eine Meldung mit ACPI shutdown auftaucht, bevor der Monitor aus geht. Mit WOL habe ich diese Meldung nicht gesehen....
 
falls die maschine nen seriellen port hat, koenntest du vielleicht darueber den vollen output dumpen.. ansonsten klingt das ganze sehr nach nem firmware bug der moeglicherweise durch geaendertes kernel verhalten ausloest.. eher muehsam zu debuggen - eine moeglichkeit ist nen kernel bisect zu machen (vielleicht erstmal auf paket ebene zum eingrenzen, und dann zwischen der bekannten letzten guten version und der ersten schlechten die commits mit `git bisect` durchgehen..), das braucht aber leider zeit und ist natuerlich remote wenn wieder einschalten nicht geht eher schwierig :(
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!