Proxmox Kernel Bug

Hallo mattisq,
das hört sich schon sehr nach unserem Problem an.
Vielleicht liest @Lixe noch mit und versucht es einmal.

Letzten Sonntag habe ich den 6.1 Kernel installiert und am Samstag den HM90 wieder ins Cluster geschoben.
Läuft alles einwandfrei..... (bis jetzt)

Gruß Frank
 
Hallo @gustel, hallo @mattisq und auch hallo an den Rest,

ich geselle mich an dieser Stelle einmal zu euch. Denke ich jedenfalls...

Auch ich habe seit 5 Monaten einen HM90 in Betrieb und heute morgen Kernel 6.1 installiert. Ich kämpfe seit Anbeginn damit, dass der HM90 einfach hin und wieder crasht, ohne nennenswerte Logs zu schreiben. Auch ich habe schon den Ausbau der NVMe hinter mir und betreibe PVE aktuell im ZFS Mirror auf zwei Samsung Evo 870.
Mein HM90 steigt unterschiedlich oft aus, manchmal läuft er eins, zwei oder sogar drei Wochen ohne Ausfall und plötzlich crasht er aus dem nichts ohne erkennbare Logs. Teilweise crasht er dann auch mehrmals an einem Tag, wo ich ihn am liebsten in die Tonne schmeiße möchte.

Wie bereits berichtet, hatte ich heute morgen Kernel 6.1 installiert und eben gerade wieder einen Crash, dass ist bei mir also jedenfalls ohne Erefolg geblieben.

Das von mattisq, klingt jedenfalls vielversprechend und werde ich als nächsten Schritt einmal angehen. Hast du hierzu schon weiter Erfahrung sammeln können gustel?

Ich habe ebenso noch eine Begleiterscheinung, die ich bisher damit in Verbindung gebracht habe, mir aber mittlerweile garnicht mehr so sicher darüber bin.
Ich habe auch mehr oder weniger sporadisch immer Anfälle von Read/Write Errors im ZFS und zwar immer auf /sda. Der Fehler wandert nicht mit und ist somit auf den Port beschränkt. Platte wurde in diesem Zuge ebenso schon getauscht gegen eine neue und der Fehler besteht weiterhin.

Gruß
Marco
 
Hallo @gustel, hallo @mattisq und auch hallo an den Rest,

ich geselle mich an dieser Stelle einmal zu euch. Denke ich jedenfalls...

Auch ich habe seit 5 Monaten einen HM90 in Betrieb und heute morgen Kernel 6.1 installiert. Ich kämpfe seit Anbeginn damit, dass der HM90 einfach hin und wieder crasht, ohne nennenswerte Logs zu schreiben. Auch ich habe schon den Ausbau der NVMe hinter mir und betreibe PVE aktuell im ZFS Mirror auf zwei Samsung Evo 870.
Mein HM90 steigt unterschiedlich oft aus, manchmal läuft er eins, zwei oder sogar drei Wochen ohne Ausfall und plötzlich crasht er aus dem nichts ohne erkennbare Logs. Teilweise crasht er dann auch mehrmals an einem Tag, wo ich ihn am liebsten in die Tonne schmeiße möchte.

Wie bereits berichtet, hatte ich heute morgen Kernel 6.1 installiert und eben gerade wieder einen Crash, dass ist bei mir also jedenfalls ohne Erefolg geblieben.

Das von mattisq, klingt jedenfalls vielversprechend und werde ich als nächsten Schritt einmal angehen. Hast du hierzu schon weiter Erfahrung sammeln können gustel?

Ich habe ebenso noch eine Begleiterscheinung, die ich bisher damit in Verbindung gebracht habe, mir aber mittlerweile garnicht mehr so sicher darüber bin.
Ich habe auch mehr oder weniger sporadisch immer Anfälle von Read/Write Errors im ZFS und zwar immer auf /sda. Der Fehler wandert nicht mit und ist somit auf den Port beschränkt. Platte wurde in diesem Zuge ebenso schon getauscht gegen eine neue und der Fehler besteht weiterhin.

Gruß
Marco
Welche Version vom 6.1er Kernel hast du?
 
Am besten läuft bei meinen AMD Systemen der 6.1.2, aber der wird nur noch im Enterprise Repo verteilt

pve-no-subscription:
Bash:
apt list pve-kernel-6.1.*
Listing... Done
pve-kernel-6.1.0-1-pve/stable,stable 6.1.0-1 amd64
pve-kernel-6.1.10-1-pve/stable,stable,now 6.1.10-1 amd64 [installed,automatic]
pve-kernel-6.1.14-1-pve/stable,stable,now 6.1.14-1 amd64 [installed,automatic]
pve-kernel-6.1.2-1-pve/stable,stable 6.1.2-1 amd64
pve-kernel-6.1.6-1-pve/stable,stable 6.1.6-1 amd64

[0] http://download.proxmox.com/debian/pve/dists/bullseye/pve-no-subscription/binary-amd64/
 
  • Like
Reactions: Falk R.
pve-no-subscription:
Bash:
apt list pve-kernel-6.1.*
Listing... Done
pve-kernel-6.1.0-1-pve/stable,stable 6.1.0-1 amd64
pve-kernel-6.1.10-1-pve/stable,stable,now 6.1.10-1 amd64 [installed,automatic]
pve-kernel-6.1.14-1-pve/stable,stable,now 6.1.14-1 amd64 [installed,automatic]
pve-kernel-6.1.2-1-pve/stable,stable 6.1.2-1 amd64
pve-kernel-6.1.6-1-pve/stable,stable 6.1.6-1 amd64

[0] http://download.proxmox.com/debian/pve/dists/bullseye/pve-no-subscription/binary-amd64/
Danke, wieder was gelernt, geht also auch manuell.
 
  • Like
Reactions: Neobin
Danke, wieder was gelernt, geht also auch manuell.

Sollte kein Problem sein, ja.
  1. (Wieder) manuell installieren bzw. als explizit installiert markieren, z.B.: apt install pve-kernel-6.1.2-1-pve
  2. Zum Booten anpinnen [1], z.B.: proxmox-boot-tool kernel pin 6.1.2-1-pve
  3. (proxmox-boot-tool refresh (Sollte eh eine automatische Aufforderung/Nachfrage dazu bei Punkt 2 kommen.))

[1] https://pve.proxmox.com/wiki/Host_Bootloader#sysboot_kernel_pin
 
Hallo Marco,

willkommen in unserer Runde.
Leider kann ich dir zu @mattisq Lösung nichts sagen, ich hatte den HM90 reklamiert und ausgetauscht bekommen.
Seither keinerlei Probleme im Cluster!
Ich habe diesen Kernel installiert
Code:
root@pve1:~# pveversion
pve-manager/7.3-6/723bb6ec (running kernel: 6.1.10-1-pve)

Gruß Frank
 
Hallo Marco,

willkommen in unserer Runde.
Leider kann ich dir zu @mattisq Lösung nichts sagen, ich hatte den HM90 reklamiert und ausgetauscht bekommen.
Seither keinerlei Probleme im Cluster!
Ich habe diesen Kernel installiert
Code:
root@pve1:~# pveversion
pve-manager/7.3-6/723bb6ec (running kernel: 6.1.10-1-pve)

Gruß Frank
Kann ich nach meinem Austausch mittlerweile bestätigen. Seither keine Probleme mehr.
 
Hallo
Habe auch ein HM90 der gezickt hat.
Liegt an der Virtualisierung im Bios.
Führt mal bitte die Schritte aus:
Code:
nano /etc/default/grub

GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amd_iommu=force_enable iommu=pt" # wichtig wegen AMD

update-grub

reboot

Im UEFI-Bios  IOMMU enablen

Advanced ---> AMD CBS --> NBIO --> IOMMU=Enable
DMAr=Auto

Speichern und starten

dmesg | grep -e DMAR -e IOMMU

[    0.503687] pci 0000:00:00.2: AMD-Vi: IOMMU performance counters supported
[    0.504250] pci 0000:00:00.2: AMD-Vi: Found IOMMU cap 0x40
[    0.505143] perf/amd_iommu: Detected AMD IOMMU #0 (2 banks, 4 counters/bank).
[    7.684460] AMD-Vi: AMD IOMMUv2 loaded and initialized

nano /etc/modules

vfio
vfio_iommu_type1
vfio_pci
vfio_virqfd

reboot
Damit schnurrt er wie ein Schnurrbart.
LG Guido
 
Last edited:
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amd_iommu=force_enable iommu=pt" # wichtig wegen AMD

Habe dieselben Probleme mit meiner HM90 und es wird immer schlimmer. Mehrere freezes pro Woche mittlerweile ..

Ich habe aber GRUB_CMDLINE_LINUX="amd_iommu=off" gesetzt, weil ich sonst Probleme mit meiner UPS hatte (Eaton)
https://debianforum.de/forum/viewtopic.php?t=184695

Und befürchte, dass die Probleme dann wieder kommen, wenn ich dein Setting verwende.
 
Habe dieselben Probleme mit meiner HM90 und es wird immer schlimmer. Mehrere freezes pro Woche mittlerweile ..

Ich habe aber GRUB_CMDLINE_LINUX="amd_iommu=off" gesetzt, weil ich sonst Probleme mit meiner UPS hatte (Eaton)
https://debianforum.de/forum/viewtopic.php?t=184695

Und befürchte, dass die Probleme dann wieder kommen, wenn ich dein Setting verwende.
Hi Steffi23
Und genau die Zeile behebt auch das USB-Port Problem der hintern Usb-Ports. Meine externe USB-Platte wurde nie erkannt und beim booten hat sie einfach Proxmox abgeschaltet einfach so aus die Maus :( . Das war die Lösung. Und dann musst du im Uefi die Iommu wieder enabeln und die Option drunter auch weiss jetzt nicht wie sie heißt. Läüft tadelos beim mir ohne Probleme mit den USB-Ports. Setze mal das so wie ich oben es beschrieben habe.
LG Guido

Edit: Habe nochmal den Code oben überarbeitet
 
Last edited:
Du hast den referenzierten Post jetzt gelöscht. Doch nicht zu empfehlen?
Nee eigentlich nicht den Post gelöscht. Habe es nur genauer beschrieben was ich bei mir gemacht habe damit alles rund läüft mit dem Stock-Kernel,USB-Ports usw. und habe keine Probleme mehr. Damit kannst du auch deine Geräte an eine VM durchreichen ( Passthrough ).
LG Guido
 
Last edited:
Jetzt ist er wieder da. Super. Vielleicht war die Korrektur in einem Review. Sehe ich mir auf jeden Fall an und Vielen Dank schon einmal.


Hast Du zusätzlich auch das cmos reset von mattisq gemacht?
https://forum.proxmox.com/threads/proxmox-kernel-bug.115147/post-536574

Auf welchem Kernel bist du unterwegs?
Ich hatte wegen eines Problems ein Downgrade auf 5.13.9 gemacht.
https://forum.proxmox.com/threads/node-crash-with-cpu-stuck.113326/#post-489651

Könnte mir aber gut vorstellen, dass sich das Problem mit den geänderten Einstellungen auch fixed.

Edit: muss mir noch den gesamten Thread durchlesen. Geht ja mit dem Kernel Downgrade los. ;-)
 
Last edited:
Jetzt ist er wieder da. Super. Vielleicht war die Korrektur in einem Review. Sehe ich mir auf jeden Fall an und Vielen Dank schon einmal.


Hast Du zusätzlich auch das cmos reset von mattisq gemacht?
https://forum.proxmox.com/threads/proxmox-kernel-bug.115147/post-536574

Auf welchem Kernel bist du unterwegs?
Ich hatte wegen eines Problems ein Downgrade auf 5.13.9 gemacht.
https://forum.proxmox.com/threads/node-crash-with-cpu-stuck.113326/#post-489651

Könnte mir aber gut vorstellen, dass sich das Problem mit den geänderten Einstellungen auch fixed.

Edit: muss mir noch den gesamten Thread durchlesen. Geht ja mit dem Kernel Downgrade los. ;-)
Linux proxsrv01 5.15.107-2-pve #1 SMP PVE 5.15.107-2 (2023-05-10T09:10Z) x86_64 GNU/Linux

Das Cmos reset habe ich nicht gemacht.

Mein Vorschlag wäre:

1. Sichere alle Lxc und VMs

2.Klemme alle Geräte ab die du nicht für eine Neuinstalltion brauchst. ausser 1 Netzwerkkabel und nur die USB-Ports vorne benutzen.
(Habe auch bei mir das Wlan/BT Modul ausgebaut und Kabel zum Modul isoliert weil ich es als Server nicht brauche)

3. Installiere neu und alle Updates einspielen danach führe alle wie von mir beschrieben Schritte aus.

4. Danach alles wieder anklemmen und den Boot beobachten. Sollte er zügig durch booten, sollte es funtioniert haben.

LG Guido
 
Danke, aber auf eine Neuinstallation hatte ich eigentlich nicht so wirklich lust.
Ich probiere es erstmal ohne.
 
Lass mal bitte wissen was bei Dir dann rausgekommen ist,

LG Guido
Habe gestern umgestellt. Lief erstmal alles gut. Keine Probleme mit der USV.
Heute habe ich dann noch eine Anwendung hochgefahren, die ein bisschen CPU-Power braucht. Nach 6 Stunden bei einem LoadAvg von durchschnittlich ~ 3.5, hat sie sich dann wieder verabschiedet.
Kann jetzt noch den cmos reset probieren.


Schickt Minis eigentlich bei einem Umtausch die neue HW zuerst raus?
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!