Welche Version vom 6.1er Kernel hast du?Hallo @gustel, hallo @mattisq und auch hallo an den Rest,
ich geselle mich an dieser Stelle einmal zu euch. Denke ich jedenfalls...
Auch ich habe seit 5 Monaten einen HM90 in Betrieb und heute morgen Kernel 6.1 installiert. Ich kämpfe seit Anbeginn damit, dass der HM90 einfach hin und wieder crasht, ohne nennenswerte Logs zu schreiben. Auch ich habe schon den Ausbau der NVMe hinter mir und betreibe PVE aktuell im ZFS Mirror auf zwei Samsung Evo 870.
Mein HM90 steigt unterschiedlich oft aus, manchmal läuft er eins, zwei oder sogar drei Wochen ohne Ausfall und plötzlich crasht er aus dem nichts ohne erkennbare Logs. Teilweise crasht er dann auch mehrmals an einem Tag, wo ich ihn am liebsten in die Tonne schmeiße möchte.
Wie bereits berichtet, hatte ich heute morgen Kernel 6.1 installiert und eben gerade wieder einen Crash, dass ist bei mir also jedenfalls ohne Erefolg geblieben.
Das von mattisq, klingt jedenfalls vielversprechend und werde ich als nächsten Schritt einmal angehen. Hast du hierzu schon weiter Erfahrung sammeln können gustel?
Ich habe ebenso noch eine Begleiterscheinung, die ich bisher damit in Verbindung gebracht habe, mir aber mittlerweile garnicht mehr so sicher darüber bin.
Ich habe auch mehr oder weniger sporadisch immer Anfälle von Read/Write Errors im ZFS und zwar immer auf /sda. Der Fehler wandert nicht mit und ist somit auf den Port beschränkt. Platte wurde in diesem Zuge ebenso schon getauscht gegen eine neue und der Fehler besteht weiterhin.
Gruß
Marco
pve-manager/7.3-6/723bb6ec (running kernel: 6.1.14-1-pve)Welche Version vom 6.1er Kernel hast du?
Das ist die ganz aktuelle Version, mein Minisforum mag diese Version auch nicht, aber ich habe auch ein anderes Modell.pve-manager/7.3-6/723bb6ec (running kernel: 6.1.14-1-pve)
Am besten läuft bei meinen AMD Systemen der 6.1.2, aber der wird nur noch im Enterprise Repo verteilt
pve-no-subscription
:apt list pve-kernel-6.1.*
Listing... Done
pve-kernel-6.1.0-1-pve/stable,stable 6.1.0-1 amd64
pve-kernel-6.1.10-1-pve/stable,stable,now 6.1.10-1 amd64 [installed,automatic]
pve-kernel-6.1.14-1-pve/stable,stable,now 6.1.14-1 amd64 [installed,automatic]
pve-kernel-6.1.2-1-pve/stable,stable 6.1.2-1 amd64
pve-kernel-6.1.6-1-pve/stable,stable 6.1.6-1 amd64
Danke, wieder was gelernt, geht also auch manuell.pve-no-subscription
:
Bash:apt list pve-kernel-6.1.* Listing... Done pve-kernel-6.1.0-1-pve/stable,stable 6.1.0-1 amd64 pve-kernel-6.1.10-1-pve/stable,stable,now 6.1.10-1 amd64 [installed,automatic] pve-kernel-6.1.14-1-pve/stable,stable,now 6.1.14-1 amd64 [installed,automatic] pve-kernel-6.1.2-1-pve/stable,stable 6.1.2-1 amd64 pve-kernel-6.1.6-1-pve/stable,stable 6.1.6-1 amd64
[0] http://download.proxmox.com/debian/pve/dists/bullseye/pve-no-subscription/binary-amd64/
Danke, wieder was gelernt, geht also auch manuell.
apt install pve-kernel-6.1.2-1-pve
proxmox-boot-tool kernel pin 6.1.2-1-pve
proxmox-boot-tool refresh
(Sollte eh eine automatische Aufforderung/Nachfrage dazu bei Punkt 2 kommen.))root@pve1:~# pveversion
pve-manager/7.3-6/723bb6ec (running kernel: 6.1.10-1-pve)
Kann ich nach meinem Austausch mittlerweile bestätigen. Seither keine Probleme mehr.Hallo Marco,
willkommen in unserer Runde.
Leider kann ich dir zu @mattisq Lösung nichts sagen, ich hatte den HM90 reklamiert und ausgetauscht bekommen.
Seither keinerlei Probleme im Cluster!
Ich habe diesen Kernel installiert
Code:root@pve1:~# pveversion pve-manager/7.3-6/723bb6ec (running kernel: 6.1.10-1-pve)
Gruß Frank
nano /etc/default/grub
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amd_iommu=force_enable iommu=pt" # wichtig wegen AMD
update-grub
reboot
Im UEFI-Bios IOMMU enablen
Advanced ---> AMD CBS --> NBIO --> IOMMU=Enable
DMAr=Auto
Speichern und starten
dmesg | grep -e DMAR -e IOMMU
[ 0.503687] pci 0000:00:00.2: AMD-Vi: IOMMU performance counters supported
[ 0.504250] pci 0000:00:00.2: AMD-Vi: Found IOMMU cap 0x40
[ 0.505143] perf/amd_iommu: Detected AMD IOMMU #0 (2 banks, 4 counters/bank).
[ 7.684460] AMD-Vi: AMD IOMMUv2 loaded and initialized
nano /etc/modules
vfio
vfio_iommu_type1
vfio_pci
vfio_virqfd
reboot
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amd_iommu=force_enable iommu=pt" # wichtig wegen AMD
GRUB_CMDLINE_LINUX="amd_iommu=off"
gesetzt, weil ich sonst Probleme mit meiner UPS hatte (Eaton)Hi Steffi23Habe dieselben Probleme mit meiner HM90 und es wird immer schlimmer. Mehrere freezes pro Woche mittlerweile ..
Ich habe aberGRUB_CMDLINE_LINUX="amd_iommu=off"
gesetzt, weil ich sonst Probleme mit meiner UPS hatte (Eaton)
https://debianforum.de/forum/viewtopic.php?t=184695
Und befürchte, dass die Probleme dann wieder kommen, wenn ich dein Setting verwende.
Du hast den referenzierten Post jetzt gelöscht. Doch nicht zu empfehlen?Edit: Habe nochmal den Code oben überarbeitet
Nee eigentlich nicht den Post gelöscht. Habe es nur genauer beschrieben was ich bei mir gemacht habe damit alles rund läüft mit dem Stock-Kernel,USB-Ports usw. und habe keine Probleme mehr. Damit kannst du auch deine Geräte an eine VM durchreichen ( Passthrough ).Du hast den referenzierten Post jetzt gelöscht. Doch nicht zu empfehlen?
Linux proxsrv01 5.15.107-2-pve #1 SMP PVE 5.15.107-2 (2023-05-10T09:10Z) x86_64 GNU/LinuxJetzt ist er wieder da. Super. Vielleicht war die Korrektur in einem Review. Sehe ich mir auf jeden Fall an und Vielen Dank schon einmal.
Hast Du zusätzlich auch das cmos reset von mattisq gemacht?
https://forum.proxmox.com/threads/proxmox-kernel-bug.115147/post-536574
Auf welchem Kernel bist du unterwegs?
Ich hatte wegen eines Problems ein Downgrade auf 5.13.9 gemacht.
https://forum.proxmox.com/threads/node-crash-with-cpu-stuck.113326/#post-489651
Könnte mir aber gut vorstellen, dass sich das Problem mit den geänderten Einstellungen auch fixed.
Edit: muss mir noch den gesamten Thread durchlesen. Geht ja mit dem Kernel Downgrade los. ;-)
Lass mal bitte wissen was bei Dir dann rausgekommen ist,Danke, aber auf eine Neuinstallation hatte ich eigentlich nicht so wirklich lust.
Ich probiere es erstmal ohne.
Habe gestern umgestellt. Lief erstmal alles gut. Keine Probleme mit der USV.Lass mal bitte wissen was bei Dir dann rausgekommen ist,
LG Guido