regelmäßiger Absturz des "Servers" und der Maschinen, nur reboot hilft - (HP ProDesk 400 G5 Mini - Realtek NIC) - solved

patte24h

New Member
Oct 13, 2023
16
3
3
Guten Morgen Zusammen,

ich bin ein relativ neuer User von Proxmox VE und habe jetzt schon diverse Tests gefahren mit dem System.
Ich habe nicht viele Container drauf laufen und nun folgendes Problem.

Die Grundinstallation auf der aktuellen Maschine (HP ProDesk 400 G5 Mini) habe ich letzte Woche aufgesetzt. Vorher hatte ich das ganze schon mit nem anderen Host (Lenovo M910q) 3 Wochen lang betrieben und kennen gelernt. Zuvor liefen 6 Container drauf, jetzt laufen 6 Container drauf.
Ich hatte dann nach 5 Tagen Betrieb auf dem HP Ceph installiert, aber dann ignoriert, weil es mir für mich keine Notwendigkeit getan hat, dass zu nutzen.
Am nächsten Morgen ist zwischen 5 und 6 das Webinterface nicht mehr erreichbar gewesen und die Container waren offline - der Host lief aber noch. Nach einem Reboot über den Ein/Aus Schalter war das System wieder verfügbar.
Im Task-Log stand nichts von dem Absturz, nur dass zum Zeitpunkt des Drückens des Schalters der Herunterfahrenbefehl für alle VMs & Container gegeben wurde und er dann rebootet, alles wieder startet.

Davor hat er ein Hinweis auf den Updatecheck drin gehabt (nutze die kostenfreie Variante), ohne Fehler.
Am nächsten Tag das selbe Spiel, da ich schon früher wach war, hatte ich im Task-File geschaut, wann das mit dem Update Check lief. Zu der Zeit waren die Maschinen nicht mehr erreichbar. Also hab ich den automatischen Updatecheck via systemd deaktiviert, in der Hoffnung, den Fehler zu beheben.
Am nächsten Morgen, gleiches Phänomen, also war es nicht der Updatevorgang.
Ich vermute nun das Ceph und habe das wieder komplett deinstalliert, das war gestern.
Heute Morgen - gleiches Spiel, wieder abgestürzt gewesen.

Ich werde aus den Syslog-Einträgen nicht schlau - hat jemand einen hilfreichen Vorschlag und die Muse, mich bei der Lösung zu unterstützen?
Welche Daten wären nötig, um das Verhalten zu beobachten und Rückschlüsse zu ziehen (+, wie stelle ich sie Euch bereit?)?

Die Container sind nicht mit viel Last behaftet, dort läuft nur Pi-Hole, eine Plex Instanz und 8 Minecraft Server - die aber alle in der Nacht nicht in aktiver Nutzung sind.

Besten Dank im voraus, falls jemand mir helfen möchte/kann.
Patte

PS:
Ich hab mal das Syslog von heute Nacht dran gehangen, ich denke, dass um 5:50 der Fehler angefangen hat (Ausstieg des Pi-Hole auf CT101), um 6:10 hatte ich es gemerkt und neugestartet. Im Anhang das Logfile.

PPS:
Gerade gemerkt, dass die restlichen Infos fehlen.
Kernel: Linux 6.2.16-15-pve
pve-manager/8.0.4/d258a813cfa6b390
 

Attachments

  • Syslog.txt
    25.3 KB · Views: 9
Last edited:
Mir ist im Log sofort aufgefallen, dass du Netzwerkkartenfehler hast.
Suche mal im Forum Realtek r8169, die sind bekannt für Probleme dieser Art.
 
Falk, vielen Dank.
Ich habe heute noch nen paar Sachen hier im Forum gefunden und zunächst den Linux Kernel downgegraded von 6.2.16-15-pve auf 6.2.16-2-pve.
Scheinbar laufen mit nem älteren Kernel die Treiber der R8169 besser bzw. nicht fehlerhaft.

Sollte der Server morgen früh wieder crashen, habe ich den Beitrag hier dazu gefunden. Da wird von nem Wechsel auf den Treiber R8168 gesprochen. Ich hoffe, das Kerneldowngrad hat geholfen, das mit dem Treiberwechsel sieht mir für mein bisherigen Kenntnisstand von Proxmox und Linux ziemlich kompliziert aus.
 
kurzes Statusupdate - seit dem Kernel-Downgrade ist der Server nicht mehr abgestürzt

Allerdings bemerke ich, dass auf den Containern, auf denen die Minecraft Server laufen, Performanceprobleme vorhanden sind, vermutlich LAN-seitig. Ich habe in dem Realtek Beitrag auch diverses zu Geschwindigkeitsproblemen gelesen, daher werde ich das auch nochmal versuchen. Evtl. löst das mit dem Treiber das Problem mit der Performance.
 
  • Like
Reactions: Tigger-86
kurzes Statusupdate - seit dem Kernel-Downgrade ist der Server nicht mehr abgestürzt

Allerdings bemerke ich, dass auf den Containern, auf denen die Minecraft Server laufen, Performanceprobleme vorhanden sind, vermutlich LAN-seitig. Ich habe in dem Realtek Beitrag auch diverses zu Geschwindigkeitsproblemen gelesen, daher werde ich das auch nochmal versuchen. Evtl. löst das mit dem Treiber das Problem mit der Performance.
Hey, wie sieht es bei dir aus ? Ich hab genau das gleiche Problem und genau die gleichen Symptome... Leider
Hab einen HP Prodesk 400 G3
Wie hast du das Kernel downgrade gemacht ? Oder hast du jetzt ein Treiber Wechsel durchgeführt? Wenn ja, an welche Anleitung kann man sich da hangeln..
Danke schonmal
 
Hey, wie sieht es bei dir aus ? Ich hab genau das gleiche Problem und genau die gleichen Symptome... Leider
Hab einen HP Prodesk 400 G3
Wie hast du das Kernel downgrade gemacht ? Oder hast du jetzt ein Treiber Wechsel durchgeführt? Wenn ja, an welche Anleitung kann man sich da hangeln..
Danke schonmal
Hi, mit dem Proxmox-Boot-Tool geht das ganz easy:
https://pve.proxmox.com/wiki/Host_Bootloader
 
Hey, wie sieht es bei dir aus ? Ich hab genau das gleiche Problem und genau die gleichen Symptome... Leider
Hab einen HP Prodesk 400 G3
Wie hast du das Kernel downgrade gemacht ? Oder hast du jetzt ein Treiber Wechsel durchgeführt? Wenn ja, an welche Anleitung kann man sich da hangeln..
Danke schonmal

Hi Tigger,

beides hat geholfen. Ich habe zwar keinen Crash mehr mit dem Kernel Downgrade gehabt, aber die Performancethemen auf der LAN-Seite. Daher hab ich die Treiber noch gewechselt.

Aber für Dich, damit Du nicht auch alles zusammensuchen musst wie ich, gerne die relevanten Codes.

Alles via Shell direkt auf dem Host:
1) Kernelliste ziehen und gucken was installiert ist, bei mir war nur der 6.2.16-15 installiert anfangs
root@proxmox:~# proxmox-boot-tool kernel list
Manually selected kernels:
None.

Automatically selected kernels:
6.2.16-15-pve
6.2.16-3-pve

Pinned kernel:
6.2.16-15-pve
2) 6.2.15-3-pve nachinstallieren
apt install pve-kernel-6.2.16-3-pve
proxmox-boot-tool kernel add pve-kernel-6.2.16-3-pve
3) danach den Kernel auch aktivieren
proxmox-boot-tool kernel pin 6.2.16-3-pve
4) Server rebooten und danach wieder mit dem Befehl aus 1 prüfen, ob der 6.2.16-3-pve Kernel "gepinnt" ist

Netzwerktreiber wechseln bzw. erst nachinstallieren
1) Die Repo hinzufügen z.B. mit nano
nano /etc/apt/sources.list
deb http://ftp.de.debian.org/debian bookworm main non-free non-free-firmware
Speicher und schließen.
2) Repo Update laden mit
apt update
3) Treiber laden und installieren, mit reboot
apt install r8168-dkms -y && reboot now
4) nach Reboot mit folgendem Befehl checken, ob der Treiber auch aktiv ist (da müsste dann das hier stehen)
root@proxmox:~# lsmod | grep r8
r8168 655360 0

Gib mal Info, obs auch geholfen hat. Scheint ja im groben bei allen Modellen mit Realtek NICs diese Probleme zu geben.

PS: Ich habe nach dem Netzwerktreiberwechsel den alten Kernel wieder gepinnt, läuft seit Sonntag stabil und die Lags aufm Minecraft-Server sind auch verschwunden.

PPS: Falls das mit dem Kernel nicht klappt, ich habe auch ewig rumgemacht, mal meine Quellen, die ich in der Repo sources.list drin habe:
GNU nano 7.2 /etc/apt/sources.list
deb http://ftp.debian.org/debian bookworm main contrib non-free non-free-firmware
deb http://ftp.debian.org/debian bookworm-updates main contrib non-free non-free-firmware
deb http://ftp.de.debian.org/debian bookworm main non-free non-free-firmware

# security updates
deb http://security.debian.org/debian-security bookworm-security main contrib non-free non-free-firmware
 
Last edited:
  • Like
Reactions: proxzocks
Kleines Update:
Die Systemtemperatur lag im Idle-Betrieb bei ca. 60-62° C - empfand ich als sehr warm.
Mittlerweile hat sie sich bei 50°C eingependelt. Nur durch den tausch des Realtek Treibers.
 
oh okay, ich hoffe ich bekomme es so hin.. danke dir schonmal..
gebe auf jedenfall rückmeldung.

Code:
root@Proxmox:~#  lsmod | grep r8
r8169                 114688  0
root@Proxmox:~# proxmox-boot-tool kernel list
Manually selected kernels:
None.

Automatically selected kernels:
6.2.16-14-pve
6.2.16-3-pve

Pinned kernel:
6.2.16-3-pve

das steht bei mir
 
Last edited:
Das sieht ja schon danach aus, dass du den anderen älteren Kernel nutzt. Und trotzdem die Abstürze? Du nutzt noch den Standardrealtek Treiber, R8169

Mach mal die Schritte die ich unter Netzwerktreiber wechseln beschrieben habe.
 
Hast du Fehlermeldungen gehabt? Rebootet? Normal solltest du nach dem reboot und anschließendem
lsmod | grep r8

dort r8168 stehen haben?
 
das bekomme ich :
Code:
root@Proxmox:~# proxmox-boot-tool kernel list
Manually selected kernels:
None.

Automatically selected kernels:
6.2.16-14-pve
6.2.16-15-pve
6.2.16-3-pve

Pinned kernel:
6.2.16-3-pve
root@Proxmox:~# apt install r8168-dkms -y
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
r8168-dkms is already the newest version (8.051.02-2).
0 upgraded, 0 newly installed, 0 to remove and 0 not upgraded.

dann reboot

Code:
root@Proxmox:~# lsmod | grep r8
r8169                 114688  0

weiß auch nicht wieso. bekomm auch keine fehlermeldung
 
du hast aber den Installationsbefehl nicht identisch eingegeben
apt install r8168-dkms -y && reboot now
Komplett so, probiere das nochmal, er rebootet dann normal automatisch. Durch den Befehl wurde er bei mir direkt aktiviert.

PS: probiere bitte vor dem Befehl nochmal das hier zu installieren:
apt install pve-headers

PPS: das hier war der Thread, wo ich mir die meisten Infos rausgezogen habe
 
Last edited:
hab es vorher schon mal mit deinem befehl versucht. danach den befehl separat ausgeführt und anschließend ein reboot durchgeführt..
jetzt aber nochmal incl.
Code:
apt install pve-headers

leider immer wieder die gleiche ausgabe... ich versteh es nicht
Code:
root@Proxmox:~# lsmod | grep r8
r8169                 114688  0
 
Hab jetzt nochmal in nem andren Beitrag was gefunden. Problem war, das der pve Header nicht installiert war. Wenn du das jetzt hast, musst du den r8168 Treiber nochmal löschen und dann neu installieren.

Treiber r8168 entfernen
dkms remove r8168/8.051.02 --all
apt-get purge r8168-dkms
apt autoremove

Update nochmal vom pve-header
apt install pve-headers

Nochmal den Treiber installieren und reboot
apt install r8168-dkms -y && reboot now
 
sooo.. alles gemacht.. leider kein erfolg.. hab mal alles kopiert... vielleicht fällt ja was auf
Code:
root@Proxmox:~# dkms remove r8168/8.051.02 --all
apt-get purge r8168-dkms
apt autoremove
Module r8168-8.051.02 for kernel 6.2.16-15-pve (x86_64).
Before uninstall, this module version was ACTIVE on this kernel.

r8168.ko:
 - Uninstallation
   - Deleting from: /lib/modules/6.2.16-15-pve/updates/dkms/
 - Original module
   - No original module was found for this module on this kernel.
   - Use the dkms install command to reinstall any previous module version.
depmod....
Deleting module r8168-8.051.02 completely from the DKMS tree.
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following packages were automatically installed and are no longer required:
  dkms sudo
Use 'apt autoremove' to remove them.
The following packages will be REMOVED:
  r8168-dkms*
0 upgraded, 0 newly installed, 1 to remove and 0 not upgraded.
After this operation, 1,436 kB disk space will be freed.
Do you want to continue? [Y/n]
(Reading database ... 91425 files and directories currently installed.)
Removing r8168-dkms (8.051.02-2) ...
Processing triggers for initramfs-tools (0.142) ...
update-initramfs: Generating /boot/initrd.img-6.2.16-15-pve
Running hook script 'zz-proxmox-boot'..
Re-executing '/etc/kernel/postinst.d/zz-proxmox-boot' in new private mount namespace..
No /etc/kernel/proxmox-boot-uuids found, skipping ESP sync.
(Reading database ... 91403 files and directories currently installed.)
Purging configuration files for r8168-dkms (8.051.02-2) ...
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following packages will be REMOVED:
  dkms sudo
0 upgraded, 0 newly installed, 2 to remove and 0 not upgraded.
After this operation, 6,390 kB disk space will be freed.
Do you want to continue? [Y/n]
(Reading database ... 91402 files and directories currently installed.)
Removing dkms (3.0.10-8+deb12u1) ...
Removing sudo (1.9.13p3-1+deb12u1) ...
Processing triggers for man-db (2.11.2-2) ...
Processing triggers for libc-bin (2.36-9+deb12u3) ...
root@Proxmox:~# apt install pve-headers
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
pve-headers is already the newest version (8.0.2).
0 upgraded, 0 newly installed, 0 to remove and 0 not upgraded.
root@Proxmox:~# apt install r8168-dkms -y && reboot now
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following additional packages will be installed:
  dkms sudo
Suggested packages:
  menu
The following NEW packages will be installed:
  dkms r8168-dkms sudo
0 upgraded, 3 newly installed, 0 to remove and 0 not upgraded.
Need to get 2,044 kB of archives.
After this operation, 7,825 kB of additional disk space will be used.
Get:1 http://ftp.de.debian.org/debian bookworm/main amd64 dkms all 3.0.10-8+deb12u1 [48.7 kB]
Get:2 http://ftp.de.debian.org/debian bookworm/main amd64 sudo amd64 1.9.13p3-1+deb12u1 [1,889 kB]
Get:3 http://ftp.de.debian.org/debian bookworm/non-free amd64 r8168-dkms all 8.051.02-2 [106 kB]
Fetched 2,044 kB in 0s (4,430 kB/s)
Selecting previously unselected package dkms.
(Reading database ... 91258 files and directories currently installed.)
Preparing to unpack .../dkms_3.0.10-8+deb12u1_all.deb ...
Unpacking dkms (3.0.10-8+deb12u1) ...
Selecting previously unselected package sudo.
Preparing to unpack .../sudo_1.9.13p3-1+deb12u1_amd64.deb ...
Unpacking sudo (1.9.13p3-1+deb12u1) ...
Selecting previously unselected package r8168-dkms.
Preparing to unpack .../r8168-dkms_8.051.02-2_all.deb ...
Unpacking r8168-dkms (8.051.02-2) ...
Setting up dkms (3.0.10-8+deb12u1) ...
Setting up sudo (1.9.13p3-1+deb12u1) ...
Setting up r8168-dkms (8.051.02-2) ...
Loading new r8168-8.051.02 DKMS files...
Building for 6.2.16-3-pve 6.2.16-15-pve
Module build for kernel 6.2.16-3-pve was skipped since the
kernel headers for this kernel do not seem to be installed.
Building initial module for 6.2.16-15-pve
Done.

r8168.ko:
Running module version sanity check.
 - Original module
   - No original module exists within this kernel
 - Installation
   - Installing to /lib/modules/6.2.16-15-pve/updates/dkms/
depmod...
Processing triggers for libc-bin (2.36-9+deb12u3) ...
Processing triggers for man-db (2.11.2-2) ...
Processing triggers for initramfs-tools (0.142) ...
update-initramfs: Generating /boot/initrd.img-6.2.16-15-pve
Running hook script 'zz-proxmox-boot'..
Re-executing '/etc/kernel/postinst.d/zz-proxmox-boot' in new private mount namespace..
No /etc/kernel/proxmox-boot-uuids found, skipping ESP sync.

und dann leider wieder :
Code:
root@Proxmox:~# lsmod | grep r8
r8169                 114688  0
 
Last edited:
Hast du den Kernel 6.2.16-3-pve noch aktiv? Nach dem Prompt sieht es danach aus dass er den Treiber für den Kernel 6.2.16-15-pve installiert. Pin den Kernel mal wieder und reboote, danach nochmal gucken ob der andere Treiber aktiv ist.
 
leider noch der richtige..

Code:
root@Proxmox:~# proxmox-boot-tool kernel list
Manually selected kernels:
None.

Automatically selected kernels:
6.2.16-14-pve
6.2.16-15-pve
6.2.16-3-pve

Pinned kernel:
6.2.16-3-pve
root@Proxmox:~#
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!