regelmäßiger Absturz des "Servers" und der Maschinen, nur reboot hilft - (HP ProDesk 400 G5 Mini - Realtek NIC) - solved

patte24h · Oct 13, 2023

Guten Morgen Zusammen,

ich bin ein relativ neuer User von Proxmox VE und habe jetzt schon diverse Tests gefahren mit dem System.
Ich habe nicht viele Container drauf laufen und nun folgendes Problem.

Die Grundinstallation auf der aktuellen Maschine (HP ProDesk 400 G5 Mini) habe ich letzte Woche aufgesetzt. Vorher hatte ich das ganze schon mit nem anderen Host (Lenovo M910q) 3 Wochen lang betrieben und kennen gelernt. Zuvor liefen 6 Container drauf, jetzt laufen 6 Container drauf.
Ich hatte dann nach 5 Tagen Betrieb auf dem HP Ceph installiert, aber dann ignoriert, weil es mir für mich keine Notwendigkeit getan hat, dass zu nutzen.
Am nächsten Morgen ist zwischen 5 und 6 das Webinterface nicht mehr erreichbar gewesen und die Container waren offline - der Host lief aber noch. Nach einem Reboot über den Ein/Aus Schalter war das System wieder verfügbar.
Im Task-Log stand nichts von dem Absturz, nur dass zum Zeitpunkt des Drückens des Schalters der Herunterfahrenbefehl für alle VMs & Container gegeben wurde und er dann rebootet, alles wieder startet.

Davor hat er ein Hinweis auf den Updatecheck drin gehabt (nutze die kostenfreie Variante), ohne Fehler.
Am nächsten Tag das selbe Spiel, da ich schon früher wach war, hatte ich im Task-File geschaut, wann das mit dem Update Check lief. Zu der Zeit waren die Maschinen nicht mehr erreichbar. Also hab ich den automatischen Updatecheck via systemd deaktiviert, in der Hoffnung, den Fehler zu beheben.
Am nächsten Morgen, gleiches Phänomen, also war es nicht der Updatevorgang.
Ich vermute nun das Ceph und habe das wieder komplett deinstalliert, das war gestern.
Heute Morgen - gleiches Spiel, wieder abgestürzt gewesen.

Ich werde aus den Syslog-Einträgen nicht schlau - hat jemand einen hilfreichen Vorschlag und die Muse, mich bei der Lösung zu unterstützen?
Welche Daten wären nötig, um das Verhalten zu beobachten und Rückschlüsse zu ziehen (+, wie stelle ich sie Euch bereit?)?

Die Container sind nicht mit viel Last behaftet, dort läuft nur Pi-Hole, eine Plex Instanz und 8 Minecraft Server - die aber alle in der Nacht nicht in aktiver Nutzung sind.

Besten Dank im voraus, falls jemand mir helfen möchte/kann.
Patte

PS:
Ich hab mal das Syslog von heute Nacht dran gehangen, ich denke, dass um 5:50 der Fehler angefangen hat (Ausstieg des Pi-Hole auf CT101), um 6:10 hatte ich es gemerkt und neugestartet. Im Anhang das Logfile.

PPS:
Gerade gemerkt, dass die restlichen Infos fehlen.

Kernel: Linux 6.2.16-15-pve
pve-manager/8.0.4/d258a813cfa6b390

Falk R. · Oct 13, 2023

Mir ist im Log sofort aufgefallen, dass du Netzwerkkartenfehler hast.
Suche mal im Forum Realtek r8169, die sind bekannt für Probleme dieser Art.

patte24h · Oct 13, 2023

Falk, vielen Dank.
Ich habe heute noch nen paar Sachen hier im Forum gefunden und zunächst den Linux Kernel downgegraded von 6.2.16-15-pve auf 6.2.16-2-pve.
Scheinbar laufen mit nem älteren Kernel die Treiber der R8169 besser bzw. nicht fehlerhaft.

Sollte der Server morgen früh wieder crashen, habe ich den Beitrag hier dazu gefunden. Da wird von nem Wechsel auf den Treiber R8168 gesprochen. Ich hoffe, das Kerneldowngrad hat geholfen, das mit dem Treiberwechsel sieht mir für mein bisherigen Kenntnisstand von Proxmox und Linux ziemlich kompliziert aus.

patte24h · Oct 15, 2023

kurzes Statusupdate - seit dem Kernel-Downgrade ist der Server nicht mehr abgestürzt

Allerdings bemerke ich, dass auf den Containern, auf denen die Minecraft Server laufen, Performanceprobleme vorhanden sind, vermutlich LAN-seitig. Ich habe in dem Realtek Beitrag auch diverses zu Geschwindigkeitsproblemen gelesen, daher werde ich das auch nochmal versuchen. Evtl. löst das mit dem Treiber das Problem mit der Performance.

Tigger-86 · Oct 15, 2023

patte24h said:
kurzes Statusupdate - seit dem Kernel-Downgrade ist der Server nicht mehr abgestürzt

Allerdings bemerke ich, dass auf den Containern, auf denen die Minecraft Server laufen, Performanceprobleme vorhanden sind, vermutlich LAN-seitig. Ich habe in dem Realtek Beitrag auch diverses zu Geschwindigkeitsproblemen gelesen, daher werde ich das auch nochmal versuchen. Evtl. löst das mit dem Treiber das Problem mit der Performance.

Hey, wie sieht es bei dir aus ? Ich hab genau das gleiche Problem und genau die gleichen Symptome... Leider
Hab einen HP Prodesk 400 G3
Wie hast du das Kernel downgrade gemacht ? Oder hast du jetzt ein Treiber Wechsel durchgeführt? Wenn ja, an welche Anleitung kann man sich da hangeln..
Danke schonmal

Falk R. · Oct 16, 2023

Tigger-86 said:
Hey, wie sieht es bei dir aus ? Ich hab genau das gleiche Problem und genau die gleichen Symptome... Leider
Hab einen HP Prodesk 400 G3
Wie hast du das Kernel downgrade gemacht ? Oder hast du jetzt ein Treiber Wechsel durchgeführt? Wenn ja, an welche Anleitung kann man sich da hangeln..
Danke schonmal

Hi, mit dem Proxmox-Boot-Tool geht das ganz easy:
https://pve.proxmox.com/wiki/Host_Bootloader

patte24h · Oct 17, 2023

Tigger-86 said:
Hey, wie sieht es bei dir aus ? Ich hab genau das gleiche Problem und genau die gleichen Symptome... Leider
Hab einen HP Prodesk 400 G3
Wie hast du das Kernel downgrade gemacht ? Oder hast du jetzt ein Treiber Wechsel durchgeführt? Wenn ja, an welche Anleitung kann man sich da hangeln..
Danke schonmal

Hi Tigger,

beides hat geholfen. Ich habe zwar keinen Crash mehr mit dem Kernel Downgrade gehabt, aber die Performancethemen auf der LAN-Seite. Daher hab ich die Treiber noch gewechselt.

Aber für Dich, damit Du nicht auch alles zusammensuchen musst wie ich, gerne die relevanten Codes.

Alles via Shell direkt auf dem Host:
1) Kernelliste ziehen und gucken was installiert ist, bei mir war nur der 6.2.16-15 installiert anfangs

root@proxmox:~# proxmox-boot-tool kernel list
Manually selected kernels:
None.

Automatically selected kernels:
6.2.16-15-pve
6.2.16-3-pve

Pinned kernel:
6.2.16-15-pve

2) 6.2.15-3-pve nachinstallieren

apt install pve-kernel-6.2.16-3-pve
proxmox-boot-tool kernel add pve-kernel-6.2.16-3-pve

3) danach den Kernel auch aktivieren

proxmox-boot-tool kernel pin 6.2.16-3-pve

4) Server rebooten und danach wieder mit dem Befehl aus 1 prüfen, ob der 6.2.16-3-pve Kernel "gepinnt" ist

Netzwerktreiber wechseln bzw. erst nachinstallieren
1) Die Repo hinzufügen z.B. mit nano

nano /etc/apt/sources.list

deb http://ftp.de.debian.org/debian bookworm main non-free non-free-firmware

Speicher und schließen.
2) Repo Update laden mit

apt update

3) Treiber laden und installieren, mit reboot

apt install r8168-dkms -y && reboot now

4) nach Reboot mit folgendem Befehl checken, ob der Treiber auch aktiv ist (da müsste dann das hier stehen)

root@proxmox:~# lsmod | grep r8
r8168 655360 0

Gib mal Info, obs auch geholfen hat. Scheint ja im groben bei allen Modellen mit Realtek NICs diese Probleme zu geben.

PS: Ich habe nach dem Netzwerktreiberwechsel den alten Kernel wieder gepinnt, läuft seit Sonntag stabil und die Lags aufm Minecraft-Server sind auch verschwunden.

PPS: Falls das mit dem Kernel nicht klappt, ich habe auch ewig rumgemacht, mal meine Quellen, die ich in der Repo sources.list drin habe:

GNU nano 7.2 /etc/apt/sources.list
deb http://ftp.debian.org/debian bookworm main contrib non-free non-free-firmware
deb http://ftp.debian.org/debian bookworm-updates main contrib non-free non-free-firmware
deb http://ftp.de.debian.org/debian bookworm main non-free non-free-firmware

# security updates
deb http://security.debian.org/debian-security bookworm-security main contrib non-free non-free-firmware

patte24h · Oct 17, 2023

Kleines Update:
Die Systemtemperatur lag im Idle-Betrieb bei ca. 60-62° C - empfand ich als sehr warm.
Mittlerweile hat sie sich bei 50°C eingependelt. Nur durch den tausch des Realtek Treibers.

Tigger-86 · Oct 17, 2023

oh okay, ich hoffe ich bekomme es so hin.. danke dir schonmal..
gebe auf jedenfall rückmeldung.

Code:

root@Proxmox:~#  lsmod | grep r8
r8169                 114688  0
root@Proxmox:~# proxmox-boot-tool kernel list
Manually selected kernels:
None.

Automatically selected kernels:
6.2.16-14-pve
6.2.16-3-pve

Pinned kernel:
6.2.16-3-pve

das steht bei mir

patte24h · Oct 17, 2023

Das sieht ja schon danach aus, dass du den anderen älteren Kernel nutzt. Und trotzdem die Abstürze? Du nutzt noch den Standardrealtek Treiber, R8169

Mach mal die Schritte die ich unter Netzwerktreiber wechseln beschrieben habe.

Tigger-86 · Oct 17, 2023

Habe beides ausgeführt..oder was meinst du ?

patte24h · Oct 17, 2023

Hast du Fehlermeldungen gehabt? Rebootet? Normal solltest du nach dem reboot und anschließendem
lsmod | grep r8

dort r8168 stehen haben?

Tigger-86 · Oct 18, 2023

das bekomme ich :

Code:

root@Proxmox:~# proxmox-boot-tool kernel list
Manually selected kernels:
None.

Automatically selected kernels:
6.2.16-14-pve
6.2.16-15-pve
6.2.16-3-pve

Pinned kernel:
6.2.16-3-pve
root@Proxmox:~# apt install r8168-dkms -y
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
r8168-dkms is already the newest version (8.051.02-2).
0 upgraded, 0 newly installed, 0 to remove and 0 not upgraded.

dann reboot

Code:

root@Proxmox:~# lsmod | grep r8
r8169                 114688  0

weiß auch nicht wieso. bekomm auch keine fehlermeldung

patte24h · Oct 18, 2023

du hast aber den Installationsbefehl nicht identisch eingegeben

apt install r8168-dkms -y && reboot now

Komplett so, probiere das nochmal, er rebootet dann normal automatisch. Durch den Befehl wurde er bei mir direkt aktiviert.

PS: probiere bitte vor dem Befehl nochmal das hier zu installieren:

apt install pve-headers

PPS: das hier war der Thread, wo ich mir die meisten Infos rausgezogen habe

Tigger-86 · Oct 18, 2023

hab es vorher schon mal mit deinem befehl versucht. danach den befehl separat ausgeführt und anschließend ein reboot durchgeführt..
jetzt aber nochmal incl.

Code:

apt install pve-headers

leider immer wieder die gleiche ausgabe... ich versteh es nicht

Code:

root@Proxmox:~# lsmod | grep r8
r8169                 114688  0

patte24h · Oct 18, 2023

Hab jetzt nochmal in nem andren Beitrag was gefunden. Problem war, das der pve Header nicht installiert war. Wenn du das jetzt hast, musst du den r8168 Treiber nochmal löschen und dann neu installieren.

Treiber r8168 entfernen

dkms remove r8168/8.051.02 --all
apt-get purge r8168-dkms
apt autoremove

Update nochmal vom pve-header

apt install pve-headers

Nochmal den Treiber installieren und reboot

apt install r8168-dkms -y && reboot now

Tigger-86 · Oct 18, 2023

sooo.. alles gemacht.. leider kein erfolg.. hab mal alles kopiert... vielleicht fällt ja was auf

Code:

root@Proxmox:~# dkms remove r8168/8.051.02 --all
apt-get purge r8168-dkms
apt autoremove
Module r8168-8.051.02 for kernel 6.2.16-15-pve (x86_64).
Before uninstall, this module version was ACTIVE on this kernel.

r8168.ko:
 - Uninstallation
   - Deleting from: /lib/modules/6.2.16-15-pve/updates/dkms/
 - Original module
   - No original module was found for this module on this kernel.
   - Use the dkms install command to reinstall any previous module version.
depmod....
Deleting module r8168-8.051.02 completely from the DKMS tree.
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following packages were automatically installed and are no longer required:
  dkms sudo
Use 'apt autoremove' to remove them.
The following packages will be REMOVED:
  r8168-dkms*
0 upgraded, 0 newly installed, 1 to remove and 0 not upgraded.
After this operation, 1,436 kB disk space will be freed.
Do you want to continue? [Y/n]
(Reading database ... 91425 files and directories currently installed.)
Removing r8168-dkms (8.051.02-2) ...
Processing triggers for initramfs-tools (0.142) ...
update-initramfs: Generating /boot/initrd.img-6.2.16-15-pve
Running hook script 'zz-proxmox-boot'..
Re-executing '/etc/kernel/postinst.d/zz-proxmox-boot' in new private mount namespace..
No /etc/kernel/proxmox-boot-uuids found, skipping ESP sync.
(Reading database ... 91403 files and directories currently installed.)
Purging configuration files for r8168-dkms (8.051.02-2) ...
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following packages will be REMOVED:
  dkms sudo
0 upgraded, 0 newly installed, 2 to remove and 0 not upgraded.
After this operation, 6,390 kB disk space will be freed.
Do you want to continue? [Y/n]
(Reading database ... 91402 files and directories currently installed.)
Removing dkms (3.0.10-8+deb12u1) ...
Removing sudo (1.9.13p3-1+deb12u1) ...
Processing triggers for man-db (2.11.2-2) ...
Processing triggers for libc-bin (2.36-9+deb12u3) ...
root@Proxmox:~# apt install pve-headers
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
pve-headers is already the newest version (8.0.2).
0 upgraded, 0 newly installed, 0 to remove and 0 not upgraded.
root@Proxmox:~# apt install r8168-dkms -y && reboot now
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following additional packages will be installed:
  dkms sudo
Suggested packages:
  menu
The following NEW packages will be installed:
  dkms r8168-dkms sudo
0 upgraded, 3 newly installed, 0 to remove and 0 not upgraded.
Need to get 2,044 kB of archives.
After this operation, 7,825 kB of additional disk space will be used.
Get:1 http://ftp.de.debian.org/debian bookworm/main amd64 dkms all 3.0.10-8+deb12u1 [48.7 kB]
Get:2 http://ftp.de.debian.org/debian bookworm/main amd64 sudo amd64 1.9.13p3-1+deb12u1 [1,889 kB]
Get:3 http://ftp.de.debian.org/debian bookworm/non-free amd64 r8168-dkms all 8.051.02-2 [106 kB]
Fetched 2,044 kB in 0s (4,430 kB/s)
Selecting previously unselected package dkms.
(Reading database ... 91258 files and directories currently installed.)
Preparing to unpack .../dkms_3.0.10-8+deb12u1_all.deb ...
Unpacking dkms (3.0.10-8+deb12u1) ...
Selecting previously unselected package sudo.
Preparing to unpack .../sudo_1.9.13p3-1+deb12u1_amd64.deb ...
Unpacking sudo (1.9.13p3-1+deb12u1) ...
Selecting previously unselected package r8168-dkms.
Preparing to unpack .../r8168-dkms_8.051.02-2_all.deb ...
Unpacking r8168-dkms (8.051.02-2) ...
Setting up dkms (3.0.10-8+deb12u1) ...
Setting up sudo (1.9.13p3-1+deb12u1) ...
Setting up r8168-dkms (8.051.02-2) ...
Loading new r8168-8.051.02 DKMS files...
Building for 6.2.16-3-pve 6.2.16-15-pve
Module build for kernel 6.2.16-3-pve was skipped since the
kernel headers for this kernel do not seem to be installed.
Building initial module for 6.2.16-15-pve
Done.

r8168.ko:
Running module version sanity check.
 - Original module
   - No original module exists within this kernel
 - Installation
   - Installing to /lib/modules/6.2.16-15-pve/updates/dkms/
depmod...
Processing triggers for libc-bin (2.36-9+deb12u3) ...
Processing triggers for man-db (2.11.2-2) ...
Processing triggers for initramfs-tools (0.142) ...
update-initramfs: Generating /boot/initrd.img-6.2.16-15-pve
Running hook script 'zz-proxmox-boot'..
Re-executing '/etc/kernel/postinst.d/zz-proxmox-boot' in new private mount namespace..
No /etc/kernel/proxmox-boot-uuids found, skipping ESP sync.

und dann leider wieder :

Code:

root@Proxmox:~# lsmod | grep r8
r8169                 114688  0

patte24h · Oct 18, 2023

Hast du den Kernel 6.2.16-3-pve noch aktiv? Nach dem Prompt sieht es danach aus dass er den Treiber für den Kernel 6.2.16-15-pve installiert. Pin den Kernel mal wieder und reboote, danach nochmal gucken ob der andere Treiber aktiv ist.

Tigger-86 · Oct 18, 2023

leider noch der richtige..

Code:

root@Proxmox:~# proxmox-boot-tool kernel list
Manually selected kernels:
None.

Automatically selected kernels:
6.2.16-14-pve
6.2.16-15-pve
6.2.16-3-pve

Pinned kernel:
6.2.16-3-pve
root@Proxmox:~#

patte24h · Oct 18, 2023

Dann PIN wieder den 15er Kernel und reboote

proxmox-boot-tool kernel pin 6.2.16-15-pve

regelmäßiger Absturz des "Servers" und der Maschinen, nur reboot hilft - (HP ProDesk 400 G5 Mini - Realtek NIC) - solved

New Member

Attachments

Distinguished Member

New Member

New Member

New Member

Distinguished Member

New Member

New Member

New Member

New Member

New Member

New Member

New Member

New Member

New Member

New Member

New Member

New Member

New Member

New Member

We value your privacy