Netzwerk alle paar Tage weg. Proxmox und VMs nicht mehr erreichbar

Hallo @An.drea,

zu deinem e1000e-Problem — der Interfacename-Wechsel (enp0s25eno1) ist nur kosmetisch und löst das Grundproblem nicht. Die "Hardware Unit Hang"-Meldungen deuten auf den gleichen bekannten Bug hin.

Bewährter Workaround — TSO persistent deaktivieren:
In /etc/network/interfaces beim betroffenen Interface ergänzen:
Code:
iface eno1 inet static
    ...
    post-up /usr/sbin/ethtool -K eno1 tso off gso off gro off
Danach ifreload -a oder Neustart.

Alternativ unter PVE 9 den 6.14er Kernel testen:
Code:
apt install proxmox-kernel-6.14
proxmox-boot-tool kernel pin 6.14
reboot
Falls das nicht reicht, zusätzlich TSO deaktivieren.

Firmware-Version prüfen:
Code:
ethtool -i eno1
Intel bietet NVM-Updates an, die bei manchen NIC-Modellen helfen (wie @Falk R. bereits erwähnte).
 
Danke,

gehört "e1000e" zur Intel X550er-Reihe?

der problematische Server (HP ProDesk 600 G4) hat "0.5-4" und Proxmox 9.1.5. Der Reserve-Server ist identisch in Hard-, Firm- und OS, dort bisher keine Probleme, hat aber auch keine große Last.

Mein Home-Proxmox (HP EliteDesk 800 G3) hat "0.1-4" und bis keine Probleme trotz intensiver Nutzung als Fileserver mit Openmediavault in einer QEMU-VM. Ist aber noch Proxmox 8.4.16.

Liebe Grüße
An.drea
 
Hallo @Raoul1963,

reguläre Updates über apt dist-upgrade könnt ihr bedenkenlos machen — der gepinnte Kernel wird dadurch nicht verändert. Es wird zwar ein neuer Kernel installiert, aber durch den Pin bootet das System weiterhin mit eurem funktionierenden Kernel. Sicherheitsupdates für Proxmox selbst und die restlichen Pakete solltet ihr auf jeden Fall weiter einspielen.

Das zugrundeliegende Problem ist eine bekannte Regression im e1000e-Treiber des Kernels 6.8.12-9-pve, die diverse Intel-NICs betrifft (Fujitsu Esprimo, Lenovo ThinkCentre, Intel NUC — alles Intel-Chipsätze).

@Karl_OS bezüglich der Frage, wie ihr mitbekommt ob der Bug gefixt ist: Ihr könnt den Opt-in Kernel 6.11 testen, der eine neuere Treiberversion mitbringt:

Code:
apt install pve-kernel-6.11

Danach den Pin auf den 6.11er Kernel setzen und rebooten. Falls das Netzwerk damit stabil bleibt, habt ihr euren Fix. Falls nicht, einfach wieder auf den alten Kernel zurückpinnen:

Code:
proxmox-boot-tool kernel pin 6.8.12-8-pve
proxmox-boot-tool refresh
reboot

Alternativ die Changelogs neuer 6.8er Kernel im Auge behalten — wenn dort explizit ein e1000e-Fix erwähnt wird, könnt ihr den Pin testweise entfernen.
 
  • Like
Reactions: An.drea