Hallo zusammen!
Ich betreibe Proxmox 5.4 auf mehreren Siemens SIMATIC Servern. Dieser hat zwei
NICs, eine Intel I219-LM (Treiber e1000e) und eine Intel I210 (Treiber igb)
Ich bin nun leider auf ein Problem gestoßen, dass die e1000e-Karte sporadisch
die Verbindung verliert und das Interface daraufhin unbenutzbar wird.
Das Problem lässt sich durch einen Reboot lösen.
Es zeigen sich folgende Meldungen im dmesg-Log:
[969379.354719] e1000e 0000:00:1f.6 enp0s31f6: Detected Hardware Unit Hang:
TDH <0>
TDT <1>
next_to_use <1>
next_to_clean <0>
buffer_info[next_to_clean]:
time_stamp <10e70b940>
next_to_watch <0>
jiffies <10e70bd00>
next_to_watch.status <0>
MAC Status <80083>
PHY Status <796d>
PHY 1000BASE-T Status <3800>
PHY Extended Status <3000>
PCI Status <10>
Diese Meldung wiederholt sich alle paar Sekunden.
Ich vermute dass ein Zusammenhang mit dem Problem besteht wie es z.B. hier
beschrieben wurde:
https://forum.proxmox.com/threads/4-15-based-test-kernel-for-pve-5-x-available.42097/
Aus dem Post werde ich leider nicht ganz schlau, welcher Kernel und welches
Treiberset aktuell genutzt wird:
* Ubuntu Bionic Kernel? Welche Version?
* e1000e Mainline-Treiber aus dem Kernel oder out-of-tree Treiber?
Dadurch habe ich das Problem noch nicht tiefgreifend debuggen können.
Der Kernel hat anscheinend einen relativ neuen Fix für ein zumindest ähnliches
Problem: httpsgithubcom/torvalds/linux/commit/d17ba0f616a08f597d9348c372d89b8c0405ccf3#diff-bbd673d366a4193e144774248cd33354
Vielleicht kann man den ja backporten?
Desweiteren habe ich ein Errata-Dokument von Intel gefunden.
Dieser Fix sollte jedoch auf jeden Fall in dem Bionic-Kernel bereits enthalten
sein, daher gehe ich davon aus dass es sich hier um ein ähnliches, aber nicht identisches Problem handelt:
httpswwwintelcom/content/dam/www/public/us/en/documents/specification-updates/i218-i219-ethernet-connection-spec-update.pdf
(Abschnitt 5)
httpsgithubcom/torvalds/linux/commit/b10effb92e272051dd1ec0d7be56bf9ca85ab927
(zugehöriger Fix im Kernel)
Zusätzlich haben wir das Problem, dass die Server mit Proxmox nur booten können,
wenn ein Monitor angeschlossen ist. Andere Distributionen haben dieses Problem
nicht, sodass Probleme mit Hardware oder BIOS imo ausgeschlossen werden können.
Ich denke dieses Problem ist aber nicht verwandt,
Soll ich für das Boot-Problem einen eigenen Post machen?
Schöne Grüße
P.S: Sorry für kaputte Links, als neue User kann ich keine Referenzen posten
Ich betreibe Proxmox 5.4 auf mehreren Siemens SIMATIC Servern. Dieser hat zwei
NICs, eine Intel I219-LM (Treiber e1000e) und eine Intel I210 (Treiber igb)
Ich bin nun leider auf ein Problem gestoßen, dass die e1000e-Karte sporadisch
die Verbindung verliert und das Interface daraufhin unbenutzbar wird.
Das Problem lässt sich durch einen Reboot lösen.
Es zeigen sich folgende Meldungen im dmesg-Log:
[969379.354719] e1000e 0000:00:1f.6 enp0s31f6: Detected Hardware Unit Hang:
TDH <0>
TDT <1>
next_to_use <1>
next_to_clean <0>
buffer_info[next_to_clean]:
time_stamp <10e70b940>
next_to_watch <0>
jiffies <10e70bd00>
next_to_watch.status <0>
MAC Status <80083>
PHY Status <796d>
PHY 1000BASE-T Status <3800>
PHY Extended Status <3000>
PCI Status <10>
Diese Meldung wiederholt sich alle paar Sekunden.
Ich vermute dass ein Zusammenhang mit dem Problem besteht wie es z.B. hier
beschrieben wurde:
https://forum.proxmox.com/threads/4-15-based-test-kernel-for-pve-5-x-available.42097/
Aus dem Post werde ich leider nicht ganz schlau, welcher Kernel und welches
Treiberset aktuell genutzt wird:
* Ubuntu Bionic Kernel? Welche Version?
* e1000e Mainline-Treiber aus dem Kernel oder out-of-tree Treiber?
Dadurch habe ich das Problem noch nicht tiefgreifend debuggen können.
Der Kernel hat anscheinend einen relativ neuen Fix für ein zumindest ähnliches
Problem: httpsgithubcom/torvalds/linux/commit/d17ba0f616a08f597d9348c372d89b8c0405ccf3#diff-bbd673d366a4193e144774248cd33354
Vielleicht kann man den ja backporten?
Desweiteren habe ich ein Errata-Dokument von Intel gefunden.
Dieser Fix sollte jedoch auf jeden Fall in dem Bionic-Kernel bereits enthalten
sein, daher gehe ich davon aus dass es sich hier um ein ähnliches, aber nicht identisches Problem handelt:
httpswwwintelcom/content/dam/www/public/us/en/documents/specification-updates/i218-i219-ethernet-connection-spec-update.pdf
(Abschnitt 5)
httpsgithubcom/torvalds/linux/commit/b10effb92e272051dd1ec0d7be56bf9ca85ab927
(zugehöriger Fix im Kernel)
Zusätzlich haben wir das Problem, dass die Server mit Proxmox nur booten können,
wenn ein Monitor angeschlossen ist. Andere Distributionen haben dieses Problem
nicht, sodass Probleme mit Hardware oder BIOS imo ausgeschlossen werden können.
Ich denke dieses Problem ist aber nicht verwandt,
Soll ich für das Boot-Problem einen eigenen Post machen?
Schöne Grüße
P.S: Sorry für kaputte Links, als neue User kann ich keine Referenzen posten