Sporadische Abstürze von Proxmox und/oder Netzwerkkarte und/oder nvme

CubeFan

New Member
Jan 12, 2023
13
0
1
Hallo zusammen,

langsam verzweifle ich.
Ich bin vor einiger Zeit auf die Version 8.0.4 von Proxmox geupdatet aber ich denke das es damit nicht zusammenhängt.

Ich fang mal ganz von vorne an. Anfangs hatte ich das Problem das es immer wieder Netzwerkaussetzer gab die ich bemerkt habe da meine Freundin und ihre Freunde regelmäßig vom Minecraft Server geflogen sind. Als ich in den Logs nachgesehen habe, habe ich diesen Eintrag gesehen "eno1: Detected Hardware Unit Hang" mir wurde dann geraten diesen Befehl auszuführen "ethtool -K eno1 gso off gro off tso off tx off rx off"

Dann war erstmal ruhe.

Als nächstes war dann das ich auf Version 8.0.4 geupdatet habe. Nach einiger Zeit hatte ich Probleme mit einer VM. Als ich in den Logs nachgesehen hatte habe ich nvme critical errors gesehen (leider habe ich die logs und die genaue Bezeichnung nicht zur Hand) Da die SSD nur noch 10% Restlebenszeit hatte laut S.M.A.R.T habe ich die SSD ausgebaut und auf eine andere geklont die noch 45% hat (Werte angehangen)
Es war dann ca 1-2 Tage Ruhe

Dann war es wieder so das die VMs und die GUI ohne vorankündigung und ohne das ich etwas in den Logs erkennen konnte nicht mehr erreichbar waren (14.10 gegen 17:40 Uhr, 17.10 gegen 3:30 Uhr, 18.10 gegen 2:27 Uhr. Logs sind angehangen)

Habt ihr ideen woran es liegen kann und was ich dagegen tun kann? Kann ich sein das ich defekte Datein mit geklont habe? Hat die SSD vielleicht auch einen weg? Sind Treiber falsch?

Achso bevor ich es vergesse, das ganze läuft auf einem Intel Nuc 10 Performance Kit | NUC10i7FNK
Wenn ich es richtig verstanden habe ist die Netzwerkkarte in den Logs mit e1000e bezeichnet.

Vorab vielen Dank! Wenn ihr noch irgendwas benötigt sagt einfach bescheid und ich liefer es nach. Ihr rettet mir echt den hintern denn ich habe auch Services Laufen die eigentlich 24/7 erreichbar sein müssen damit ich kein Datenverlust habe, z.B. Teslamate wo dann fahrten usw fehlen

Gruß
Cube
 

Attachments

  • Syslog15.10.txt
    695.9 KB · Views: 0
  • Syslog16.10.txt
    53.6 KB · Views: 0
  • Syslog17.10.txt
    281.6 KB · Views: 0
  • Syslog18.10.txt
    851.5 KB · Views: 0
  • nvme SMART.txt
    936 bytes · Views: 0
  • Package versions.txt
    1.5 KB · Views: 0
Hey, hat zwar nicht direkt mit Deinem Intel NUC zu tun, aber guck Dir mal meinen Threat an (Post 7, der erste Teil).

Ich vermute, dass der aktuelle Kernel auch bei Dir Probleme macht mit den Netzwerktreibern.

Teste mal, auf nen anderen Kernel runter zu gehen. In den Beiträgen, wo ich mir das abgelesen habe war auch von anderen NICs die Rede, die mit dem 8.0er Probleme bekommen haben.

Hier mal auszugsweise, wie:

Alles via Shell direkt auf dem Host:
1) Kernelliste ziehen und gucken was installiert ist, bei mir war nur der 6.2.16-15 installiert anfangs
root@proxmox:~# proxmox-boot-tool kernel list
Manually selected kernels:
None.

Automatically selected kernels:
6.2.16-15-pve
6.2.16-3-pve

Pinned kernel:
6.2.16-15-pve
2) 6.2.15-3-pve nachinstallieren
apt install pve-kernel-6.2.16-3-pve
proxmox-boot-tool kernel add pve-kernel-6.2.16-3-pve
3) danach den Kernel auch aktivieren
proxmox-boot-tool kernel pin 6.2.16-3-pve
4) Server rebooten und danach wieder mit dem Befehl aus 1 prüfen, ob der 6.2.16-3-pve Kernel "gepinnt" ist
 
Hey, danke für die info. Hatte den Threat auch gesehen aber dachte es ist ein anderes Problem.

Ich habe jetzt erstmal dieses versucht:
Die Datei "/etc/network/interfaces" um diesen Eintrag ergänzt
"auto eno1
iface eno1 inet manual
pre-up /usr/sbin/ethtool -K eno1 tso off gso off"

Mal schauen ob das was bringt. Ansonsten werde ich das mal mit dem Kernel versuchen.

Du hattest da auch geschrieben das du einen anderen Treiber installiert hast. Deinen kann ich nicht nehmen da ich eine andere Netzwerkkarte habe aber wie bist du auf den Treiber gekommen? ich wüsste gar nicht wie ich einen neueren finde.

Diese Infos habe ich zu meiner Karte gefunden:
journalctl -b 0 | grep e1000e
Oct 18 19:45:13 ProxmoxNuci7 kernel: e1000e: Intel(R) PRO/1000 Network Driver
Oct 18 19:45:13 ProxmoxNuci7 kernel: e1000e: Copyright(c) 1999 - 2015 Intel Corporation.
Oct 18 19:45:13 ProxmoxNuci7 kernel: e1000e 0000:00:1f.6: Interrupt Throttling Rate (ints/sec) set to dynamic conservative mode
Oct 18 19:45:13 ProxmoxNuci7 kernel: e1000e 0000:00:1f.6 0000:00:1f.6 (uninitialized): registered PHC clock
Oct 18 19:45:13 ProxmoxNuci7 kernel: e1000e 0000:00:1f.6 eth0: (PCI Express:2.5GT/s:Width x1) 1c:69:7a:66:93:d9
Oct 18 19:45:13 ProxmoxNuci7 kernel: e1000e 0000:00:1f.6 eth0: Intel(R) PRO/1000 Network Connection
Oct 18 19:45:13 ProxmoxNuci7 kernel: e1000e 0000:00:1f.6 eth0: MAC: 13, PHY: 12, PBA No: FFFFFF-0FF
Oct 18 19:45:13 ProxmoxNuci7 kernel: e1000e 0000:00:1f.6 eno1: renamed from eth0
Oct 18 19:45:18 ProxmoxNuci7 kernel: e1000e 0000:00:1f.6 eno1: NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx

ethtool -i eno1
driver: e1000e
version: 6.2.16-15-pve
firmware-version: 0.6-4
expansion-rom-version:
bus-info: 0000:00:1f.6
supports-statistics: yes
supports-test: yes
supports-eeprom-access: yes
supports-register-dump: yes
supports-priv-flags: yes

00:1f.6 Ethernet controller [0200]: Intel Corporation Ethernet Connection (10) I219-V [8086:0d4f]

Ich danke dir/euch
 
So, grad wieder ein Absturz gehabt aber so wie es aussieht ist es wirklich die ssd.

Kann man ein Backup vom Proxmox server machen und das dann bei der Installation wieder einspielen? Bin mir nicht sicher ob die SSD ein weg hat oder nur Datein defekt sind
 

Attachments

  • IMG_8340.jpg
    IMG_8340.jpg
    884.9 KB · Views: 6
da fehlt mit das Wissen zu, wegen der SSD was zu sagen. meines wissens nach muss man dafür nen proxmox backup server aufsetzen und damit auf nen anderen speicher die maschinen sichern
 
Naja mit dem Backup Server bekommst du die vm´s gebackupt aber nicht den host selber.
Ich habe nun eine neue SSD installiert und einige konfigs übernommen und dann die Backups wieder eingespielt.
Leider habe ich weiterhin diesen Fehler:
Oct 20 20:32:47 ProxmoxNuci7 kernel: e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang:
TDH <68>
TDT <f>
next_to_use <f>
next_to_clean <67>
buffer_info[next_to_clean]:
time_stamp <10008baea>
next_to_watch <68>
jiffies <10008c3e8>
next_to_watch.status <0>
MAC Status <40080083>
PHY Status <796d>
PHY 1000BASE-T Status <3800>
PHY Extended Status <3000>
PCI Status <10>
Oct 20 20:32:47 ProxmoxNuci7 kernel: e1000e 0000:00:1f.6 eno1: Reset adapter unexpectedly
Oct 20 20:32:48 ProxmoxNuci7 kernel: vmbr0: port 1(eno1) entered disabled state
Oct 20 20:32:51 ProxmoxNuci7 kernel: e1000e 0000:00:1f.6 eno1: NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx
Oct 20 20:32:51 ProxmoxNuci7 kernel: vmbr0: port 1(eno1) entered blocking state
Oct 20 20:32:51 ProxmoxNuci7 kernel: vmbr0: port 1(eno1) entered forwarding state
 
Last edited:

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!