Server Netzwerk crasht immer random

Crayon

New Member
Mar 30, 2020
20
1
3
22
Hey Community,

ich habe leider aktuell immer wieder das Problem, dass anscheinend bei meinem Server das Netzwerk ständig crasht und der Server dann nicht mehr erreichbar ist, aber ansonsten noch läuft mit allen Prozessen. Ich habe hierbei das Problem auf einem Server von einigen.

Ich habe dazu einmal mit dmesg nachgeschaut, als ich den Server wieder erreichen konnte und habe dies gefunden:

https://hastebin.com/magefevofa.pl

Meine Idee war, dass evtl. der Treiber random crasht, dazu hatte ich diesen Beitrag gefunden https://itniels.com/2019/10/28/proxmox-5x-e1000-driver-hang-fix/, dies scheint aber nicht geholfen zu haben :/ Ich hatte ebenso in meiner Update History nachgeschaut, konnte jedoch nur Python Updates auffinden. Kann mir jemand hierbei bitte helfen?

Liebe Grüße,
Crayon.
 
Hat jemand eine weitere Idee, wo man einen genaueren Fehler noch suchen könnte oder kennt dieses Problem?
 
Hmm - der link (https://itniels.com/2019/10/28/proxmox-5x-e1000-driver-hang-fix/) bezieht sich auf intel nics, wohingegen in dem Server eine realtek verbaut ist...
das problem scheint zu sein, dass die NIC den link verliert und dann wieder bekommt ...
Code:
r8169 0000:04:00.0 enp4s0: link down
r8169 0000:04:00.0 enp4s0: link up

Das kann unterschiedliche Gründe haben - vl. mal das Kabel tauschen, oder am Switch (wenn managed) in den logs schauen.
ansonsten - helfen in solchen fällen auch firmware upgrades (BIOS/NIC/....)
Es ist auch einen Versuch wert auf einen neueren Kernel umzusteigen (alle updates von PVE installieren, wenn das nicht hilft auch mal mit dem neuen pve-kernel-5.4 versuchen (einfach mit `apt install pve-kernel-5.4` installieren und rebooten

Ich hatte sowas auch schon - in dem Fall war die NIC kaputt und musste getauscht werden.

Ich hoffe das hilft!
 
  • Like
Reactions: Crayon
Hey Stoiko,

vielen Dank für deine Rückmeldung! Auf dem Server habe ich bereits Proxmox VE 5.4-13 drauf, also denke ich nicht, dass hierbei da Update etwas bringen wird. Ich habe einmal die Switch Logs anschauen und ggf. das Netzwerkkabel austauschen. Vielen Dank erstmals! :)

PS: Hoffe das die NIC nicht kaputt ist, da darf ich ein neues Mainboard kaufen -_-
 
Aber eine Frage bleibt mir noch offen, wenn er das Signal wieder findet, wieso passiert es dann zufällig, dass er es nicht mehr findet und dann der Server resettet werden muss?
 
Auf dem Server habe ich bereits Proxmox VE 5.4-13
vielleicht bei der Gelegenheit auch gleich auf PVE 6 upgraden (5.4 wird in ein paar monaten EOL gehen)
siehe https://pve.proxmox.com/pve-docs/chapter-pve-faq.html (EOL notice)
und https://pve.proxmox.com/wiki/Upgrade_from_5.x_to_6.0

PS: Hoffe das die NIC nicht kaputt ist, da darf ich ein neues Mainboard kaufen -_-
vl. hat das mainboard noch einen PCI-e slot - da könnte eine weitere NIC verbaut werden
 
  • Like
Reactions: Crayon
PVE 6 kann ich leider aktuell noch nicht benutzten, da ich ein Webinterface für virtuelle Server verwende, welches aktuell nur für PVE 5.4 funktioniert und noch ein Update benötigt. Aber auf anderen Servern klappt dies auch ohne Probleme. Der Switch legt, wie ich nachgeschaut habe, keine Logs an, ich werde jedoch einmal ggf. das Kabel erstmal wechseln und schauen, wie es dann die nächsten Tage ausschaut :)
 
vielleicht bei der Gelegenheit auch gleich auf PVE 6 upgraden (5.4 wird in ein paar monaten EOL gehen)
siehe https://pve.proxmox.com/pve-docs/chapter-pve-faq.html (EOL notice)
und https://pve.proxmox.com/wiki/Upgrade_from_5.x_to_6.0


vl. hat das mainboard noch einen PCI-e slot - da könnte eine weitere NIC verbaut werden

Ah wie ich sehe habe ich mich vertan, im Web GUI steht VE 5.4-13 und mit pveversion -v hat der Kernel die Version 4.15.18. Also Proxmox 5 und dann der Kernel 4.15.18 richtig? Ist der Kernel 5.4 überhaupt mit Proxmox 5 möglich? Oder verstehe ich dies grad eben falsch
 
neue Spameinträge in dmesg

Code:
[ 9324.386268] nf_conntrack: nf_conntrack: table full, dropping packet
[ 9324.856519] nf_conntrack: nf_conntrack: table full, dropping packet
[ 9325.014484] nf_conntrack: nf_conntrack: table full, dropping packet
[ 9325.019121] nf_conntrack: nf_conntrack: table full, dropping packet
[ 9325.372858] nf_conntrack: nf_conntrack: table full, dropping packet
[ 9325.474809] nf_conntrack: nf_conntrack: table full, dropping packet
[ 9325.483141] nf_conntrack: nf_conntrack: table full, dropping packet
[ 9325.495228] nf_conntrack: nf_conntrack: table full, dropping packet
[ 9325.496348] nf_conntrack: nf_conntrack: table full, dropping packet
[ 9325.580931] nf_conntrack: nf_conntrack: table full, dropping packet
[ 9325.587456] nf_conntrack: nf_conntrack: table full, dropping packet
 
Ist der Kernel 5.4 überhaupt mit Proxmox 5 möglich?
Möglich vielleicht - aber so gut wie ungetestet - da würde ich eher auf PVE 6 upgraden (sobald es möglich ist).

[ 9324.386268] nf_conntrack: nf_conntrack: table full, dropping packet

das könnte die Situation erklären - da ist die conntracking table voll (wir haben die Limits unlängst (Oktober 2019) höher gestellt ) (von 65536 auf 262144).

(sollte sich in der GUI unter Host->Firewall->Options setzen lassen) - wenn nicht die pve-firewall verwendet wird sollte es so wie hier beschrieben funktionieren:
https://security.stackexchange.com/questions/43205/nf-conntrack-table-full-dropping-packet
 
  • Like
Reactions: Crayon
Okay das Problem ist soeben leider wieder aufgetreten :/ Hat also leider nichts gebracht..hm.. Da wäre jetzt der Austausch des Netzwerkkabels die einzige Möglichkeit noch oder evtl. die NIC austauschen, oder? Wobei ich mir das nicht vorstellen kann, da es ja jetzt 3 Tage lieft, komischer passiert dies aber meist nur in der Nacht habe ich das dumpfe Gefühl
 
@Stoiko Ivanov leider hatte ich wieder das Problem :/ Ich habe aber etwas in den Logs gefunden, was vor dem Timeout passiert ist:

Apr 5 19:31:00 ProxmoxHost systemd[1]: Starting Proxmox VE replication runner...
Apr 5 19:31:00 ProxmoxHost systemd[1]: Started Proxmox VE replication runner.
Apr 5 19:32:00 ProxmoxHost systemd[1]: Starting Proxmox VE replication runner...
Apr 5 19:32:00 ProxmoxHost systemd[1]: Started Proxmox VE replication runner.
Apr 5 19:32:21 ProxmoxHost rrdcached[1707]: flushing old values
Apr 5 19:32:21 ProxmoxHost rrdcached[1707]: rotating journals
Apr 5 19:32:21 ProxmoxHost rrdcached[1707]: started new journal /var/lib/rrdcached/journal/rrd.journal.1586100741.433075
Apr 5 19:32:21 ProxmoxHost rrdcached[1707]: removing old journal /var/lib/rrdcached/journal/rrd.journal.1586093541.433065
Apr 5 19:32:21 ProxmoxHost pmxcfs[1973]: [dcdb] notice: data verification successful
 
Gibt es noch irgendwelche anderen Logs, welche mehr verraten könnten?
also wenn im `dmesg` nichts verdächtiges steht und auch das journal (`journalctl -b`) nichts steht würde ich mal beim switch nachsehen (wobei wenn der link down ist sollte sich das im dmesg sehen lassen)

Ich habe aber etwas in den Logs gefunden, was vor dem Timeout passiert ist:
Die Meldungen sehen ganz normal aus - leider kein Hinweis, was nicht stimmen könnte.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!