VM & LXC sporadisch nicht erreichbar!

djcroman

New Member
Sep 29, 2024
2
0
1
Hallo an alle,
ich benötige nun dringend Hilfe, da ich leider nicht weiterkomme.
Ich habe 2 Proxmox Server am laufen. 2 komplette Unterschiedliche Systeme. Auf beiden läuft das neueste PVE mit neuestem Kernel.
Jetzt steigen immer wieder die VMs und auch LXCs aus. Nicht immer die selben, aber auf beiden Maschinen.
Was aber gleich ist, dass es meistens morgens passiert zwischen 9 und 11 Uhr.
Ich habe bereits so viele Logs durchgesehen aber ich konnte keinerlei Hinweise zu den Fehlern finden.
Könnt ihr mir vielleicht weiterhelfen, wo ich noch nach den Fehlern schauen kann?
In einem Server ist eine Intel LAN Karte verbaut aber wird nicht benutzt. In beiden sind 2.5G LAN Karten mit Realtek Chip verbaut.
Die betroffenen VMs sind dann über Shell noch erreichbar aber nicht über PING oder Weboberfläche.
Auf den beiden Screenshots sieht man gut, wann sie aussteigen. (Hab extra UptimeKuma laufen um die Ausfälle zu beobachten)
PS: es läuft ein Script, der die Container Neu startet, sobald sie ausfallen. Aus diesem Grund sind sie meistens kurz darauf wieder Online.
Ist aber auf Dauer auch nicht die Lösung.

Bin für jede Hilfe Dankbar.

PPS: Bin nicht wirklich ein Profi, bin aber bereits zu lernen :)
 

Attachments

  • 2025-06-09 12_44_51-Uptime Kuma - Wavebox.jpg
    2025-06-09 12_44_51-Uptime Kuma - Wavebox.jpg
    52.2 KB · Views: 12
  • 2025-06-09 12_44_03-Uptime Kuma - Wavebox.jpg
    2025-06-09 12_44_03-Uptime Kuma - Wavebox.jpg
    61.4 KB · Views: 12
Tipp, alles bitte ganz genau von Hardware bis ins kleinste Detail der Software Config und Nutzung beschreiben.
Was man dort liest, kommt bei mir so an: eine unbekannte Software ist im lokalen, nicht gerouteten Netz nicht erreichbar.
Andere Schreiben dann von einer "Glaskugel" (Gleichnis) die gerade ausgefallen ist.
Ich kann mich hier nicht eindenken.
Bitte daran denken, der Mitleser kennt nichts vom Hardware und Software-Setup auf deiner Hobbyseite.
 
Last edited:
  • Like
Reactions: UdoB
Ich würde mal Netzwerk vermuten, aber ist schwer zu sagen. Läuft zwischen 9 und 11 etwas besonderes? Backup? Virenscan? Egal was, alles checken.
 
Ich hatte mal vor paar Monaten dasselbe Szenario und habe auch einige Wochen gesucht, schlussendlich hatte ich die Ports gewechselt von den betroffenen Diensten welche fast "identisch" waren und diesen eine grössere Range/Abstand zu den anderen gegeben. Aber ob das auch bei dir zutrifft kann ich leider nicht sagen...
 
Weiß echt nicht mehr, wo ich noch suchen soll. Gefühlt habe ich alle Logs durch.
Was mir aber aufgefallen ist, es ist nicht um die selbe Uhrzeit, sondern ca. 24 Stunden nach dem Neustart. Es muss also irgendwas laufen, alle 24 Stunden.
 
Hello
hab ähnliches Issue.
  • 3 Node Cluster
  • alle haben aktuelle 8.4.1 / Linux 6.8.12-11-pve und bekommen laufend Updates
    • A - 2 idente DIY Server
    • Issues:alle "paar Stunden" sind weder PVE Web noch die VMs für paar Minuten NICHT erreichbar. + Webshell friert auch immer wieder einfach ein.
      • MB: Supermicro H13SAE-MF, CPU: AMD EPYC 4344P, RAM: 62GB echtes ECC
        • Dual 1Gbit LAN (i210 AT)
          • 1x genutzt mit OVS Bridge mit VLAN Trunk auf den Switch. Jeder Port/VM steckt in eigenem VLAN.
            • 2 OVS IntPorts
              • PVE Mgmt
              • Corosync (ohne SVI)
            • 2 VMs
          • --> kein großer/viel Traffic drauf
          • 1x actuell ungenutzt
        • 1 Gbit LAN IPMI
          • erreichbar, keine Fehler im Log
        • Broadcom P225P - 2 x 25/10G SPF28
          • ungenutzt, da sich die Firmware nicht updaten lässt und somit auch die Treiber nicht
    • B - 1 Mini PC
    • dem geht nur langsam die Puste aus weil die 2 A oben herum zicken
      • Krücke aus China
        • 1x Realtek 2,5Gbit LAN
        • 1x Realtek 1Gbit LAN
        • rest ident wie oben
Wenn es Auftritt
  • Switch Virtual Interface = Gateway des jeweiligen VLAN
    • ist mit Ping erreichbar
      • vom PC
      • vom Switch
      • vom anderen Switch
  • Alles auf A NICHT.
  • StormControl ist nicht ausgelöst
  • Settings am Switch sind tripplechecked
  • Ports waren davor ohne Issue mit andere Clients in Verwendung
Bin kein Super-Guru in Linux .. aber finde nichts verdächtiges in den Logs von A.

Vorschläge zum testen oder Fragen? - Bin dafür offen und für Hilfe dankbar.
 
Hello
hab ähnliches Issue.
  • 3 Node Cluster
  • alle haben aktuelle 8.4.1 / Linux 6.8.12-11-pve und bekommen laufend Updates
    • A - 2 idente DIY Server
    • Issues:alle "paar Stunden" sind weder PVE Web noch die VMs für paar Minuten NICHT erreichbar. + Webshell friert auch immer wieder einfach ein.
      • MB: Supermicro H13SAE-MF, CPU: AMD EPYC 4344P, RAM: 62GB echtes ECC
        • Dual 1Gbit LAN (i210 AT)
Eventuell bist du von dem e1000e Bug betroffen.
  • 1x genutzt mit OVS Bridge mit VLAN Trunk auf den Switch. Jeder Port/VM steckt in eigenem VLAN.
    • 2 OVS IntPorts
      • PVE Mgmt
      • Corosync (ohne SVI)
    • 2 VMs
  • --> kein großer/viel Traffic drauf
  • 1x actuell ungenutzt
  • 1 Gbit LAN IPMI
    • erreichbar, keine Fehler im Log
  • Broadcom P225P - 2 x 25/10G SPF28
    • ungenutzt, da sich die Firmware nicht updaten lässt und somit auch die Treiber nicht
Verstehe ich nicht, ich habe ganz viele P225P im Einsatz, alle kann man Firmware updaten und funktionieren alle Tadellos.
  • B - 1 Mini PC
  • dem geht nur langsam die Puste aus weil die 2 Aoben herum zicken
    • Krücke aus China
      • 1x Realtek 2,5Gbit LAN
      • 1x Realtek 1Gbit LAN
      • rest ident wie oben
Wenn es Auftritt
  • Switch Virtual Interface = Gateway des jeweiligen VLAN
    • ist mit Ping erreichbar
      • vom PC
      • vom Switch
      • vom anderen Switch
  • Alles auf A NICHT.
  • StormControl ist nicht ausgelöst
  • Settings am Switch sind tripplechecked
  • Ports waren davor ohne Issue mit andere Clients in Verwendung
Bin kein Super-Guru in Linux .. aber finde nichts verdächtiges in den Logs von A.

Vorschläge zum testen oder Fragen? - Bin dafür offen und für Hilfe dankbar.
 
Eventuell bist du von dem e1000e Bug betroffen.

Verstehe ich nicht, ich habe ganz viele P225P im Einsatz, alle kann man Firmware updaten und funktionieren alle Tadellos.
Hello
wenn ich das richtig beurteile, wird bei die i210 AT der igb Treiber verwendet.
Im Log erscheint übrigens "igb 0000:09:00.0 netdev watchdog cpu 4 transmit queue timed out" - bei meiner suche im INet bin ich bisher nur über uralt Themen gestolpert. Werd meine Suche noch intensivieren.

Hab viel gutes gelesen über die P225P - deswegen auch meine Wahl.. nur scheinbar bissl zickig mit Proxmox.
Konnte mittlerweile mit der Anleitung und Tool von https://www.thomas-krenn.com/de/wiki/Known_Issues_Proxmox_VE_8.2
- die Karte auf Server A zum laufen bringen.
- die Karte auf Server B wird zwar "erfolgreich" aktualisiert - nach dem Neustart hat die Karte dennoch kein FW package lt niccli und wird als "nicht verwendbar" ausgewiesen. :/

Die 2 Karten sind ident
- zum gleichen Zeitpunkt gekauft
- sind gleiche charge
- hatten beide ab Werk die erste urralt FW drauf
 
Hi, ich mag den Workaround nicht so gern. Bei den Broadcom Karten mache ich das Update immer über die UEFI Shell. Einfach das flash tool und Firmwaredatei auf einen USB Stick und dann in der EFI Shell einfach das flash Tool ausführen.
 
Hi, ich mag den Workaround nicht so gern. Bei den Broadcom Karten mache ich das Update immer über die UEFI Shell. Einfach das flash tool und Firmwaredatei auf einen USB Stick und dann in der EFI Shell einfach das flash Tool ausführen.
Egal ob Update in Linux mit niccli oder auch über niccli_uefi .. immer der selbe fehler:

Package installation failed.
ERROR: Package update is not SUCCESSFUL!

EXIT CODE : 0B00303A
DESCRIPTION : Firmware image update failed
Command install failed.


Null dazu gefunden.. hab nirgends von Broadcom eine Auflistung der Exit codes gefunden und auch niemand anderen, der das problem hätte.

Der Broadcom Ansible installer hat auch keinen sinnvollen Fehler ausgespuckt.
 
Mit niccli habe ich auch keine gute Erfahrung.
Ich habe eben gesehen, dass Broadcom für UEFI auch nur noch niccli anbietet. Das gute alte flash tool ist verschwunden.

Kannst du die Netzwerkkarte einmal genau auslesen? Dieser Fehler tritt in der Regel nur auf wenn die Firmware nicht passt.

P.S. wenn das eine OCP Karte ist, brauchst du eine andere Firmware.
 
Last edited:
Mit niccli habe ich auch keine gute Erfahrung.
Ich habe eben gesehen, dass Broadcom für UEFI auch nur noch niccli anbietet. Das gute alte flash tool ist verschwunden.

Kannst du die Netzwerkkarte einmal genau auslesen? Dieser Fehler tritt in der Regel nur auf wenn die Firmware nicht passt.

P.S. wenn das eine OCP Karte ist, brauchst du eine andere Firmware.
sind PCIe .. Firware/Treiber package ist das korrekte .. aber selbst ein -force ändert nichts am fehler.