VM & LXC sporadisch nicht erreichbar!

djcroman · Jun 9, 2025

Hallo an alle,
ich benötige nun dringend Hilfe, da ich leider nicht weiterkomme.
Ich habe 2 Proxmox Server am laufen. 2 komplette Unterschiedliche Systeme. Auf beiden läuft das neueste PVE mit neuestem Kernel.
Jetzt steigen immer wieder die VMs und auch LXCs aus. Nicht immer die selben, aber auf beiden Maschinen.
Was aber gleich ist, dass es meistens morgens passiert zwischen 9 und 11 Uhr.
Ich habe bereits so viele Logs durchgesehen aber ich konnte keinerlei Hinweise zu den Fehlern finden.
Könnt ihr mir vielleicht weiterhelfen, wo ich noch nach den Fehlern schauen kann?
In einem Server ist eine Intel LAN Karte verbaut aber wird nicht benutzt. In beiden sind 2.5G LAN Karten mit Realtek Chip verbaut.
Die betroffenen VMs sind dann über Shell noch erreichbar aber nicht über PING oder Weboberfläche.
Auf den beiden Screenshots sieht man gut, wann sie aussteigen. (Hab extra UptimeKuma laufen um die Ausfälle zu beobachten)
PS: es läuft ein Script, der die Container Neu startet, sobald sie ausfallen. Aus diesem Grund sind sie meistens kurz darauf wieder Online.
Ist aber auf Dauer auch nicht die Lösung.

Bin für jede Hilfe Dankbar.

PPS: Bin nicht wirklich ein Profi, bin aber bereits zu lernen

news · Jun 9, 2025

Tipp, alles bitte ganz genau von Hardware bis ins kleinste Detail der Software Config und Nutzung beschreiben.
Was man dort liest, kommt bei mir so an: eine unbekannte Software ist im lokalen, nicht gerouteten Netz nicht erreichbar.
Andere Schreiben dann von einer "Glaskugel" (Gleichnis) die gerade ausgefallen ist.
Ich kann mich hier nicht eindenken.
Bitte daran denken, der Mitleser kennt nichts vom Hardware und Software-Setup auf deiner Hobbyseite.

Falk R. · Jun 9, 2025

Ich würde mal Netzwerk vermuten, aber ist schwer zu sagen. Läuft zwischen 9 und 11 etwas besonderes? Backup? Virenscan? Egal was, alles checken.

Arpxqq · Jun 9, 2025

Ich hatte mal vor paar Monaten dasselbe Szenario und habe auch einige Wochen gesucht, schlussendlich hatte ich die Ports gewechselt von den betroffenen Diensten welche fast "identisch" waren und diesen eine grössere Range/Abstand zu den anderen gegeben. Aber ob das auch bei dir zutrifft kann ich leider nicht sagen...

djcroman · Jun 10, 2025

Weiß echt nicht mehr, wo ich noch suchen soll. Gefühlt habe ich alle Logs durch.
Was mir aber aufgefallen ist, es ist nicht um die selbe Uhrzeit, sondern ca. 24 Stunden nach dem Neustart. Es muss also irgendwas laufen, alle 24 Stunden.

MrNobody_ · Jun 11, 2025

Hello
hab ähnliches Issue.

3 Node Cluster
alle haben aktuelle 8.4.1 / Linux 6.8.12-11-pve und bekommen laufend Updates
- A - 2 idente DIY Server
- Issues:alle "paar Stunden" sind weder PVE Web noch die VMs für paar Minuten NICHT erreichbar. + Webshell friert auch immer wieder einfach ein.
  - MB: Supermicro H13SAE-MF, CPU: AMD EPYC 4344P, RAM: 62GB echtes ECC
    - Dual 1Gbit LAN (i210 AT)
      - 1x genutzt mit OVS Bridge mit VLAN Trunk auf den Switch. Jeder Port/VM steckt in eigenem VLAN.
        
        2 OVS IntPorts
        
        PVE Mgmt
        
        Corosync (ohne SVI)
        
        2 VMs
      - --> kein großer/viel Traffic drauf
      - 1x actuell ungenutzt
    - 1 Gbit LAN IPMI
      - erreichbar, keine Fehler im Log
    - Broadcom P225P - 2 x 25/10G SPF28
      - ungenutzt, da sich die Firmware nicht updaten lässt und somit auch die Treiber nicht
- B - 1 Mini PC
- dem geht nur langsam die Puste aus weil die 2 A oben herum zicken
  - Krücke aus China
    - 1x Realtek 2,5Gbit LAN
    - 1x Realtek 1Gbit LAN
    - rest ident wie oben

Wenn es Auftritt

Switch Virtual Interface = Gateway des jeweiligen VLAN
- ist mit Ping erreichbar
  - vom PC
  - vom Switch
  - vom anderen Switch
Alles auf A NICHT.
StormControl ist nicht ausgelöst
Settings am Switch sind tripplechecked
Ports waren davor ohne Issue mit andere Clients in Verwendung

Bin kein Super-Guru in Linux .. aber finde nichts verdächtiges in den Logs von A.

Vorschläge zum testen oder Fragen? - Bin dafür offen und für Hilfe dankbar.

Falk R. · Jun 16, 2025

MrNobody_ said:
Hello
hab ähnliches Issue.

3 Node Cluster

alle haben aktuelle 8.4.1 / Linux 6.8.12-11-pve und bekommen laufend Updates

A - 2 idente DIY Server

Issues:alle "paar Stunden" sind weder PVE Web noch die VMs für paar Minuten NICHT erreichbar. + Webshell friert auch immer wieder einfach ein.

MB: Supermicro H13SAE-MF, CPU: AMD EPYC 4344P, RAM: 62GB echtes ECC

Dual 1Gbit LAN (i210 AT)

Eventuell bist du von dem e1000e Bug betroffen.

MrNobody_ said:
1x genutzt mit OVS Bridge mit VLAN Trunk auf den Switch. Jeder Port/VM steckt in eigenem VLAN.

2 OVS IntPorts

PVE Mgmt

Corosync (ohne SVI)

2 VMs

--> kein großer/viel Traffic drauf

1x actuell ungenutzt

1 Gbit LAN IPMI

erreichbar, keine Fehler im Log

Broadcom P225P - 2 x 25/10G SPF28

ungenutzt, da sich die Firmware nicht updaten lässt und somit auch die Treiber nicht

Verstehe ich nicht, ich habe ganz viele P225P im Einsatz, alle kann man Firmware updaten und funktionieren alle Tadellos.

MrNobody_ said:
B - 1 Mini PC

dem geht nur langsam die Puste aus weil die 2 Aoben herum zicken

Krücke aus China

1x Realtek 2,5Gbit LAN

1x Realtek 1Gbit LAN

rest ident wie oben

Wenn es Auftritt

Switch Virtual Interface = Gateway des jeweiligen VLAN

ist mit Ping erreichbar

vom PC

vom Switch

vom anderen Switch

Alles auf A NICHT.

StormControl ist nicht ausgelöst

Settings am Switch sind tripplechecked

Ports waren davor ohne Issue mit andere Clients in Verwendung

Bin kein Super-Guru in Linux .. aber finde nichts verdächtiges in den Logs von A.

Vorschläge zum testen oder Fragen? - Bin dafür offen und für Hilfe dankbar.

MrNobody_ · Jun 16, 2025

Falk R. said:
Eventuell bist du von dem e1000e Bug betroffen.

Verstehe ich nicht, ich habe ganz viele P225P im Einsatz, alle kann man Firmware updaten und funktionieren alle Tadellos.

Hello
wenn ich das richtig beurteile, wird bei die i210 AT der igb Treiber verwendet.
Im Log erscheint übrigens "igb 0000:09:00.0 netdev watchdog cpu 4 transmit queue timed out" - bei meiner suche im INet bin ich bisher nur über uralt Themen gestolpert. Werd meine Suche noch intensivieren.

Hab viel gutes gelesen über die P225P - deswegen auch meine Wahl.. nur scheinbar bissl zickig mit Proxmox.
Konnte mittlerweile mit der Anleitung und Tool von https://www.thomas-krenn.com/de/wiki/Known_Issues_Proxmox_VE_8.2
- die Karte auf Server A zum laufen bringen.
- die Karte auf Server B wird zwar "erfolgreich" aktualisiert - nach dem Neustart hat die Karte dennoch kein FW package lt niccli und wird als "nicht verwendbar" ausgewiesen. :/

Die 2 Karten sind ident
- zum gleichen Zeitpunkt gekauft
- sind gleiche charge
- hatten beide ab Werk die erste urralt FW drauf

Falk R. · Jun 16, 2025

Hi, ich mag den Workaround nicht so gern. Bei den Broadcom Karten mache ich das Update immer über die UEFI Shell. Einfach das flash tool und Firmwaredatei auf einen USB Stick und dann in der EFI Shell einfach das flash Tool ausführen.

MrNobody_ · Jun 16, 2025

Falk R. said:
Hi, ich mag den Workaround nicht so gern. Bei den Broadcom Karten mache ich das Update immer über die UEFI Shell. Einfach das flash tool und Firmwaredatei auf einen USB Stick und dann in der EFI Shell einfach das flash Tool ausführen.

Egal ob Update in Linux mit niccli oder auch über niccli_uefi .. immer der selbe fehler:

Package installation failed.
ERROR: Package update is not SUCCESSFUL!

EXIT CODE : 0B00303A
DESCRIPTION : Firmware image update failed
Command install failed.

Null dazu gefunden.. hab nirgends von Broadcom eine Auflistung der Exit codes gefunden und auch niemand anderen, der das problem hätte.

Der Broadcom Ansible installer hat auch keinen sinnvollen Fehler ausgespuckt.

Falk R. · Jun 16, 2025

Mit niccli habe ich auch keine gute Erfahrung.
Ich habe eben gesehen, dass Broadcom für UEFI auch nur noch niccli anbietet. Das gute alte flash tool ist verschwunden.

Kannst du die Netzwerkkarte einmal genau auslesen? Dieser Fehler tritt in der Regel nur auf wenn die Firmware nicht passt.

P.S. wenn das eine OCP Karte ist, brauchst du eine andere Firmware.

MrNobody_ · Jun 16, 2025

Falk R. said:
Mit niccli habe ich auch keine gute Erfahrung.
Ich habe eben gesehen, dass Broadcom für UEFI auch nur noch niccli anbietet. Das gute alte flash tool ist verschwunden.

Kannst du die Netzwerkkarte einmal genau auslesen? Dieser Fehler tritt in der Regel nur auf wenn die Firmware nicht passt.

P.S. wenn das eine OCP Karte ist, brauchst du eine andere Firmware.

sind PCIe .. Firware/Treiber package ist das korrekte .. aber selbst ein -force ändert nichts am fehler.

VM & LXC sporadisch nicht erreichbar!

djcroman

New Member

Attachments

news

Famous Member

Falk R.

Distinguished Member

Arpxqq

New Member

djcroman

New Member

MrNobody_

New Member

Falk R.

Distinguished Member

MrNobody_

New Member

Falk R.

Distinguished Member

MrNobody_

New Member

Falk R.

Distinguished Member

MrNobody_

New Member

We value your privacy