vmbr0 fällt aus - alle VMs nicht erreichbar

funkquelle

Member
Apr 22, 2020
4
0
6
62
Hallo, ich habe hier ein Problem mit einer VE wo ich die Logs nicht deuten kann. Die VE ist neu aufgesetzt und auf dem aktuellen Stand. Die VE ist über SFP+ an einem Ubiquiti Switch mit SFP+ angeschlossen. Vielleicht kann mir jemand helfen.

Folgendes passiert ab und an: die Bridge vmbr0 über Intel Netzwerkkarte fällt aus und alle Maschinen auf dem Node sind nicht mehr erreichbar. Die VE ist aber weiterhin erreichbar. Nach Neustart des gesamten Systems funktioniert wieder alles.

Code:
Dec 19 11:08:02 pve1 kernel: ice 0000:17:00.0 irdma0: ICE OICR event notification: oicr = 0x04000003
Dec 19 11:08:02 pve1 kernel: ice 0000:17:00.0 irdma0: HMC Error
Dec 19 11:08:02 pve1 kernel: ice 0000:17:00.0 irdma0: Requesting a reset
Dec 19 11:08:02 pve1 kernel: ice 0000:17:00.0: Removed PTP clock
Dec 19 11:08:02 pve1 kernel: ice 0000:17:00.0: Clearing default VSI, re-enable after reset completes
Dec 19 11:08:03 pve1 kernel: vmbr0: port 1(ens259f0) entered disabled state
Dec 19 11:08:03 pve1 kernel: ice 0000:17:00.0: PTP init successful
Dec 19 11:08:05 pve1 kernel: ice 0000:17:00.0: VSI rebuilt. VSI index 0, type ICE_VSI_PF
Dec 19 11:08:05 pve1 kernel: ice 0000:17:00.0: VSI rebuilt. VSI index 383, type ICE_VSI_CTRL
Dec 19 11:08:05 pve1 kernel: vmbr0: port 1(ens259f0) entered blocking state
Dec 19 11:08:05 pve1 kernel: vmbr0: port 1(ens259f0) entered forwarding state
Dec 19 11:11:17 pve1 pvedaemon[119368]: <root@pam> successful auth for user 'root@pam'


Code:
root@pve1:~# lspci -nnk | grep Eth -C 2
16:04.0 PCI bridge [0604]: Intel Corporation Device [8086:347c] (rev 04)
        Kernel driver in use: pcieport
17:00.0 Ethernet controller [0200]: Intel Corporation Ethernet Controller E810-XXV for SFP [8086:159b] (rev 02)
        Subsystem: Intel Corporation Ethernet Network Adapter E810-XXV-2 for OCP 3.0 [8086:0005]
        Kernel driver in use: ice
        Kernel modules: ice
17:00.1 Ethernet controller [0200]: Intel Corporation Ethernet Controller E810-XXV for SFP [8086:159b] (rev 02)
        Subsystem: Intel Corporation Ethernet Network Adapter E810-XXV-2 for OCP 3.0 [8086:0005]
        Kernel driver in use: ice
        Kernel modules: ice
root@pve1:~#
 
Das scheint ein aktueller bug zu sein.
https://lore.kernel.org/netdev/20221213171834.682641c3@kernel.org/T/
8) Free coalesce param in rebuild. There is potential memory leak if configuration of VSI lan fails. Free coalesce to avoid it.

Allerdings kenne ich mich mit rdma nicht aus und kann mit VSI nichts anfangen. Ich könnte mir aber denken, dass der Ubiquity damit auch nichts anfangen kann und du somit in den memleak rennst.
Hat die Karte vielleicht BIOS-Settings, um das irgendwie in der Richtung abzuschalten?
Hier gibts ein Ethernet-Port-Konfigurationstool, gut möglich, dass du damit weiterkommst: https://www.intel.de/content/www/de...net-network-adapter-e810xxvda2/downloads.html

Edit: wenn es da neue Firmware für die Karte gibt, würde ich das auch gleich machen
 
Last edited:
Das scheint ein aktueller bug zu sein.
https://lore.kernel.org/netdev/20221213171834.682641c3@kernel.org/T/


Allerdings kenne ich mich mit rdma nicht aus und kann mit VSI nichts anfangen. Ich könnte mir aber denken, dass der Ubiquity damit auch nichts anfangen kann und du somit in den memleak rennst.
Hat die Karte vielleicht BIOS-Settings, um das irgendwie in der Richtung abzuschalten?
Hier gibts ein Ethernet-Port-Konfigurationstool, gut möglich, dass du damit weiterkommst: https://www.intel.de/content/www/de...net-network-adapter-e810xxvda2/downloads.html

Edit: wenn es da neue Firmware für die Karte gibt, würde ich das auch gleich machen
Vielen Dank für die Info - das hört sich ja mächtig kompliziert an. Würde ein passender Switch etwas bringen der mit rdma und vsi etwas anfangen kann?

Danke Frank
 
Last edited:
Würde ein passender Switch etwas bringen der mit rdma und vsi etwas anfangen kann?
Der Switch ist ja nicht 'schuld' und er hat den bug nicht (steckt im NIC-Treiber, hier ice). Natürlich sofern das auch so ist, wie ich das denke. Da würde ich eher die NIC austauschen und generell würde ich sagen, dass man rdma für proxmox nicht braucht bzw. gar nicht verwenden kann.
Dazu kenne ich mich aber echt zu wenig aus mit rdma, da wäre es gut wenn hier jemand noch was sagt, der sich damit auskennt.

Bevor ich aber Geld in die Hand nehme, würde ich dennoch mal in das Ethernet-Port-Konfigurationstool reinschauen. In meiner Vorstellung könnte das ähnlich einfach sein wie z.B. WoL an einem Port auszuschalten.
 
Der Switch ist ja nicht 'schuld' und er hat den bug nicht (steckt im NIC-Treiber, hier ice). Natürlich sofern das auch so ist, wie ich das denke. Da würde ich eher die NIC austauschen und generell würde ich sagen, dass man rdma für proxmox nicht braucht bzw. gar nicht verwenden kann.
Dazu kenne ich mich aber echt zu wenig aus mit rdma, da wäre es gut wenn hier jemand noch was sagt, der sich damit auskennt.

Bevor ich aber Geld in die Hand nehme, würde ich dennoch mal in das Ethernet-Port-Konfigurationstool reinschauen. In meiner Vorstellung könnte das ähnlich einfach sein wie z.B. WoL an einem Port auszuschalten.
ok, verstanden. Netzwerkkarte ist eine Intel® Ethernet Network Adapter E810-XXVDA2 for OCP 3.0, der Server einer der Intel® Server M50CYP Family. Da sich die Maschine schon im produktiven Betrieb befindet ist das immer sehr heikel. Mit dem Ethernet-Port-Konfigurationstool meinst epct64e? Ich habe dazu kaum Informationen oder eine Anleitung im Netz gefunden. Gibt es zu dem Tool irgenwelche Anleitungen?

root@pve1:~# ethtool ens259f0
Settings for ens259f0:
Supported ports: [ FIBRE ]
Supported link modes: 1000baseT/Full
10000baseT/Full
25000baseCR/Full
25000baseSR/Full
1000baseX/Full
10000baseSR/Full
10000baseLR/Full
Supported pause frame use: Symmetric
Supports auto-negotiation: No
Supported FEC modes: None
Advertised link modes: 10000baseSR/Full
Advertised pause frame use: No
Advertised auto-negotiation: No
Advertised FEC modes: None
Speed: 10000Mb/s
Duplex: Full
Auto-negotiation: off
Port: FIBRE
PHYAD: 0
Transceiver: internal
Supports Wake-on: g
Wake-on: d
Current message level: 0x00000007 (7)
drv probe link
Link detected: yes
 
Mit dem Ethernet-Port-Konfigurationstool meinst epct64e? Ich habe dazu kaum Informationen oder eine Anleitung im Netz gefunden. Gibt es zu dem Tool irgenwelche Anleitungen?
Der Link zu Intel von mir weiter oben ist exakt für die Karte. Was und ob aus der Liste der Downloads jetzt genau helfen kann, weiß ich nicht. Best guess wäre von dort das besagte Tool (da steht nur Ethernet-Port-Konfigurationstool), mal die readme reinziehen oder generell mal nach rdma und dem Kartentyp googlen.
Es kann natürlich auch sein, dass der bug (sofern das überhaupt das Problem ist) morgen gefixt ist oder man rdma erst gar nicht deaktivieren kann.

Von anderen NICs kenne ich es auch, dass man für unterschiedliche Betriebsmodi an den Ports jeweils andere Firmware flasht und man das nicht einfach mit einem Softschalter wechseln kann.
 
Der Link zu Intel von mir weiter oben ist exakt für die Karte. Was und ob aus der Liste der Downloads jetzt genau helfen kann, weiß ich nicht. Best guess wäre von dort das besagte Tool (da steht nur Ethernet-Port-Konfigurationstool), mal die readme reinziehen oder generell mal nach rdma und dem Kartentyp googlen.
Es kann natürlich auch sein, dass der bug (sofern das überhaupt das Problem ist) morgen gefixt ist oder man rdma erst gar nicht deaktivieren kann.

Von anderen NICs kenne ich es auch, dass man für unterschiedliche Betriebsmodi an den Ports jeweils andere Firmware flasht und man das nicht einfach mit einem Softschalter wechseln kann.
Vielen Dank erst mal für deine Zeit und Hilfe. Nach langem hin- und her ist die Entscheidung auf eine Broadcom N225P (OCP 3.0) gefallen.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!