[SOLVED] Probleme mit PVE auf WRX80 Chipset

cwt

Well-Known Member
May 30, 2022
612
162
53
Guten Morgen.

Wir haben kürzlich zwei PVE auf Gigabyte MC62-G40 Mainboards mit AMD Threadripper Pro 3975WX und 8x32GB ECC RAM in Betrieb genommen. PVE selbst ist auf einem ZFS RAID1 (SSDs) installiert. Für die VMs haben wir ein ZFS RAID1+0 aus PCIe 4.0 NVME erstellt.

PVE-Version ist 7.2-4

Die GUI ist bei Verbindung auf VM-Konsolen sehr träge, ebenso der Startvorgang von VMs. Bei Installationen bzw. Boot-Vorgängen von Linux-VMs erhalten wir u.a. folgende Fehlermeldungen in der Konsole:

Code:
pci_hp_register failed with error -16

Soviel ich weiß, betrifft der o.g. Fehler IOMMU. An die VM ist jedoch keine Hardware durchgereicht. Remapping ist laut Konsole aktiviert:

Code:
[    1.104109] AMD-Vi: Interrupt remapping enabled

Das BIOS sowie die Firmware der BMC sind auf dem neuesten Stand. Das Verhalten tritt in allen Kernel-Versionen auf (5.13.19-6-pve, 5.15.30-2-pve, 5.15.35-1-pve).

Wir haben bereits andere WRX80-Boards mit Threadripper Pro in Betrieb, wo diese Probleme nicht auftreten.

Hat jemand vielleicht eine Idee, wo man hier noch ansetzen könnte?

Danke im Voraus!
 

Attachments

Debian 10/11, stimmts?
Dein besagter "Fehler" liegt am "veraltetem" Kernel von Debian.
Einfach ignorieren ;)
Danke für die Antwort.

Ja, die Linux VM, die wir testweise aufgesetzt haben, ist ein Debian 11.3.0.

Das erklärt aber noch nicht das Verhalten der extrem trägen GUI/Konsole. Dieses Phänomen haben wir bei allen OS in den VMs (Debian, Ubuntu, Windows 1X, Windows Server 20XX). Wie bereits erwähnt, treten diese Symptome bei den anderen Boards mit WRX80 nicht auf. Auch der "IOMMU"-Fehler nicht.
 
Naja, erstmal die Themen trennen.
Wie sind deine Bonds aufgebaut?
Die onboard Gbit NIC ist als Management-Schnittstelle eingerichtet (vmbr0), statische IP.

2x10Gbit Intel X550 als bond0 (LACP Layer 2+3) wiederum als vmbr1 (VLAN aware, ohne IP-Zuweisung). Diese Bridge wird von den VMs verwendet.
 
So nebenbei, welchen Firmwarestand haben deine X550?
EDIT: ah, die sind Onboard?

Weil:
Code:
[ 2261.055359] vmbr1: port 2(fwpr300p0) entered blocking state
[ 2261.055781] vmbr1: port 2(fwpr300p0) entered disabled state
[ 2261.056202] device fwpr300p0 entered promiscuous mode
[ 2261.056742] device bond0 entered promiscuous mode
[ 2261.057084] device enp106s0f0 entered promiscuous mode
[ 2261.058143] device enp106s0f1 entered promiscuous mode
[ 2272.336951] vmbr1: port 2(fwpr300p0) entered blocking state
[ 2272.345105] vmbr1: port 2(fwpr300p0) entered forwarding state
[ 2272.363805] fwbr300i0: port 1(fwln300i0) entered blocking state
[ 2272.364246] fwbr300i0: port 1(fwln300i0) entered disabled state
[ 2272.365805] device fwln300i0 entered promiscuous mode
[ 2272.379616] fwbr300i0: port 1(fwln300i0) entered blocking state
[ 2272.388776] fwbr300i0: port 1(fwln300i0) entered forwarding state
[ 2272.399791] fwbr300i0: port 2(tap300i0) entered blocking state
[ 2272.400265] fwbr300i0: port 2(tap300i0) entered disabled state
[ 2272.400730] fwbr300i0: port 2(tap300i0) entered blocking state
[ 2272.401080] fwbr300i0: port 2(tap300i0) entered forwarding state
[ 2357.233142] fwbr300i0: port 2(tap300i0) entered disabled state
[ 2357.265769] fwbr300i0: port 1(fwln300i0) entered disabled state
[ 2357.274652] vmbr1: port 2(fwpr300p0) entered disabled state
[ 2357.283673] device fwln300i0 left promiscuous mode
[ 2357.284040] fwbr300i0: port 1(fwln300i0) entered disabled state
[ 2357.303959] device fwpr300p0 left promiscuous mode
[ 2357.304384] vmbr1: port 2(fwpr300p0) entered disabled state
[ 2368.579679] device bond0 left promiscuous mode
[ 2368.580065] device enp106s0f0 left promiscuous mode
[ 2368.581131] device enp106s0f1 left promiscuous mode

Da gehts ja schön rund mit deiner Netzwerkconfig...

Code:
[   11.706598] igb 0000:64:00.0 enp100s0: igb: enp100s0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: RX
[   11.814291] vmbr0: port 1(enp100s0) entered blocking state
[   11.814775] vmbr0: port 1(enp100s0) entered forwarding state
[   11.823697] IPv6: ADDRCONF(NETDEV_CHANGE): vmbr0: link becomes ready
[   13.099314] ixgbe 0000:6a:00.0 enp106s0f0: NIC Link is Up 10 Gbps, Flow Control: None
[   13.178128] bond0: (slave enp106s0f0): link status definitely up, 10000 Mbps full duplex
[   13.178632] bond0: Warning: No 802.3ad response from the link partner for any adapters in the bond
[   13.182251] bond0: active interface up!
 
Last edited:
Da gehts ja schön rund mit deiner Netzwerkconfig...

Also wenn ich mir die Meldungen aus dem Bootvorgang auf anderen PVE Hosts anschaue, sieht das auch nicht viel anders aus. Selbst Singleport-Karten sind nie sofort "up". LACP nach 802.3ad wird bei Connects zwischen Switch und NIC-Ports "ausgehandelt" und steht meist nicht sofort zur Verfügung, oder sehe ich das falsch?
 
Gute Frage, aber die 802.3ad Fehler würden mir zumindest Sorgen machen.
Du kannst ja mal testweise die Bonds auf active-backup umstellen und dann das Verhalten überprüfen.
 
Last edited:
Am LACP lag es definitiv nicht. Das funktioniert wie gewünscht und verteilt die Lasten wie es soll. Auch mit deaktiertem Bond war es träge, also „jungfräulichen“ NICs ohne Config.

Was aber Abhilfe geschafft hat, war das Aufspielen eines neuen VBIOS für die ASPEED 2600 (Stand vom 04.05.2022).
 
  • Like
Reactions: ITT

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!