Network Probleme nach update auf 8.2.2

gio2022

Member
Mar 29, 2022
58
3
13
Hallo zusammen,
ich habe gestern einer meiner 4 Hosts upgedated.
Wie ab und zu so passiert, haben sich die Devicename der Network verändert.
Nicht schlimmes per se.

root@pve-01:~# lshw -c network -businfo
Bus info Device Class Description
============================================================
pci@0000:23:00.0 enp35s0f0np0 network BCM57416 NetXtreme-E Dual-Media 10G RDMA Ethernet Controller
pci@0000:23:00.1 enp35s0f1np1 network BCM57416 NetXtreme-E Dual-Media 10G RDMA Ethernet Controller
pci@0000:44:00.0 enp68s0f0np0 network Ethernet Controller X710 for 10GBASE-T
pci@0000:44:00.1 enp68s0f1np1 network Ethernet Controller X710 for 10GBASE-T
pci@0000:44:00.2 enp68s0f2np2 network Ethernet Controller X710 for 10 Gigabit SFP+
pci@0000:44:00.3 enp68s0f3np3 network Ethernet Controller X710 for 10 Gigabit SFP+
pci@0000:81:00.0 enp129s0f0np0 network BCM57414 NetXtreme-E 10Gb/25Gb RDMA Ethernet Controller
pci@0000:81:00.1 enp129s0f1np1 network BCM57414 NetXtreme-E 10Gb/25Gb RDMA Ethernet Controller

Ich habe in vi /etc/network/interfaces angepasst und alles sah erst gut aus.

Heute habe ich pve-04 auch upgedated (etwas anderes Hardware), es lief alles glatt.

Dann habe ich die glänzende Idee noch ein Host upzudaten.
Er hatte noch mal das Problem mit der Network device. Während ich dabei war die Network Konfiguration anzupassen, ist mein pve-01 einfach verschwunden.
Aus der IPMI konnte ich sehen, dass er noch war. Er war aber per Network nicht mehr erreibar. Nach ein Reboot, war alles wieder da.
Ich kann in Logs nicht besonders finden.

Noch ein Problem ist, dass die veränderung der Network per WEB GUI (Applay Config) nimmt das Network von der VMs einfach weg. Ein Reboot der VMs hilft.
1714144230441.png

Da ich genug action für heute gehabt habe, habe ich nicht weiter versucht.
Ich habe aber Angst, der pve-03 zu upgraden. Da ich ein Verschwienden der andere zwei Node erwarte...
So hätte ich alle 3 Kubernatis Ceph down... Das ist nicht gesund.

Bin ich die Einzige mit den Probleme?
root@pve-01:~# pveversion
pve-manager/8.2.2/9355359cd7afbae4 (running kernel: 6.8.4-2-pve)
root@pve-01:~# pveversion -v
proxmox-ve: 8.2.0 (running kernel: 6.8.4-2-pve)
pve-manager: 8.2.2 (running version: 8.2.2/9355359cd7afbae4)
proxmox-kernel-helper: 8.1.0
pve-kernel-6.2: 8.0.5
pve-kernel-5.15: 7.4-4
proxmox-kernel-6.8: 6.8.4-2
proxmox-kernel-6.8.4-2-pve-signed: 6.8.4-2
proxmox-kernel-6.5.13-5-pve-signed: 6.5.13-5
proxmox-kernel-6.5: 6.5.13-5
proxmox-kernel-6.5.13-3-pve-signed: 6.5.13-3
proxmox-kernel-6.2.16-20-pve: 6.2.16-20
proxmox-kernel-6.2: 6.2.16-20
pve-kernel-5.15.108-1-pve: 5.15.108-1
pve-kernel-5.15.74-1-pve: 5.15.74-1
ceph: 18.2.2-pve1
ceph-fuse: 18.2.2-pve1
corosync: 3.1.7-pve3
criu: 3.17.1-2
glusterfs-client: 10.3-5
ifupdown2: 3.2.0-1+pmx8
ksm-control-daemon: 1.5-1
libjs-extjs: 7.0.0-4
libknet1: 1.28-pve1
libproxmox-acme-perl: 1.5.0
libproxmox-backup-qemu0: 1.4.1
libproxmox-rs-perl: 0.3.3
libpve-access-control: 8.1.4
libpve-apiclient-perl: 3.3.2
libpve-cluster-api-perl: 8.0.6
libpve-cluster-perl: 8.0.6
libpve-common-perl: 8.2.1
libpve-guest-common-perl: 5.1.1
libpve-http-server-perl: 5.1.0
libpve-network-perl: 0.9.8
libpve-rs-perl: 0.8.8
libpve-storage-perl: 8.2.1
libspice-server1: 0.15.1-1
lvm2: 2.03.16-2
lxc-pve: 6.0.0-1
lxcfs: 6.0.0-pve2
novnc-pve: 1.4.0-3
proxmox-backup-client: 3.2.0-1
proxmox-backup-file-restore: 3.2.0-1
proxmox-kernel-helper: 8.1.0
proxmox-mail-forward: 0.2.3
proxmox-mini-journalreader: 1.4.0
proxmox-widget-toolkit: 4.2.2
pve-cluster: 8.0.6
pve-container: 5.0.11
pve-docs: 8.2.2
pve-edk2-firmware: 4.2023.08-4
pve-esxi-import-tools: 0.7.0
pve-firewall: 5.0.5
pve-firmware: 3.11-1
pve-ha-manager: 4.0.4
pve-i18n: 3.2.2
pve-qemu-kvm: 8.1.5-5
pve-xtermjs: 5.3.0-3
qemu-server: 8.2.1
smartmontools: 7.3-pve1
spiceterm: 3.3.0
swtpm: 0.8.0+pve1
vncterm: 1.8.0
zfsutils-linux: 2.2.3-pve2
root@pve-01:~#


Und vor allem, wie löse ich sie?

Vielen Dank im Vorasu,
Gio
 
Nach zwei Stunden sind alle beide Hosts aus das Netz verschwunden, nur ein Reboot konnte helfen
Apr 26 17:55:49 pve-01 corosync[4391]: [TOTEM ] Failed to receive the leave message. failed: 2
Apr 26 18:02:45 pve-01 pveproxy[512068]: connect to 'localhost:5900' failed: Connection refused at /usr/share/perl5/PVE/APIServer/AnyEvent.pm line 558.
....
Apr 26 18:02:50 pve-01 pveproxy[512068]: worker exit
Apr 26 18:02:50 pve-01 pveproxy[6064]: worker 512068 finished
Apr 26 18:02:51 pve-01 pveproxy[6064]: starting 1 worker(s)
Apr 26 18:02:51 pve-01 pveproxy[6064]: worker 671981 started
Apr 26 18:05:01 pve-01 CRON[678061]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Apr 26 18:05:07 pve-01 pvedaemon[639988]: <root@pam> successful auth for user 'root@pam'

Und dann war weg und ich sehe die Reboot Log
 
Also meine Maschinen kommen problemlos hoch,
ja, ich musste die Device Namen ändern.
mit den Kommando sieht man, wie sie jetzt heissen: lshw -c network -businfo

Und die Maschine laufen für einige Stunden ....
Dann Plötzlich sind weg.
 
in Kernel Log nix
Apr 26 16:24:04 pve-01 kernel: nvme 0000:03:00.0: Using 64-bit DMA addresses

>>>>> 18:07 ca ist die maschine weg und hier mein Reboot

Apr 26 18:29:31 pve-01 kernel: Linux version 6.8.4-2-pve (build@proxmox) (gcc (Debian 12.2.0-14) 12.2.0, GNU ld (GNU Binutils for Debian) 2.40) #1 SMP PREEMPT_DYNAMIC PMX 6.8.4-2 (2024-04-10T17:36Z) ()
Apr 26 18:29:31 pve-01 kernel: Command line: initrd=\EFI\proxmox\6.8.4-2-pve\initrd.img-6.8.4-2-pve root=ZFS=rpool/ROOT/pve-1 boot=zfs
Apr 26 18:29:31 pve-01 kernel:
 
ein paar minuten vor sterben

connect to 'localhost:5900' failed: Connection refused at /usr/share/perl5/PVE/APIServer/AnyEvent.pm line 558.
 
In Ceph Logs
2024-04-26T17:55:44.796+0200 757d446006c0 0 mds.beacon.pve-01 missed beacon ack from the monitors
2024-04-26T17:55:48.797+0200 757d446006c0 0 mds.beacon.pve-01 missed beacon ack from the monitors
2024-04-26T17:55:52.232+0200 757d450006c0 1 mds.beacon.pve-01 MDS connection to Monitors appears to be laggy; 15.4342s since last acked beacon
2024-04-26T17:55:52.232+0200 757d450006c0 1 mds.0.406 skipping upkeep work because connection to Monitors appears laggy
2024-04-26T17:55:52.797+0200 757d446006c0 0 mds.beacon.pve-01 missed beacon ack from the monitors
2024-04-26T17:55:53.839+0200 757d4aa006c0 0 mds.beacon.pve-01 MDS is no longer laggy
2024-04-26T18:00:37.236+0200 757d450006c0 0 log_channel(cluster) log [WRN] : evicting unresponsive client pve-02 (67775310), after 304.534 seconds
2024-04-26T18:00:37.236+0200 757d450006c0 1 mds.0.406 Evicting (and blocklisting) client session 67775310 (v1:192.168.64.72:0/2645791938)
2024-04-26T18:00:37.236+0200 757d450006c0 0 log_channel(cluster) log [INF] : Evicting (and blocklisting) client session 67775310 (v1:192.168.64.72:0/2645791938)

>>>>> Reboot

2024-04-26T18:29:52.515+0200 7038741cdb80 0 set uid:gid to 64045:64045 (ceph:ceph)
 
Also meine Maschinen kommen problemlos hoch,
ja, ich musste die Device Namen ändern.
mit den Kommando sieht man, wie sie jetzt heissen: lshw -c network -businfo

Und die Maschine laufen für einige Stunden ....
Dann Plötzlich sind weg.

Moin,

Netzwerk wurde zuvor fix benannt, daher scheidet das bei mir komplett aus.

Meine Maschinen kommen auch hoch. Aber mal nach 5 Minuten, mal nach 30 Minuten usw. stürzt die ganze Kiste einfach ab.

Per Monitor oder so kann ich nicht ran, meiner steht bei Hetzner im Rechenzentrum
 
Hallo,

vergleichbares Problem bei mir seid dem Update (H12SSL-NT (BCM57416)), die Broadcom Netzwerkkarten funktionieren nicht mehr stabil. Nach einem Neustart ist die Netzwerkverbindung weg.

systemctl restart networking hilft kurzzeitig.

Vielversprechend scheint folgende Änderung zu sein.
Code:
# nano /etc/modprobe.d/pve-blacklist.conf
blacklist bnxt_re
 

Attachments

  • shutdown.png
    shutdown.png
    778.9 KB · Views: 8
  • network_restart.png
    network_restart.png
    554.9 KB · Views: 8
  • startup.png
    startup.png
    524.8 KB · Views: 8
Last edited:
  • Like
Reactions: Bierfassl
Hallo,

vergleichbares Problem bei mir seid dem Update (H12SSL-NT (BCM57416)), die Broadcom Netzwerkkarten funktionieren nicht mehr stabil. Nach einem Neustart ist die Netzwerkverbindung weg.

systemctl restart networking hilft kurzzeitig.

Vielversprechend scheint folgende Änderung zu sein.
Code:
# nano /etc/modprobe.d/pve-blacklist.conf
blacklist bnxt_re
Die Broadcom NICs auf den Boards von Supermicro scheinen generell (momentan) mit der aktuellen Kernelversion Probleme zu haben. Da es verschiedene Boards mit unterschiedlichen Architekturen betrifft, wird ein BIOS Update wahrscheinlich nix bringen (wie in den englischsprachigen Threads angeraten). Werden wir wohl auf einen Fix warten müssen und bis dahin das Blacklisting nutzen.
 
  • Like
Reactions: Bierfassl
Die Broadcom NICs auf den Boards von Supermicro scheinen generell (momentan) mit der aktuellen Kernelversion Probleme zu haben. Da es verschiedene Boards mit unterschiedlichen Architekturen betrifft, wird ein BIOS Update wahrscheinlich nix bringen (wie in den englischsprachigen Threads angeraten). Werden wir wohl auf einen Fix warten müssen und bis dahin das Blacklisting nutzen.
Leider geht es nicht nur um die Netzwerkkarte. Ich habe ein Passthrough für die GPU-Karte durchgeführt und nach einer kleinen Änderung an der Konfiguration der VM (ich musste sie verschieben und die Anbindung zu PCI auflösen und wieder erstellen), funktioniert nichts mehr. Mit dem alten Kernel läuft alles perfekt.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!