Hallo,
habe hier einen komischen Fehler der mir so zum ersten Mal untergekommen ist. Bei der ersten Recherche sollen die Treiber von Broadcom das Problem sein und man solle ein Firmware-Update der Karten machen, verstehe nur nicht wie das direkt einen Container beeinflussen soll der weder die NIC durchgereicht hat noch auf der allgemeinen Bridge hängt. Das Problem in dieser Form habe ich bei einem Container zum ersten Mal beobachtet und das Cluster auf dem dieser Fehler aufgetreten ist, läuft jetzt auch schon über 2 Jahre.
Problembeschreibung: Sporadisch ist der Container über mehrere Minuten nicht erreichbar. CPU-Auslastung laut Summary bei 100% für beide konfigurierte Kerne. Auf dem Host ebenfalls zwei Kerne auf Volllast und Server Load bei fast 70%. Login über Webconsole nicht mehr möglich, kein SSH. Per
Folgendes steht im Journal:
pveversion:
Hat jemand einen ähnlichen Fehler beobachtet? Jemand eine Idee woran das liegt?
Grüße
habe hier einen komischen Fehler der mir so zum ersten Mal untergekommen ist. Bei der ersten Recherche sollen die Treiber von Broadcom das Problem sein und man solle ein Firmware-Update der Karten machen, verstehe nur nicht wie das direkt einen Container beeinflussen soll der weder die NIC durchgereicht hat noch auf der allgemeinen Bridge hängt. Das Problem in dieser Form habe ich bei einem Container zum ersten Mal beobachtet und das Cluster auf dem dieser Fehler aufgetreten ist, läuft jetzt auch schon über 2 Jahre.
Problembeschreibung: Sporadisch ist der Container über mehrere Minuten nicht erreichbar. CPU-Auslastung laut Summary bei 100% für beide konfigurierte Kerne. Auf dem Host ebenfalls zwei Kerne auf Volllast und Server Load bei fast 70%. Login über Webconsole nicht mehr möglich, kein SSH. Per
pct enter
vom Host aus, kommt man rein, aber die Auslastung innerhalb des CT liegt bei unter 1%. Nach mehreren Minuten fängt er sich wieder. Login und normales Arbeiten danach wieder möglich. Reproduzierbar durch Neustart des Containers. Aber der Fehler taucht auch mitten im Betrieb auf, nachdem er tagelang ohne Probleme lief.Folgendes steht im Journal:
Code:
Jan 31 10:34:55 pve1 kernel: rbd: rbd1: capacity 12884901888 features 0x3d
Jan 31 10:34:55 pve1 kernel: EXT4-fs (rbd1): mounted filesystem a0b737bc-da32-45b1-9541-4139106a48ba r/w with ordered data mode. Quota mode: none.
Jan 31 10:34:55 pve1 audit[2050948]: AVC apparmor="STATUS" operation="profile_load" profile="/usr/bin/lxc-start" name="lxc-404_</var/lib/lxc>" pid=2050948 comm="apparmor_parser"
Jan 31 10:34:55 pve1 kernel: audit: type=1400 audit(1738316095.990:90): apparmor="STATUS" operation="profile_load" profile="/usr/bin/lxc-start" name="lxc-404_</var/lib/lxc>" pid=2050948 comm="apparmor_parser"
Jan 31 10:34:56 pve1 kernel: vmbr0: port 2(fwpr404p0) entered blocking state
Jan 31 10:34:56 pve1 kernel: vmbr0: port 2(fwpr404p0) entered disabled state
Jan 31 10:34:56 pve1 kernel: fwpr404p0: entered allmulticast mode
Jan 31 10:34:56 pve1 kernel: fwpr404p0: entered promiscuous mode
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1: QPLIB: cmdq[0xd64]=0x11 status 0x1
Jan 31 10:34:56 pve1 kernel: vmbr0: port 2(fwpr404p0) entered blocking state
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1 bnxt_re1: Failed to add GID: 0xfffffff2
Jan 31 10:34:56 pve1 kernel: vmbr0: port 2(fwpr404p0) entered forwarding state
Jan 31 10:34:56 pve1 kernel: infiniband bnxt_re1: add_roce_gid GID add failed port=1 index=2
Jan 31 10:34:56 pve1 kernel: __ib_cache_gid_add: unable to add gid fe80:0000:0000:0000:e63d:1aff:fed7:96a0 error=-14
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1: QPLIB: cmdq[0xd65]=0x11 status 0x1
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1 bnxt_re1: Failed to add GID: 0xfffffff2
Jan 31 10:34:56 pve1 kernel: infiniband bnxt_re1: add_roce_gid GID add failed port=1 index=2
Jan 31 10:34:56 pve1 kernel: __ib_cache_gid_add: unable to add gid fe80:0000:0000:0000:e63d:1aff:fed7:96a0 error=-14
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1: QPLIB: cmdq[0xd66]=0x11 status 0x1
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1 bnxt_re1: Failed to add GID: 0xfffffff2
Jan 31 10:34:56 pve1 kernel: infiniband bnxt_re1: add_roce_gid GID add failed port=1 index=2
Jan 31 10:34:56 pve1 kernel: __ib_cache_gid_add: unable to add gid fe80:0000:0000:0000:e63d:1aff:fed7:96a0 error=-14
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1: QPLIB: cmdq[0xd67]=0x11 status 0x1
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1 bnxt_re1: Failed to add GID: 0xfffffff2
Jan 31 10:34:56 pve1 kernel: infiniband bnxt_re1: add_roce_gid GID add failed port=1 index=2
Jan 31 10:34:56 pve1 kernel: __ib_cache_gid_add: unable to add gid fe80:0000:0000:0000:e63d:1aff:fed7:96a0 error=-14
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1: QPLIB: cmdq[0xd68]=0x11 status 0x1
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1 bnxt_re1: Failed to add GID: 0xfffffff2
Jan 31 10:34:56 pve1 kernel: infiniband bnxt_re1: add_roce_gid GID add failed port=1 index=2
Jan 31 10:34:56 pve1 kernel: __ib_cache_gid_add: unable to add gid 0000:0000:0000:0000:0000:ffff:0aff:0133 error=-14
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1: QPLIB: cmdq[0xd69]=0x11 status 0x1
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1 bnxt_re1: Failed to add GID: 0xfffffff2
Jan 31 10:34:56 pve1 kernel: infiniband bnxt_re1: add_roce_gid GID add failed port=1 index=2
Jan 31 10:34:56 pve1 kernel: __ib_cache_gid_add: unable to add gid 0000:0000:0000:0000:0000:ffff:0aff:0133 error=-14
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1: QPLIB: cmdq[0xd6a]=0x11 status 0x1
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1 bnxt_re1: Failed to add GID: 0xfffffff2
Jan 31 10:34:56 pve1 kernel: infiniband bnxt_re1: add_roce_gid GID add failed port=1 index=2
Jan 31 10:34:56 pve1 kernel: __ib_cache_gid_add: unable to add gid fe80:0000:0000:0000:e63d:1aff:fed7:96a0 error=-14
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1: QPLIB: cmdq[0xd6b]=0x11 status 0x1
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1 bnxt_re1: Failed to add GID: 0xfffffff2
Jan 31 10:34:56 pve1 kernel: infiniband bnxt_re1: add_roce_gid GID add failed port=1 index=2
Jan 31 10:34:56 pve1 kernel: __ib_cache_gid_add: unable to add gid fe80:0000:0000:0000:e63d:1aff:fed7:96a0 error=-14
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1: QPLIB: cmdq[0xd6c]=0x11 status 0x1
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1 bnxt_re1: Failed to add GID: 0xfffffff2
Jan 31 10:34:56 pve1 kernel: infiniband bnxt_re1: add_roce_gid GID add failed port=1 index=2
Jan 31 10:34:56 pve1 kernel: __ib_cache_gid_add: unable to add gid fe80:0000:0000:0000:e63d:1aff:fed7:96a0 error=-14
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1: QPLIB: cmdq[0xd6d]=0x11 status 0x1
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1 bnxt_re1: Failed to add GID: 0xfffffff2
Jan 31 10:34:56 pve1 kernel: infiniband bnxt_re1: add_roce_gid GID add failed port=1 index=2
Jan 31 10:34:56 pve1 kernel: __ib_cache_gid_add: unable to add gid fe80:0000:0000:0000:e63d:1aff:fed7:96a0 error=-14
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1: QPLIB: cmdq[0xd6e]=0x11 status 0x1
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1 bnxt_re1: Failed to add GID: 0xfffffff2
Jan 31 10:34:56 pve1 kernel: infiniband bnxt_re1: add_roce_gid GID add failed port=1 index=2
Jan 31 10:34:56 pve1 kernel: __ib_cache_gid_add: unable to add gid fe80:0000:0000:0000:e63d:1aff:fed7:96a0 error=-14
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1: QPLIB: cmdq[0xd6f]=0x11 status 0x1
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1 bnxt_re1: Failed to add GID: 0xfffffff2
Jan 31 10:34:56 pve1 kernel: infiniband bnxt_re1: add_roce_gid GID add failed port=1 index=2
Jan 31 10:34:56 pve1 kernel: __ib_cache_gid_add: unable to add gid fe80:0000:0000:0000:e63d:1aff:fed7:96a0 error=-14
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1: QPLIB: cmdq[0xd70]=0x11 status 0x1
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1 bnxt_re1: Failed to add GID: 0xfffffff2
Jan 31 10:34:56 pve1 kernel: infiniband bnxt_re1: add_roce_gid GID add failed port=1 index=2
Jan 31 10:34:56 pve1 kernel: __ib_cache_gid_add: unable to add gid fe80:0000:0000:0000:e63d:1aff:fed7:96a0 error=-14
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1: QPLIB: cmdq[0xd71]=0x11 status 0x1
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1 bnxt_re1: Failed to add GID: 0xfffffff2
Jan 31 10:34:56 pve1 kernel: infiniband bnxt_re1: add_roce_gid GID add failed port=1 index=2
Jan 31 10:34:56 pve1 kernel: __ib_cache_gid_add: unable to add gid fe80:0000:0000:0000:e63d:1aff:fed7:96a0 error=-14
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1: QPLIB: cmdq[0xd72]=0x11 status 0x1
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1 bnxt_re1: Failed to add GID: 0xfffffff2
Jan 31 10:34:56 pve1 kernel: infiniband bnxt_re1: add_roce_gid GID add failed port=1 index=2
Jan 31 10:34:56 pve1 kernel: __ib_cache_gid_add: unable to add gid fe80:0000:0000:0000:e63d:1aff:fed7:96a0 error=-14
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1: QPLIB: cmdq[0xd73]=0x11 status 0x1
Jan 31 10:34:56 pve1 kernel: bnxt_en 0000:01:00.1 bnxt_re1: Failed to add GID: 0xfffffff2
Jan 31 10:34:56 pve1 kernel: infiniband bnxt_re1: add_roce_gid GID add failed port=1 index=2
Jan 31 10:34:56 pve1 kernel: __ib_cache_gid_add: unable to add gid fe80:0000:0000:0000:e63d:1aff:fed7:96a0 error=-14
Jan 31 10:34:56 pve1 kernel: fwbr404i0: port 1(fwln404i0) entered blocking state
Jan 31 10:34:56 pve1 kernel: fwbr404i0: port 1(fwln404i0) entered disabled state
Jan 31 10:34:56 pve1 kernel: fwln404i0: entered allmulticast mode
Jan 31 10:34:56 pve1 kernel: fwln404i0: entered promiscuous mode
Jan 31 10:34:56 pve1 kernel: fwbr404i0: port 1(fwln404i0) entered blocking state
Jan 31 10:34:56 pve1 kernel: fwbr404i0: port 1(fwln404i0) entered forwarding state
Jan 31 10:34:56 pve1 kernel: fwbr404i0: port 2(veth404i0) entered blocking state
Jan 31 10:34:56 pve1 kernel: fwbr404i0: port 2(veth404i0) entered disabled state
Jan 31 10:34:56 pve1 kernel: veth404i0: entered allmulticast mode
Jan 31 10:34:56 pve1 kernel: veth404i0: entered promiscuous mode
Jan 31 10:34:56 pve1 kernel: eth0: renamed from vethnx9JTR
Jan 31 10:34:57 pve1 kernel: fwbr404i0: port 2(veth404i0) entered blocking state
Jan 31 10:34:57 pve1 kernel: fwbr404i0: port 2(veth404i0) entered forwarding state
Jan 31 10:35:11 pve1 zebra[2849194]: [WPPMZ-G9797] if_zebra_speed_update: veth404i0 old speed: 0 new speed: 10000
Jan 31 10:35:11 pve1 zebra[2849194]: [WPPMZ-G9797] if_zebra_speed_update: fwbr404i0 old speed: 0 new speed: 10000
Jan 31 10:35:11 pve1 zebra[2849194]: [WPPMZ-G9797] if_zebra_speed_update: fwpr404p0 old speed: 0 new speed: 10000
Jan 31 10:35:11 pve1 zebra[2849194]: [WPPMZ-G9797] if_zebra_speed_update: fwln404i0 old speed: 0 new speed: 10000
pveversion:
Code:
root@pve1:~# pveversion -v
proxmox-ve: 8.1.0 (running kernel: 6.5.11-8-pve)
pve-manager: 8.1.4 (running version: 8.1.4/ec5affc9e41f1d79)
proxmox-kernel-helper: 8.1.0
proxmox-kernel-6.5: 6.5.11-8
proxmox-kernel-6.5.11-8-pve-signed: 6.5.11-8
ceph: 18.2.1-pve2
ceph-fuse: 18.2.1-pve2
corosync: 3.1.7-pve3
criu: 3.17.1-2
dnsmasq: 2.89-1
frr-pythontools: 8.5.2-1+pve1
glusterfs-client: 10.3-5
ifupdown2: 3.2.0-1+pmx8
ksm-control-daemon: 1.4-1
libjs-extjs: 7.0.0-4
libknet1: 1.28-pve1
libproxmox-acme-perl: 1.5.0
libproxmox-backup-qemu0: 1.4.1
libproxmox-rs-perl: 0.3.3
libpve-access-control: 8.0.7
libpve-apiclient-perl: 3.3.1
libpve-common-perl: 8.1.0
libpve-guest-common-perl: 5.0.6
libpve-http-server-perl: 5.0.5
libpve-network-perl: 0.9.5
libpve-rs-perl: 0.8.8
libpve-storage-perl: 8.0.5
libspice-server1: 0.15.1-1
lvm2: 2.03.16-2
lxc-pve: 5.0.2-4
lxcfs: 5.0.3-pve4
novnc-pve: 1.4.0-3
proxmox-backup-client: 3.1.4-1
proxmox-backup-file-restore: 3.1.4-1
proxmox-kernel-helper: 8.1.0
proxmox-mail-forward: 0.2.3
proxmox-mini-journalreader: 1.4.0
proxmox-offline-mirror-helper: 0.6.4
proxmox-widget-toolkit: 4.1.3
pve-cluster: 8.0.5
pve-container: 5.0.8
pve-docs: 8.1.3
pve-edk2-firmware: 4.2023.08-3
pve-firewall: 5.0.3
pve-firmware: 3.9-1
pve-ha-manager: 4.0.3
pve-i18n: 3.2.0
pve-qemu-kvm: 8.1.5-2
pve-xtermjs: 5.3.0-3
qemu-server: 8.0.10
smartmontools: 7.3-pve1
spiceterm: 3.3.0
swtpm: 0.8.0+pve1
vncterm: 1.8.0
zfsutils-linux: 2.2.2-pve1
Hat jemand einen ähnlichen Fehler beobachtet? Jemand eine Idee woran das liegt?
Grüße
Last edited: