Meinung zu PCIe link lost ?

mr44er

Renowned Member
Sep 1, 2019
261
45
68
Ist jetzt schon das zweite Mal passiert und bevor ich alles wild zerpflücke (das Geraffel hängt schon im Cluster und der hat zur Zeit nur drei Nodes...es droht kein Datenverlust, nur eben gerade hart unpässlich ;)), wollte ich mal eure Meinung hören, welche Erfahrungen ihr bei PCIe links noch habt. Die Kiste an sich ist neu, sowie das Netzteil, das BIOS ebenfalls (ASUS PRIME B650-PLUS, BIOS 3067 12/10/2024). Zur Sicherheit nochmal resettet nach BIOS-Update, alles frisch durchgeklickert. Kühlkörper an der NIC ist handwarm, aber die NIC ist eben nicht neu. Ich hab zwar noch Ersatzteile zur Hand und es sind welche unterwegs, aber ob diese in dem Jahr noch ankommen...fragil fraglich. :)

Edit: Memtest natürlich erfolgreich bestanden.

Die Wahrscheinlichkeitsreihenfolge die mir in den Sinn kommt und die ich auch so abarbeiten würde:
1. Das ASPM im BIOS dirigiert falsch bzw. zu aggressiv. Weil eben neu, hab ich damit noch nicht genügend rumgespielt, keine Erfahrung. Gar ein BIOS-Bug? Hat jemand noch dieses Board? Auf die vorherige Version kann ich nicht mehr, da hat ASUS so eine neue Sicherheitsfunktion und die war natürlich aktiv - also vorwärts immer, rückwärts nimmer. :rolleyes:
2. Die Riser wo die NIC drinsteckt hat ne Macke (neu)
3. Die NIC hat ne Macke (nicht neu)

Ausschnitt, das volle log im Anhang:
Code:
Dec 25 06:19:28 ps02 kernel: igb 0000:05:00.2 enp5s0f2: PCIe link lost
Dec 25 06:19:28 ps02 kernel: ------------[ cut here ]------------
Dec 25 06:19:28 ps02 kernel: igb: Failed to read reg 0xc030!
Dec 25 06:19:28 ps02 kernel: WARNING: CPU: 4 PID: 1481 at drivers/net/ethernet/intel/igb/igb_main.c:746 igb_rd32+0x93/0xb0 [igb]
Dec 25 06:19:28 ps02 kernel: Modules linked in: dm_crypt ebtable_filter ebtables ip_set ip6table_raw iptable_raw ip6table_filter ip6_tables iptable_filter sctp ip6_udp_tunnel udp_tunnel nf_tables nvme_fabrics sunrpc nfnetlink_cttimeout bonding tls openvswitch nsh nf_conncount nf_nat nf_conntrack nf_defrag_ipv6 nf_defrag_ipv4 softdog nfnetlink_log nfnetlink binfmt_misc intel_rapl_msr intel_rapl_common edac_mce_amd amdgpu kvm_amd snd_hda_codec_realtek snd_hda_codec_generic snd_hda_codec_hdmi kvm amdxcp drm_exec snd_hda_intel gpu_sched snd_intel_dspcfg drm_buddy snd_intel_sdw_acpi drm_suballoc_helper irqbypass drm_ttm_helper crct10dif_pclmul snd_hda_codec polyval_clmulni ttm polyval_generic ghash_clmulni_intel drm_display_helper sha256_ssse3 snd_hda_core sha1_ssse3 snd_hwdep aesni_intel cec snd_pcm crypto_simd cryptd snd_timer rc_core snd rapl eeepc_wmi soundcore wmi_bmof pcspkr ccp k10temp input_leds mac_hid vhost_net vhost vhost_iotlb tap efi_pstore dmi_sysfs ip_tables x_tables autofs4 zfs(PO) spl(O) hid_generic usbkbd usbhid hid btrfs
Dec 25 06:19:28 ps02 kernel:  blake2b_generic xor raid6_pq libcrc32c mfd_aaeon asus_wmi ledtrig_audio sparse_keymap xhci_pci nvme platform_profile xhci_pci_renesas crc32_pclmul sfc ahci nvme_core xhci_hcd igb r8169 i2c_piix4 libahci nvme_auth mtd i2c_algo_bit realtek video mdio dca wmi gpio_amdpt
Dec 25 06:19:28 ps02 kernel: CPU: 4 PID: 1481 Comm: ovs-vswitchd Tainted: P           O       6.8.12-5-pve #1
Dec 25 06:19:28 ps02 kernel: Hardware name: ASUS System Product Name/PRIME B650-PLUS, BIOS 3067 12/10/2024
Dec 25 06:19:28 ps02 kernel: RIP: 0010:igb_rd32+0x93/0xb0 [igb]
Dec 25 06:19:28 ps02 kernel: Code: c7 c6 03 74 62 c0 e8 3c dc 82 cc 48 8b bb 28 ff ff ff e8 20 40 31 cc 84 c0 74 c1 44 89 e6 48 c7 c7 f8 80 62 c0 e8 bd a7 b2 cb <0f> 0b eb ae b8 ff ff ff ff 31 d2 31 f6 31 ff e9 14 2c d4 cc 66 0f
Dec 25 06:19:28 ps02 kernel: RSP: 0018:ffffaf908132b268 EFLAGS: 00010246
Dec 25 06:19:28 ps02 kernel: RAX: 0000000000000000 RBX: ffff8d11d9a20f38 RCX: 0000000000000000
Dec 25 06:19:28 ps02 kernel: RDX: 0000000000000000 RSI: 0000000000000000 RDI: 0000000000000000
Dec 25 06:19:28 ps02 kernel: RBP: ffffaf908132b278 R08: 0000000000000000 R09: 0000000000000000
Dec 25 06:19:28 ps02 kernel: R10: 0000000000000000 R11: 0000000000000000 R12: 000000000000c030
Dec 25 06:19:28 ps02 kernel: R13: 0000000000000000 R14: 0000000000000000 R15: ffff8d11e0b2a340
Dec 25 06:19:28 ps02 kernel: FS:  000076f7321c0a80(0000) GS:ffff8d309d800000(0000) knlGS:0000000000000000
Dec 25 06:19:28 ps02 kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Dec 25 06:19:28 ps02 kernel: CR2: 00007526d4000020 CR3: 0000000143c62000 CR4: 0000000000f50ef0
Dec 25 06:19:28 ps02 kernel: PKRU: 55555554
Dec 25 06:19:28 ps02 kernel: Call Trace:
Dec 25 06:19:28 ps02 kernel:  <TASK>
Dec 25 06:19:28 ps02 kernel:  ? show_regs+0x6d/0x80
Dec 25 06:19:28 ps02 kernel:  ? __warn+0x89/0x160
Dec 25 06:19:28 ps02 kernel:  ? igb_rd32+0x93/0xb0 [igb]
Dec 25 06:19:28 ps02 kernel:  ? report_bug+0x17e/0x1b0
Dec 25 06:19:28 ps02 kernel:  ? handle_bug+0x46/0x90
Dec 25 06:19:28 ps02 kernel:  ? exc_invalid_op+0x18/0x80
 

Attachments

Last edited:
Auch mal den PCI Slot physisch gecheckt und mal gewechselt?
Habe letztens einen Server mit einem defekten (verbogenen) PCI Slot.
Der Kunststoff war etwas rund und deshalb war die PCI Karte etwas locker im Slot und funktionierte mal und mal nicht.
 
P.S. BIOS Downgrade wird zu 99% nix bringen. Solche Fehler sind untypisch für BIOS Updates und dann hätten plötzlich viele Leute das Problem. Es kann auch irgendwo ein Wiederstand eine kalte Lötstelle haben, welche erst bei einer bestimmten Temperatur den Kontakt verliert.
 
  • Like
Reactions: Johannes S
Mal mit Kernel Commandline-Zusatz "pcie_aspm=off" testen. Das sieht verdächtig nach einem Firmware-Problem der verwendeten NIC aus.
Wenn das hilft, dann den Mainboard-Hersteller Karten-Hersteller diesbezüglich anschreiben. Wenn du ganz viel Glück hast, dann juckt es dort jemanden.

Die entsprechenden Firmware-Updates veröffentlicht Intel ja leider nur für registrierte Industrie-Kunden. Also Normalo-User schaut man da in die Röhre.
Aber wie Falk schon schrieb, kann es auch immer noch an was anderem liegen.
 
Last edited:
  • Like
Reactions: Johannes S
Btw. noch ein Detail: besagte NIC lief unverdächtig in einer vorherigen Node.

Danke für die Tips bisher, wegen Weihnachtsfestivitäten kam ich noch zu nichts und es lief seitdem durch.

Ich warte jetzt doch zunächst mal das Eintrudeln meiner Ersatzkomponenten komplett ab, damit ich alle Testszenarien auf einmal machen kann.

Die entsprechenden Firmware-Updates veröffentlicht Intel ja leider nur für registrierte Industrie-Kunden. Also Normalo-User schaut man da in die Röhre.
Hab ich da was verpasst, ist das neu? Ich hatte in der Vergangenheit schon problemlos Intelfirmware ohne paywall bekommen und flashen können, auch komfortabel mit einer boot-ISO.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!