Meinung zu PCIe link lost ?

mr44er

Renowned Member
Sep 1, 2019
398
105
83
Ist jetzt schon das zweite Mal passiert und bevor ich alles wild zerpflücke (das Geraffel hängt schon im Cluster und der hat zur Zeit nur drei Nodes...es droht kein Datenverlust, nur eben gerade hart unpässlich ;)), wollte ich mal eure Meinung hören, welche Erfahrungen ihr bei PCIe links noch habt. Die Kiste an sich ist neu, sowie das Netzteil, das BIOS ebenfalls (ASUS PRIME B650-PLUS, BIOS 3067 12/10/2024). Zur Sicherheit nochmal resettet nach BIOS-Update, alles frisch durchgeklickert. Kühlkörper an der NIC ist handwarm, aber die NIC ist eben nicht neu. Ich hab zwar noch Ersatzteile zur Hand und es sind welche unterwegs, aber ob diese in dem Jahr noch ankommen...fragil fraglich. :)

Edit: Memtest natürlich erfolgreich bestanden.

Die Wahrscheinlichkeitsreihenfolge die mir in den Sinn kommt und die ich auch so abarbeiten würde:
1. Das ASPM im BIOS dirigiert falsch bzw. zu aggressiv. Weil eben neu, hab ich damit noch nicht genügend rumgespielt, keine Erfahrung. Gar ein BIOS-Bug? Hat jemand noch dieses Board? Auf die vorherige Version kann ich nicht mehr, da hat ASUS so eine neue Sicherheitsfunktion und die war natürlich aktiv - also vorwärts immer, rückwärts nimmer. :rolleyes:
2. Die Riser wo die NIC drinsteckt hat ne Macke (neu)
3. Die NIC hat ne Macke (nicht neu)

Ausschnitt, das volle log im Anhang:
Code:
Dec 25 06:19:28 ps02 kernel: igb 0000:05:00.2 enp5s0f2: PCIe link lost
Dec 25 06:19:28 ps02 kernel: ------------[ cut here ]------------
Dec 25 06:19:28 ps02 kernel: igb: Failed to read reg 0xc030!
Dec 25 06:19:28 ps02 kernel: WARNING: CPU: 4 PID: 1481 at drivers/net/ethernet/intel/igb/igb_main.c:746 igb_rd32+0x93/0xb0 [igb]
Dec 25 06:19:28 ps02 kernel: Modules linked in: dm_crypt ebtable_filter ebtables ip_set ip6table_raw iptable_raw ip6table_filter ip6_tables iptable_filter sctp ip6_udp_tunnel udp_tunnel nf_tables nvme_fabrics sunrpc nfnetlink_cttimeout bonding tls openvswitch nsh nf_conncount nf_nat nf_conntrack nf_defrag_ipv6 nf_defrag_ipv4 softdog nfnetlink_log nfnetlink binfmt_misc intel_rapl_msr intel_rapl_common edac_mce_amd amdgpu kvm_amd snd_hda_codec_realtek snd_hda_codec_generic snd_hda_codec_hdmi kvm amdxcp drm_exec snd_hda_intel gpu_sched snd_intel_dspcfg drm_buddy snd_intel_sdw_acpi drm_suballoc_helper irqbypass drm_ttm_helper crct10dif_pclmul snd_hda_codec polyval_clmulni ttm polyval_generic ghash_clmulni_intel drm_display_helper sha256_ssse3 snd_hda_core sha1_ssse3 snd_hwdep aesni_intel cec snd_pcm crypto_simd cryptd snd_timer rc_core snd rapl eeepc_wmi soundcore wmi_bmof pcspkr ccp k10temp input_leds mac_hid vhost_net vhost vhost_iotlb tap efi_pstore dmi_sysfs ip_tables x_tables autofs4 zfs(PO) spl(O) hid_generic usbkbd usbhid hid btrfs
Dec 25 06:19:28 ps02 kernel:  blake2b_generic xor raid6_pq libcrc32c mfd_aaeon asus_wmi ledtrig_audio sparse_keymap xhci_pci nvme platform_profile xhci_pci_renesas crc32_pclmul sfc ahci nvme_core xhci_hcd igb r8169 i2c_piix4 libahci nvme_auth mtd i2c_algo_bit realtek video mdio dca wmi gpio_amdpt
Dec 25 06:19:28 ps02 kernel: CPU: 4 PID: 1481 Comm: ovs-vswitchd Tainted: P           O       6.8.12-5-pve #1
Dec 25 06:19:28 ps02 kernel: Hardware name: ASUS System Product Name/PRIME B650-PLUS, BIOS 3067 12/10/2024
Dec 25 06:19:28 ps02 kernel: RIP: 0010:igb_rd32+0x93/0xb0 [igb]
Dec 25 06:19:28 ps02 kernel: Code: c7 c6 03 74 62 c0 e8 3c dc 82 cc 48 8b bb 28 ff ff ff e8 20 40 31 cc 84 c0 74 c1 44 89 e6 48 c7 c7 f8 80 62 c0 e8 bd a7 b2 cb <0f> 0b eb ae b8 ff ff ff ff 31 d2 31 f6 31 ff e9 14 2c d4 cc 66 0f
Dec 25 06:19:28 ps02 kernel: RSP: 0018:ffffaf908132b268 EFLAGS: 00010246
Dec 25 06:19:28 ps02 kernel: RAX: 0000000000000000 RBX: ffff8d11d9a20f38 RCX: 0000000000000000
Dec 25 06:19:28 ps02 kernel: RDX: 0000000000000000 RSI: 0000000000000000 RDI: 0000000000000000
Dec 25 06:19:28 ps02 kernel: RBP: ffffaf908132b278 R08: 0000000000000000 R09: 0000000000000000
Dec 25 06:19:28 ps02 kernel: R10: 0000000000000000 R11: 0000000000000000 R12: 000000000000c030
Dec 25 06:19:28 ps02 kernel: R13: 0000000000000000 R14: 0000000000000000 R15: ffff8d11e0b2a340
Dec 25 06:19:28 ps02 kernel: FS:  000076f7321c0a80(0000) GS:ffff8d309d800000(0000) knlGS:0000000000000000
Dec 25 06:19:28 ps02 kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Dec 25 06:19:28 ps02 kernel: CR2: 00007526d4000020 CR3: 0000000143c62000 CR4: 0000000000f50ef0
Dec 25 06:19:28 ps02 kernel: PKRU: 55555554
Dec 25 06:19:28 ps02 kernel: Call Trace:
Dec 25 06:19:28 ps02 kernel:  <TASK>
Dec 25 06:19:28 ps02 kernel:  ? show_regs+0x6d/0x80
Dec 25 06:19:28 ps02 kernel:  ? __warn+0x89/0x160
Dec 25 06:19:28 ps02 kernel:  ? igb_rd32+0x93/0xb0 [igb]
Dec 25 06:19:28 ps02 kernel:  ? report_bug+0x17e/0x1b0
Dec 25 06:19:28 ps02 kernel:  ? handle_bug+0x46/0x90
Dec 25 06:19:28 ps02 kernel:  ? exc_invalid_op+0x18/0x80
 

Attachments

Last edited:
Auch mal den PCI Slot physisch gecheckt und mal gewechselt?
Habe letztens einen Server mit einem defekten (verbogenen) PCI Slot.
Der Kunststoff war etwas rund und deshalb war die PCI Karte etwas locker im Slot und funktionierte mal und mal nicht.
 
P.S. BIOS Downgrade wird zu 99% nix bringen. Solche Fehler sind untypisch für BIOS Updates und dann hätten plötzlich viele Leute das Problem. Es kann auch irgendwo ein Wiederstand eine kalte Lötstelle haben, welche erst bei einer bestimmten Temperatur den Kontakt verliert.
 
  • Like
Reactions: Johannes S
Mal mit Kernel Commandline-Zusatz "pcie_aspm=off" testen. Das sieht verdächtig nach einem Firmware-Problem der verwendeten NIC aus.
Wenn das hilft, dann den Mainboard-Hersteller Karten-Hersteller diesbezüglich anschreiben. Wenn du ganz viel Glück hast, dann juckt es dort jemanden.

Die entsprechenden Firmware-Updates veröffentlicht Intel ja leider nur für registrierte Industrie-Kunden. Also Normalo-User schaut man da in die Röhre.
Aber wie Falk schon schrieb, kann es auch immer noch an was anderem liegen.
 
Last edited:
  • Like
Reactions: Johannes S
Btw. noch ein Detail: besagte NIC lief unverdächtig in einer vorherigen Node.

Danke für die Tips bisher, wegen Weihnachtsfestivitäten kam ich noch zu nichts und es lief seitdem durch.

Ich warte jetzt doch zunächst mal das Eintrudeln meiner Ersatzkomponenten komplett ab, damit ich alle Testszenarien auf einmal machen kann.

Die entsprechenden Firmware-Updates veröffentlicht Intel ja leider nur für registrierte Industrie-Kunden. Also Normalo-User schaut man da in die Röhre.
Hab ich da was verpasst, ist das neu? Ich hatte in der Vergangenheit schon problemlos Intelfirmware ohne paywall bekommen und flashen können, auch komfortabel mit einer boot-ISO.
 
.. Hab ich da was verpasst, ist das neu? Ich hatte in der Vergangenheit schon problemlos Intelfirmware ohne paywall bekommen und flashen können, auch komfortabel mit einer boot-ISO.
Nein, da hast du durchaus Recht. Kommt halt darauf an, von welchen NICs wir reden. Für einige (die auch "Retail" verkauft werden) gibt's die Firmware. Bei anderen sieht es düster aus.
Ich habe ehrlichgesagt nur an die üblichen Varianten aus dem Embedded-Bereich gedacht (i210/i211, i350, i225, i226), da ich berufsbedingt fast ausschließlich damit zu tun habe.
 
von welchen NICs wir reden
Gerade mal geschaut, tatsächlich eine ältere Quadnic: Intel Corporation 82580 Gigabit Network Connection
Habe noch den Nachfolger(?), ebenfalls Quadnic Intel Corporation I350 Gigabit Network Connection und meine dass die sich vom erhöhten Stromverbrauch abgesehen für den gedachten Einsatzzweck nicht sonderlich unterscheiden.
 
Für beide genannten Varianten/Chips gibt es meines Wissens keine frei verfügbaren Firmware/NVM Updates.
Und bezüglich Funktion liegt der Hauptunterschied, soweit ich mich entsinne, darin dass die i350 virtuelle Funktionen unterstützt. Also sozusagen einen eingebauten virtuellen Switch besitzt. Die alte Karte kann "nur" physikalische Funktionen.
Stromverbrauch war bei der i350 einen Ticken höher, bei gleicher Konfiguration.

Aber erstmal rausfinden worin das Problem in deinem System wirklich besteht.
Sollte es wirklich was mit ASPM zu tun haben, so kann man das eventuell auch BIOS-seitig nur für den betroffenen PCIe-Port deaktivieren.
 
Last edited:
Zwischenstand:
Ich hab jetzt doch zunächst mal nur die billigste Komponente ausgetauscht und das ist die Riser. In der Vergangenheit war in einer anderen Node bei einer solchen ein Elko geplatzt, nach Austausch war dort auch wieder alles tutti.
Die jetzt ersetzte sieht zwar diesbezüglich gut aus, aber das heißt ja nichts. Bisher erfreuliche 48h Uptime. :)
 
Hört sich ja nicht schlecht an. Von welcher Art von Riser-Karte sprechen wir denn? Nur mal rein interessehalber.
 
Diese Billigdinger, die normalerweise für GPUs in Miningrigs verwendet werden. Beides sehr praktisch zwecktentfremdbar für Proxmox.
pce164p-n08 ver009s
https://www.ebay.de/itm/365227574855

Geplatzt war damals der dritte von links, das dürfte auch der wärmste Punkt sein.

Damit kann ich eine physische x4-Karte in den x1 vom Board stecken. Nicht ganz so schlimm, als dafür einen x16 zu opfern:
Code:
LnkCap:    Port #1, Speed 5GT/s, Width x4, ASPM L0s L1, Exit Latency L0s <1us, L1 <8us
ClockPM- Surprise- LLActRep- BwNot- ASPMOptComp-
LnkCtl:    ASPM L1 Enabled; RCB 64 bytes, Disabled- CommClk+
ExtSynch- ClockPM- AutWidDis- BWInt- AutBWInt-
LnkSta:    Speed 5GT/s, Width x1 (downgraded)
 
OK, ich hatte schon vermutet, dass diese seltsamen Riser mit USB-Kabel nicht viel taugen...
Gezielt gekauft hatte ich diese auch nicht, aber die waren bei dem Gestell als Set damals dabei und ich habs einfach ausprobiert. Die liefen anstandslos über knapp zwei Jahre, bis es dann den ersten Elko gerissen hat.

Diese "ADT"-Kabel hatte ich selbst schon mehrfach und problemlos im Einsatz.
Sieht auch gut aus und auf jeden Fall schön passiv, die könnte ich allerdings bei dem Aufbau schlechter montieren. Bei dem Preis kann man definitiv nichts falsch machen. :)
 
Wenn's dir bzgl. Montage nur um die Orientierung des Slots geht, dann gibt's die Dinger in den verschiedensten Ausführungen. Selbstversändlich auch mit Slot in "normaler" stehender Orientierung. Das verlinkte war nur ein schnelles Beispiel.
Von 5-25 EUR findet sich fast alles, wenn man ein bisschen kreativ bei Ali sucht. Denn die Suchfunktion ist schon eher "eigen". :-)
 
  • Like
Reactions: mr44er
Und wieder weggesemmelt, andere Riser, andere NIC (die IDs haben sich verschoben, weil ich noch eine NVMe nachgesteckt hatte), ansonsten recht ähnliche Meldung:

Code:
Jan 07 14:07:35 ps02 kernel: igb 0000:06:00.2 enp6s0f2: PCIe link lost
Jan 07 14:07:36 ps02 kernel: igb 0000:06:00.3 enp6s0f3: PCIe link lost
Jan 07 14:07:36 ps02 kernel: ------------[ cut here ]------------
Jan 07 14:07:36 ps02 kernel: igb: Failed to read reg 0x5b50!
Jan 07 14:07:36 ps02 kernel: WARNING: CPU: 9 PID: 513 at drivers/net/ethernet/intel/igb/igb_main.c:746 igb_rd32+0x93/0xb0 [igb]
Jan 07 14:07:36 ps02 kernel: Modules linked in: dm_crypt ebtable_filter ebtables ip_set ip6table_raw iptable_raw ip6table_filter ip6_tables iptable_filter sctp ip6_udp_tunnel udp_tunnel nf_tables nvme_fabrics sunrpc nfnetlink_cttimeout bonding tls openvswitch nsh nf_conncount nf_nat nf_conntrack nf_defrag_ipv6 nf_defrag_ipv4 softdog nfnetlink_log nfnetlink binfmt_misc intel_rapl_msr intel_rapl_common edac_mce_amd kvm_amd amdgpu kvm irqbypass crct10dif_pclmul polyval_clmulni polyval_generic snd_hda_codec_hdmi ghash_clmulni_intel sha256_ssse3 sha1_ssse3 amdxcp aesni_intel drm_exec snd_hda_intel gpu_sched snd_intel_dspcfg crypto_simd snd_intel_sdw_acpi drm_buddy cryptd drm_suballoc_helper snd_hda_codec drm_ttm_helper ttm input_leds rapl ccp snd_hda_core mac_hid drm_display_helper snd_hwdep snd_pcm pcspkr cec snd_timer rc_core snd soundcore eeepc_wmi k10temp wmi_bmof vhost_net vhost vhost_iotlb tap efi_pstore dmi_sysfs ip_tables x_tables autofs4 zfs(PO) spl(O) hid_generic usbkbd usbhid hid btrfs blake2b_generic xor raid6_pq libcrc32c
Jan 07 14:07:36 ps02 kernel:  mfd_aaeon asus_wmi xhci_pci ledtrig_audio xhci_pci_renesas sparse_keymap platform_profile igb nvme sfc ahci crc32_pclmul xhci_hcd r8169 i2c_piix4 i2c_algo_bit libahci nvme_core mtd realtek video dca mdio nvme_auth wmi gpio_amdpt
Jan 07 14:07:36 ps02 kernel: CPU: 9 PID: 513 Comm: kworker/9:2 Tainted: P           O       6.8.12-5-pve #1
Jan 07 14:07:36 ps02 kernel: Hardware name: ASUS System Product Name/PRIME B650-PLUS, BIOS 3067 12/10/2024
Jan 07 14:07:36 ps02 kernel: Workqueue: events igb_watchdog_task [igb]
Jan 07 14:07:36 ps02 kernel: RIP: 0010:igb_rd32+0x93/0xb0 [igb]
Jan 07 14:07:36 ps02 kernel: Code: c7 c6 03 64 8f c0 e8 3c 6c 93 c3 48 8b bb 28 ff ff ff e8 20 d0 41 c3 84 c0 74 c1 44 89 e6 48 c7 c7 f8 70 8f c0 e8 bd 37 c3 c2 <0f> 0b eb ae b8 ff ff ff ff 31 d2 31 f6 31 ff e9 14 bc e4 c3 66 0f
Jan 07 14:07:36 ps02 kernel: RSP: 0018:ffffb1ed80afbc40 EFLAGS: 00010246
Jan 07 14:07:36 ps02 kernel: RAX: 0000000000000000 RBX: ffffa07d221a0f38 RCX: 0000000000000000
Jan 07 14:07:36 ps02 kernel: RDX: 0000000000000000 RSI: 0000000000000000 RDI: 0000000000000000
Jan 07 14:07:36 ps02 kernel: RBP: ffffb1ed80afbc50 R08: 0000000000000000 R09: 0000000000000000
Jan 07 14:07:36 ps02 kernel: R10: 0000000000000000 R11: 0000000000000000 R12: 0000000000005b50
Jan 07 14:07:36 ps02 kernel: R13: 0000000000002001 R14: 0000000000400040 R15: 0000000000000040
Jan 07 14:07:36 ps02 kernel: FS:  0000000000000000(0000) GS:ffffa09bddc80000(0000) knlGS:0000000000000000
Jan 07 14:07:36 ps02 kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Jan 07 14:07:36 ps02 kernel: CR2: 000001a7083a7000 CR3: 00000014ba436000 CR4: 0000000000f50ef0
Jan 07 14:07:36 ps02 kernel: PKRU: 55555554
Jan 07 14:07:36 ps02 kernel: Call Trace:
Jan 07 14:07:36 ps02 kernel:  <TASK>
Jan 07 14:07:36 ps02 kernel:  ? show_regs+0x6d/0x80
Jan 07 14:07:36 ps02 kernel:  ? __warn+0x89/0x160
Jan 07 14:07:36 ps02 kernel:  ? igb_rd32+0x93/0xb0 [igb]
Jan 07 14:07:36 ps02 kernel:  ? report_bug+0x17e/0x1b0
Jan 07 14:07:36 ps02 kernel:  ? handle_bug+0x46/0x90
Jan 07 14:07:36 ps02 kernel:  ? exc_invalid_op+0x18/0x80
Jan 07 14:07:36 ps02 kernel:  ? asm_exc_invalid_op+0x1b/0x20
Jan 07 14:07:36 ps02 kernel:  ? igb_rd32+0x93/0xb0 [igb]
Jan 07 14:07:36 ps02 kernel:  igb_get_hw_semaphore+0x42/0x120 [igb]
Jan 07 14:07:36 ps02 kernel:  igb_acquire_swfw_sync_82575+0x5e/0xd0 [igb]
Jan 07 14:07:36 ps02 kernel:  igb_acquire_phy_82575+0x3d/0x50 [igb]
Jan 07 14:07:36 ps02 kernel:  igb_read_phy_reg_82580+0x22/0x60 [igb]
Jan 07 14:07:36 ps02 kernel:  igb_phy_has_link+0x94/0x170 [igb]
Jan 07 14:07:36 ps02 kernel:  igb_check_for_copper_link+0x7f/0x150 [igb]
Jan 07 14:07:36 ps02 kernel:  igb_check_for_link_82575+0x96/0xc0 [igb]
Jan 07 14:07:36 ps02 kernel:  igb_has_link+0x75/0x100 [igb]
Jan 07 14:07:36 ps02 kernel:  ? srso_alias_return_thunk+0x5/0xfbef5
Jan 07 14:07:36 ps02 kernel:  igb_watchdog_task+0x51/0x8a0 [igb]
Jan 07 14:07:36 ps02 kernel:  process_one_work+0x173/0x350
Jan 07 14:07:36 ps02 kernel:  worker_thread+0x306/0x440
Jan 07 14:07:36 ps02 kernel:  ? __pfx_worker_thread+0x10/0x10
Jan 07 14:07:36 ps02 kernel:  kthread+0xef/0x120
Jan 07 14:07:36 ps02 kernel:  ? __pfx_kthread+0x10/0x10
Jan 07 14:07:36 ps02 kernel:  ret_from_fork+0x44/0x70
Jan 07 14:07:36 ps02 kernel:  ? __pfx_kthread+0x10/0x10
Jan 07 14:07:36 ps02 kernel:  ret_from_fork_asm+0x1b/0x30
Jan 07 14:07:36 ps02 kernel:  </TASK>
Jan 07 14:07:36 ps02 kernel: ---[ end trace 0000000000000000 ]---
Jan 07 14:07:37 ps02 kernel: igb 0000:06:00.3 enp6s0f3: malformed Tx packet detected and dropped, LVMMC:0xffffffff
Jan 07 14:07:37 ps02 kernel: igb 0000:06:00.1 enp6s0f1: PCIe link lost
Jan 07 14:07:37 ps02 kernel: ------------[ cut here ]------------
Jan 07 14:07:37 ps02 kernel: igb: Failed to read reg 0xc030!
Jan 07 14:07:37 ps02 kernel: WARNING: CPU: 22 PID: 301 at drivers/net/ethernet/intel/igb/igb_main.c:746 igb_rd32+0x93/0xb0 [igb]
Jan 07 14:07:37 ps02 kernel: Modules linked in: dm_crypt ebtable_filter ebtables ip_set ip6table_raw iptable_raw ip6table_filter ip6_
 
Ich habe mal rebar deaktiviert, kann ich jetzt eh noch nicht nutzen.
Zum ASPM gibts im BIOS leider nicht viel einzustellen. Native ASPM auto/enabled/disabled und CPU PCIE ASPM auto/enabled/disabled, beide stehen auf derzeit auf auto.
Falls es wieder crasht, stze ich einen auf enabled usw...

Andersrum ist aber igb 0000:06:00.3 enp6s0f3: malformed Tx packet detected and dropped, LVMMC:0xffffffffneu und das kann ich nicht als Effekt (dazu tendiere ich) oder Ursache einstufen.
 
"Native ASPM" ist ein Flag in der BIOS ACPI FADT/FACP Table (siehe hier https://uefi.org/htmlspecs/ACPI_Spe...ng_Model/ACPI_Software_Programming_Model.html und auch http://smackerelofopinion.blogspot.com/2011/03/making-sense-of-pcie-aspm.html ).
Das sagt grob dem OS nur, ob das OS die Kontrolle über ASPM hat, oder ob die Settings des BIOS verwendet werden sollen.

Stellst du das auf "Disabled", so wird dir der Linux Kernel melden, dass nach "OSPM" ASPM disabled wurde.
Zum Test ist der Linux Kernel Parameter "pcie_aspm=off" immer die erste Anlaufstelle.

Edit:
Kleiner Nachtrag. Ein PCIe x1 Port hängt mit an Sicherheit grenzender Wahrscheinlichkeit am Chipsatz (PCH) und nicht an der CPU (PEG). "CPU PCIE ASPM" klingt verdammt nach einem verkappten PEG-Setting. ;-)
Edit2: Man denke sich die AMD-Bezeichnungen für PCH und PEG. Wie auch immer die gleich wieder lauten. Am Prinzip ändert sich nix.
 
Last edited:

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!