Ist jetzt schon das zweite Mal passiert und bevor ich alles wild zerpflücke (das Geraffel hängt schon im Cluster und der hat zur Zeit nur drei Nodes...es droht kein Datenverlust, nur eben gerade hart unpässlich ), wollte ich mal eure Meinung hören, welche Erfahrungen ihr bei PCIe links noch habt. Die Kiste an sich ist neu, sowie das Netzteil, das BIOS ebenfalls (ASUS PRIME B650-PLUS, BIOS 3067 12/10/2024). Zur Sicherheit nochmal resettet nach BIOS-Update, alles frisch durchgeklickert. Kühlkörper an der NIC ist handwarm, aber die NIC ist eben nicht neu. Ich hab zwar noch Ersatzteile zur Hand und es sind welche unterwegs, aber ob diese in dem Jahr noch ankommen...fragil fraglich.
Edit: Memtest natürlich erfolgreich bestanden.
Die Wahrscheinlichkeitsreihenfolge die mir in den Sinn kommt und die ich auch so abarbeiten würde:
1. Das ASPM im BIOS dirigiert falsch bzw. zu aggressiv. Weil eben neu, hab ich damit noch nicht genügend rumgespielt, keine Erfahrung. Gar ein BIOS-Bug? Hat jemand noch dieses Board? Auf die vorherige Version kann ich nicht mehr, da hat ASUS so eine neue Sicherheitsfunktion und die war natürlich aktiv - also vorwärts immer, rückwärts nimmer.
2. Die Riser wo die NIC drinsteckt hat ne Macke (neu)
3. Die NIC hat ne Macke (nicht neu)
Ausschnitt, das volle log im Anhang:
Edit: Memtest natürlich erfolgreich bestanden.
Die Wahrscheinlichkeitsreihenfolge die mir in den Sinn kommt und die ich auch so abarbeiten würde:
1. Das ASPM im BIOS dirigiert falsch bzw. zu aggressiv. Weil eben neu, hab ich damit noch nicht genügend rumgespielt, keine Erfahrung. Gar ein BIOS-Bug? Hat jemand noch dieses Board? Auf die vorherige Version kann ich nicht mehr, da hat ASUS so eine neue Sicherheitsfunktion und die war natürlich aktiv - also vorwärts immer, rückwärts nimmer.
2. Die Riser wo die NIC drinsteckt hat ne Macke (neu)
3. Die NIC hat ne Macke (nicht neu)
Ausschnitt, das volle log im Anhang:
Code:
Dec 25 06:19:28 ps02 kernel: igb 0000:05:00.2 enp5s0f2: PCIe link lost
Dec 25 06:19:28 ps02 kernel: ------------[ cut here ]------------
Dec 25 06:19:28 ps02 kernel: igb: Failed to read reg 0xc030!
Dec 25 06:19:28 ps02 kernel: WARNING: CPU: 4 PID: 1481 at drivers/net/ethernet/intel/igb/igb_main.c:746 igb_rd32+0x93/0xb0 [igb]
Dec 25 06:19:28 ps02 kernel: Modules linked in: dm_crypt ebtable_filter ebtables ip_set ip6table_raw iptable_raw ip6table_filter ip6_tables iptable_filter sctp ip6_udp_tunnel udp_tunnel nf_tables nvme_fabrics sunrpc nfnetlink_cttimeout bonding tls openvswitch nsh nf_conncount nf_nat nf_conntrack nf_defrag_ipv6 nf_defrag_ipv4 softdog nfnetlink_log nfnetlink binfmt_misc intel_rapl_msr intel_rapl_common edac_mce_amd amdgpu kvm_amd snd_hda_codec_realtek snd_hda_codec_generic snd_hda_codec_hdmi kvm amdxcp drm_exec snd_hda_intel gpu_sched snd_intel_dspcfg drm_buddy snd_intel_sdw_acpi drm_suballoc_helper irqbypass drm_ttm_helper crct10dif_pclmul snd_hda_codec polyval_clmulni ttm polyval_generic ghash_clmulni_intel drm_display_helper sha256_ssse3 snd_hda_core sha1_ssse3 snd_hwdep aesni_intel cec snd_pcm crypto_simd cryptd snd_timer rc_core snd rapl eeepc_wmi soundcore wmi_bmof pcspkr ccp k10temp input_leds mac_hid vhost_net vhost vhost_iotlb tap efi_pstore dmi_sysfs ip_tables x_tables autofs4 zfs(PO) spl(O) hid_generic usbkbd usbhid hid btrfs
Dec 25 06:19:28 ps02 kernel: blake2b_generic xor raid6_pq libcrc32c mfd_aaeon asus_wmi ledtrig_audio sparse_keymap xhci_pci nvme platform_profile xhci_pci_renesas crc32_pclmul sfc ahci nvme_core xhci_hcd igb r8169 i2c_piix4 libahci nvme_auth mtd i2c_algo_bit realtek video mdio dca wmi gpio_amdpt
Dec 25 06:19:28 ps02 kernel: CPU: 4 PID: 1481 Comm: ovs-vswitchd Tainted: P O 6.8.12-5-pve #1
Dec 25 06:19:28 ps02 kernel: Hardware name: ASUS System Product Name/PRIME B650-PLUS, BIOS 3067 12/10/2024
Dec 25 06:19:28 ps02 kernel: RIP: 0010:igb_rd32+0x93/0xb0 [igb]
Dec 25 06:19:28 ps02 kernel: Code: c7 c6 03 74 62 c0 e8 3c dc 82 cc 48 8b bb 28 ff ff ff e8 20 40 31 cc 84 c0 74 c1 44 89 e6 48 c7 c7 f8 80 62 c0 e8 bd a7 b2 cb <0f> 0b eb ae b8 ff ff ff ff 31 d2 31 f6 31 ff e9 14 2c d4 cc 66 0f
Dec 25 06:19:28 ps02 kernel: RSP: 0018:ffffaf908132b268 EFLAGS: 00010246
Dec 25 06:19:28 ps02 kernel: RAX: 0000000000000000 RBX: ffff8d11d9a20f38 RCX: 0000000000000000
Dec 25 06:19:28 ps02 kernel: RDX: 0000000000000000 RSI: 0000000000000000 RDI: 0000000000000000
Dec 25 06:19:28 ps02 kernel: RBP: ffffaf908132b278 R08: 0000000000000000 R09: 0000000000000000
Dec 25 06:19:28 ps02 kernel: R10: 0000000000000000 R11: 0000000000000000 R12: 000000000000c030
Dec 25 06:19:28 ps02 kernel: R13: 0000000000000000 R14: 0000000000000000 R15: ffff8d11e0b2a340
Dec 25 06:19:28 ps02 kernel: FS: 000076f7321c0a80(0000) GS:ffff8d309d800000(0000) knlGS:0000000000000000
Dec 25 06:19:28 ps02 kernel: CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Dec 25 06:19:28 ps02 kernel: CR2: 00007526d4000020 CR3: 0000000143c62000 CR4: 0000000000f50ef0
Dec 25 06:19:28 ps02 kernel: PKRU: 55555554
Dec 25 06:19:28 ps02 kernel: Call Trace:
Dec 25 06:19:28 ps02 kernel: <TASK>
Dec 25 06:19:28 ps02 kernel: ? show_regs+0x6d/0x80
Dec 25 06:19:28 ps02 kernel: ? __warn+0x89/0x160
Dec 25 06:19:28 ps02 kernel: ? igb_rd32+0x93/0xb0 [igb]
Dec 25 06:19:28 ps02 kernel: ? report_bug+0x17e/0x1b0
Dec 25 06:19:28 ps02 kernel: ? handle_bug+0x46/0x90
Dec 25 06:19:28 ps02 kernel: ? exc_invalid_op+0x18/0x80
Attachments
Last edited: