Ständige Abstürze nach Update auf kernel neuer 5.15.74

convoy74

Member
Feb 22, 2022
8
1
8
50
Hallo,

ich betriebe einen kleinen Gigabyte BRIX Rechner mit Proxmox (dient vorallem zum testen/spielen). Vor ein paar Wochen habe ich von pve-kernel-5.15.74-1-pve auf einen aktuellen Kernel updated. Seit her crashed mir der Proxmox mindestens einmal am Tag.
Zuvor hatte ich schon einmal ein solches Problem, konnte das aber mit einem Firmeware Update beheben.
Das einzigste was ich nich gefunden habe ist diese hier:


Code:
May 13 21:25:22 pve kernel: [30412.920602] pvestatd[1765]: segfault at 1 ip 000055af8175bb99 sp 00007ffeeabb84c0 error 6 in perl[55af81685000+185000] likely on CPU 12 (core 6, socket 0)
May 13 21:25:22 pve kernel: [30412.920614] Code: 00 00 48 8d 3d 00 be 20 00 44 89 c2 48 63 04 97 48 01 f8 ff e0 0f 1f 40 00 f7 c3 00 00 01 08 0f 85 f6 10 00 00 f6 c7 08 75 77 <31> f6 f6 c4 09 0f 84 8c 07 00 00 49 8d 54 24 f0 49 89 14 24 f6 c4

Jemand vielleicht eine Idee?
 
Nein leider nicht, ich hab es oft irgend wann in der Nacht, manchmal auch wenn ich gerade dran sitze und irgendwas mache.
Ich hab den Proxmox Server jetzt auch nochmal neuinstalliert, das ISO hat mir gleichmal den pve-kernel-5.15.102 installiert und per Update bin ich jetzt bei pve-kernel-5.15.107-2, als ich jetzt meine Systeme wieder hergestellt habe, kam es auch gleich wieder zu einem Crash.
 
Danke,

aber ein Hardware defekt schließe ich erstmal aus, da es ja mit 5.15.74-1-pve funktioniert.
 
Ja wie gesagt, mit dem 5.15.74 ging ja alles. Aktuell habe ich einen jetzt einen 5.19.7-2-pve installiert, mal sehen was damit ist.
In den Logs sehe ich leider nicht viel, wenn der Rechner crashed und ich auf das Display schaue ist leider alles grün. Daher sehe ich dort auch nichts.
 
Last edited:
So jetzt habe ich fleißig mit geloggt und folgendes bekommen:


Code:
May 15 08:18:49 pve kernel: [    8.833958] ------------[ cut here ]------------
May 15 08:18:49 pve kernel: [    8.833959] WARNING: CPU: 15 PID: 572 at drivers/gpu/drm/amd/amdgpu/../display/dc/clk_mgr/dcn21/rn_clk_mgr_vbios_smu.c:98 rn_vbios_smu_send_msg_with_param+0xfd/0x110 [amdgpu]
May 15 08:18:49 pve kernel: [    8.834157] Modules linked in: fjes(-) intel_rapl_msr intel_rapl_common edac_mce_amd amdgpu(+) snd_hda_codec_realtek snd_hda_codec_generic ledtrig_audio kvm_amd snd_hda_intel iommu_v2 snd_intel_dspcfg kvm gpu_sched snd_intel_sdw_acpi drm_ttm_helper irqbypass ttm snd_hda_codec crct10dif_pclmul ghash_clmulni_intel drm_display_helper snd_hda_core aesni_intel zfs(PO) crypto_simd input_leds cec snd_hwdep cryptd rc_core snd_pcm snd_timer rapl drm_kms_helper zunicode(PO) i2c_algo_bit pcspkr snd fb_sys_fops zzstd(O) syscopyarea efi_pstore sysfillrect k10temp zlua(O) sysimgblt soundcore zavl(PO) ccp icp(PO) mac_hid zcommon(PO) znvpair(PO) spl(O) vhost_net vhost vhost_iotlb tap ib_iser rdma_cm iw_cm ib_cm ib_core iscsi_tcp libiscsi_tcp libiscsi scsi_transport_iscsi drm sunrpc ip_tables x_tables autofs4 btrfs blake2b_generic xor raid6_pq simplefb usbmouse hid_generic usbkbd usbhid dm_thin_pool dm_persistent_data dm_bio_prison dm_bufio libcrc32c xhci_pci ahci amd_sfh xhci_pci_renesas crc32_pclmul
May 15 08:18:49 pve kernel: [    8.834201]  nvme libahci i2c_piix4 hid xhci_hcd nvme_core r8169 realtek video
May 15 08:18:49 pve kernel: [    8.834206] CPU: 15 PID: 572 Comm: systemd-udevd Tainted: P           O      5.19.7-2-pve #1
May 15 08:18:49 pve kernel: [    8.834208] Hardware name: GIGABYTE GB-BRR7H-4800/GB-BRR7H-4800, BIOS F09 08/11/2022
May 15 08:18:49 pve kernel: [    8.834209] RIP: 0010:rn_vbios_smu_send_msg_with_param+0xfd/0x110 [amdgpu]
May 15 08:18:49 pve kernel: [    8.834390] Code: 24 48 c7 c2 c0 f6 b7 c2 be 93 62 01 00 e8 0b 92 e8 ff 5b 41 5c 41 5d 41 5e 5d e9 be 4a ab f5 3d fe 00 00 00 74 d7 0f 0b eb d3 <0f> 0b e9 51 ff ff ff 66 66 2e 0f 1f 84 00 00 00 00 00 90 0f 1f 44
May 15 08:18:49 pve kernel: [    8.834391] RSP: 0018:ffffbc3e4109f400 EFLAGS: 00010202
May 15 08:18:49 pve kernel: [    8.834392] RAX: 00000000000000fe RBX: 0000000000030d41 RCX: 0000000000000021
May 15 08:18:49 pve kernel: [    8.834393] RDX: 0000000000000000 RSI: 000000000001629b RDI: ffff998b03b80000
May 15 08:18:49 pve kernel: [    8.834394] RBP: ffffbc3e4109f420 R08: ffffffffc2deecc0 R09: 0000000000000004
May 15 08:18:49 pve kernel: [    8.834395] R10: 0000000000000004 R11: 0000000000000003 R12: ffff998b08f67000
May 15 08:18:49 pve kernel: [    8.834396] R13: 000000000000000d R14: 0000000000000001 R15: 0000000000000003
May 15 08:18:49 pve kernel: [    8.834397] FS:  00007faf60b0d8c0(0000) GS:ffff9991ef9c0000(0000) knlGS:0000000000000000
May 15 08:18:49 pve kernel: [    8.834398] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
May 15 08:18:49 pve kernel: [    8.834399] CR2: 00007faf606cef8e CR3: 0000000105632000 CR4: 0000000000350ee0
May 15 08:18:49 pve kernel: [    8.834400] Call Trace:
May 15 08:18:49 pve kernel: [    8.834402]  <TASK>
May 15 08:18:49 pve kernel: [    8.834404]  rn_vbios_smu_enable_48mhz_tmdp_refclk_pwrdwn+0x17/0x20 [amdgpu]
May 15 08:18:49 pve kernel: [    8.834584]  rn_clk_mgr_construct+0x13c/0xe50 [amdgpu]
May 15 08:18:49 pve kernel: [    8.834757]  dc_clk_mgr_create+0x40a/0x570 [amdgpu]
May 15 08:18:49 pve kernel: [    8.834928]  dc_create+0x24e/0x640 [amdgpu]
May 15 08:18:49 pve kernel: [    8.835099]  ? dmi_matches+0xa0/0x220
May 15 08:18:49 pve kernel: [    8.835104]  amdgpu_dm_init.isra.0+0x219/0x320 [amdgpu]
May 15 08:18:49 pve kernel: [    8.835273]  ? dev_vprintk_emit+0x168/0x18f
May 15 08:18:49 pve kernel: [    8.835277]  ? dev_printk_emit+0x4e/0x69
May 15 08:18:49 pve kernel: [    8.835280]  dm_hw_init+0x13/0x30 [amdgpu]
May 15 08:18:49 pve kernel: [    8.835445]  amdgpu_device_init.cold+0x1a8f/0x1fbe [amdgpu]
May 15 08:18:49 pve kernel: [    8.835620]  ? pci_read_config_word+0x27/0x40
May 15 08:18:49 pve kernel: [    8.835624]  ? do_pci_enable_device.part.0+0xc0/0xf0
May 15 08:18:49 pve kernel: [    8.835626]  amdgpu_driver_load_kms+0x1c/0x160 [amdgpu]
May 15 08:18:49 pve kernel: [    8.835742]  amdgpu_pci_probe+0x173/0x3b0 [amdgpu]
May 15 08:18:49 pve kernel: [    8.835854]  local_pci_probe+0x4b/0x90
May 15 08:18:49 pve kernel: [    8.835856]  ? pci_match_device+0xe2/0x140
May 15 08:18:49 pve kernel: [    8.835857]  pci_device_probe+0xc8/0x270
May 15 08:18:49 pve kernel: [    8.835859]  really_probe+0x1d6/0x3b0
May 15 08:18:49 pve kernel: [    8.835862]  __driver_probe_device+0x119/0x190
May 15 08:18:49 pve kernel: [    8.835863]  driver_probe_device+0x23/0xc0
May 15 08:18:49 pve kernel: [    8.835865]  __driver_attach+0xbd/0x200
May 15 08:18:49 pve kernel: [    8.835866]  ? __device_attach_driver+0x120/0x120
May 15 08:18:49 pve kernel: [    8.835868]  bus_for_each_dev+0x7e/0xd0
May 15 08:18:49 pve kernel: [    8.835869]  driver_attach+0x1e/0x30
May 15 08:18:49 pve kernel: [    8.835871]  bus_add_driver+0x178/0x220
May 15 08:18:49 pve kernel: [    8.835872]  driver_register+0x91/0x100
May 15 08:18:49 pve kernel: [    8.835874]  __pci_register_driver+0x68/0x70
May 15 08:18:49 pve kernel: [    8.835875]  amdgpu_init+0x6e/0x1000 [amdgpu]
May 15 08:18:49 pve kernel: [    8.835985]  ? 0xffffffffc15a0000
May 15 08:18:49 pve kernel: [    8.835987]  do_one_initcall+0x48/0x210
May 15 08:18:49 pve kernel: [    8.835991]  ? kmem_cache_alloc_trace+0x1a6/0x320
May 15 08:18:49 pve kernel: [    8.835994]  do_init_module+0x52/0x210
May 15 08:18:49 pve kernel: [    8.835995]  load_module+0x1d9c/0x21d0
May 15 08:18:49 pve kernel: [    8.835997]  ? kernel_read_file+0x230/0x290
May 15 08:18:49 pve kernel: [    8.836000]  __do_sys_finit_module+0xc8/0x140
May 15 08:18:49 pve kernel: [    8.836002]  __x64_sys_finit_module+0x1a/0x20
May 15 08:18:49 pve kernel: [    8.836003]  do_syscall_64+0x5c/0x90
May 15 08:18:49 pve kernel: [    8.836005]  ? syscall_exit_to_user_mode+0x26/0x50
May 15 08:18:49 pve kernel: [    8.836007]  ? __x64_sys_mmap+0x33/0x50
May 15 08:18:49 pve kernel: [    8.836009]  ? do_syscall_64+0x69/0x90
May 15 08:18:49 pve kernel: [    8.836010]  ? __x64_sys_newfstat+0x16/0x20
May 15 08:18:49 pve kernel: [    8.836012]  ? do_syscall_64+0x69/0x90
May 15 08:18:49 pve kernel: [    8.836013]  ? syscall_exit_to_user_mode+0x26/0x50
May 15 08:18:49 pve kernel: [    8.836014]  ? __x64_sys_read+0x1a/0x20
May 15 08:18:49 pve kernel: [    8.836015]  ? do_syscall_64+0x69/0x90
May 15 08:18:49 pve kernel: [    8.836016]  ? do_syscall_64+0x69/0x90
May 15 08:18:49 pve kernel: [    8.836017]  ? __x64_sys_newstat+0x16/0x20
May 15 08:18:49 pve kernel: [    8.836019]  ? do_syscall_64+0x69/0x90
May 15 08:18:49 pve kernel: [    8.836020]  ? do_syscall_64+0x69/0x90
May 15 08:18:49 pve kernel: [    8.836021]  entry_SYSCALL_64_after_hwframe+0x63/0xcd
May 15 08:18:49 pve kernel: [    8.836024] RIP: 0033:0x7faf60c36f29
May 15 08:18:49 pve kernel: [    8.836025] Code: 00 c3 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 48 89 f8 48 89 f7 48 89 d6 48 89 ca 4d 89 c2 4d 89 c8 4c 8b 4c 24 08 0f 05 <48> 3d 01 f0 ff ff 73 01 c3 48 8b 0d 37 8f 0d 00 f7 d8 64 89 01 48
May 15 08:18:49 pve kernel: [    8.836026] RSP: 002b:00007ffc4826e708 EFLAGS: 00000246 ORIG_RAX: 0000000000000139
May 15 08:18:49 pve kernel: [    8.836028] RAX: ffffffffffffffda RBX: 000055771399ed40 RCX: 00007faf60c36f29
May 15 08:18:49 pve kernel: [    8.836029] RDX: 0000000000000000 RSI: 00007faf60dd4e2d RDI: 000000000000001b
May 15 08:18:49 pve kernel: [    8.836029] RBP: 0000000000020000 R08: 0000000000000000 R09: 00005577139946c0
May 15 08:18:49 pve kernel: [    8.836030] R10: 000000000000001b R11: 0000000000000246 R12: 00007faf60dd4e2d
May 15 08:18:49 pve kernel: [    8.836031] R13: 0000000000000000 R14: 00005577139ec860 R15: 000055771399ed40
May 15 08:18:49 pve kernel: [    8.836033]  </TASK>
May 15 08:18:49 pve kernel: [    8.836033] ---[ end trace 0000000000000000 ]---

Allerdings ist das System danach "noch" nicht abgestürzt, aber momentan mein einzigster Hinweis!
 
Last edited:
Hallo,

Bezüglich des originalen Problems mit den pvestatd-Segmentation Faults: In der Vergangenheit wurde sowas wohl auch schon mal durch defektes RAM hervorgerufen [1] -- vielleicht könntest du also auch mal mit memtest86 das RAM durchchecken.

Code:
May 15 08:18:49 pve kernel: [    8.833958] ------------[ cut here ]------------
May 15 08:18:49 pve kernel: [    8.833959] WARNING: CPU: 15 PID: 572 at drivers/gpu/drm/amd/amdgpu/../display/dc/clk_mgr/dcn21/rn_clk_mgr_vbios_smu.c:98 rn_vbios_smu_send_msg_with_param+0xfd/0x110 [amdgpu]
Das schaut erstmal nach einem anderen Problem aus. Möglicherweise [2], das scheint aber wiederum mit Kernel >=6.0 gefixt zu sein.

[1] https://forum.proxmox.com/threads/pvestatd-segfault.109875/
[2] https://bugzilla.kernel.org/show_bug.cgi?id=216092
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!