[SOLVED] Soft lockup - CPU#X stuck for Xs! [kworker/?:?:?]

AxNick-IT

New Member
May 4, 2024
5
1
3
Hey Leute,



ich brauche dringend Hilfe bei einem Proxmox Server, von mir bin ich relativ neu und konnte das Problem bis jetzt noch nicht alleine lösen …



Also es ist so, dass mein Server random aufhängt, meist innerhalb 24h, kann aber auch mal 5 Tage dauern, was einen "Soft Lockup" gut beschreibt, der Server ist noch

"an (Lüfter drehen, LEDs blinken, usw.)", aber reagiert auf gar nichts mehr, gibt kein Bild mehr aus, reagiert nicht auf angeschlossene HID Geräte ein und ist auch per SSH oder Webinterface nicht erreichbar.



Specs:

MSI X470 Gaming Mainboard

AMD Ryzen 7 1700x

4x 8GB Gskill ohne XMP

Graka benutze ich verschiedene je nachdem, was ich gerade am ausprobieren bin, aber meist eine AMD HD 5450 oder eine RX5700 (Problem tritt auch ohne auf)

Boot ZFS Mirror auf m.2 SSD 128GB / auch mit neu installiertem Proxmox 8.2

LVM 2TB SSD

bequiet 650w Netzteil



Ich habe schon selbst einiges probiert BIOS ist das neuste (habe auch ältere probiert, die davor auf dem PC drauf wahren, als es noch eine Windows-Kiste war) Stresstests sind auch problemlos gelaufen, so wie Memtest86 …

Bei Linux kenne ich mich zu wenig aus um selbst ein gutes Troubleshooting zu machen deshalb meine Frage : Ob mir hier jemand helfen kann?



LG Nick :D
 

Attachments

Ich fasse mal die spannensten Logs zusammen:


Code:
kernel: pveproxy worker[18458]: segfault at 45 ip 00005aef70c66134 sp 00007fff8de27588 error 6 in perl[5aef70b38000+195000] likely on CPU 1 (core 1, socket 0)
kernel: vfio-pci 0000:29:00.0: vfio_bar_restore: reset recovery - restoring BARs

May 05 16:58:06 AI-ATX kernel: Workqueue: events jump_label_update_timeout
May 05 16:58:06 AI-ATX kernel: RIP: 0010:smp_call_function_many_cond+0x133/0x500
May 05 16:58:06 AI-ATX kernel: Code: 7f 08 48 63 d0 e8 3d 3e 5d 00 3b 05 37 9b 38 02 73 25 48 63 d0 49 8b 37 48 03 34 d5 e0 ac 6a 97 8b 56 08 83 e2 01 74 0a f3 90 <8b> 4e 08 83 e1 01 75 f6 83 c0 01 eb c1 48 83 c4 48 5b 41 5c 41 5d
May 05 16:58:06 AI-ATX kernel: RSP: 0018:ffffaed2c0dbfcb8 EFLAGS: 00000202
May 05 16:58:06 AI-ATX kernel: RAX: 0000000000000002 RBX: 0000000000000246 RCX: 0000000000000001
May 05 16:58:06 AI-ATX kernel: RDX: 0000000000000001 RSI: ffff99d59e33dd80 RDI: 0000000000000000
May 05 16:58:06 AI-ATX kernel: RBP: ffffaed2c0dbfd28 R08: 0000000000000000 R09: 0000000000000000
May 05 16:58:06 AI-ATX kernel: R10: ffff99ce809138d0 R11: 0000000000000000 R12: ffff99d59e7b5e80
May 05 16:58:06 AI-ATX kernel: R13: 0000000000000001 R14: 000000000000000b R15: ffff99d59e7b5e80
May 05 16:58:06 AI-ATX kernel: FS:  0000000000000000(0000) GS:ffff99d59e780000(0000) knlGS:0000000000000000
May 05 16:58:06 AI-ATX kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
May 05 16:58:06 AI-ATX kernel: CR2: 0000557310219370 CR3: 0000000665036000 CR4: 00000000003506f0
May 05 16:58:06 AI-ATX kernel: Call Trace:
May 05 16:58:06 AI-ATX kernel:  <IRQ>
May 05 16:58:06 AI-ATX kernel:  ? show_regs+0x6d/0x80
May 05 16:58:06 AI-ATX kernel:  ? watchdog_timer_fn+0x206/0x290
May 05 16:58:06 AI-ATX kernel:  ? __pfx_watchdog_timer_fn+0x10/0x10
May 05 16:58:06 AI-ATX kernel:  ? __hrtimer_run_queues+0x108/0x280
May 05 16:58:06 AI-ATX kernel:  ? srso_return_thunk+0x5/0x5f
May 05 16:58:06 AI-ATX kernel:  ? hrtimer_interrupt+0xf6/0x250
May 05 16:58:06 AI-ATX kernel:  ? __sysvec_apic_timer_interrupt+0x51/0x150
May 05 16:58:06 AI-ATX kernel:  ? sysvec_apic_timer_interrupt+0x8d/0xd0
May 05 16:58:06 AI-ATX kernel:  </IRQ>
May 05 16:58:06 AI-ATX kernel:  <TASK>
May 05 16:58:06 AI-ATX kernel:  ? asm_sysvec_apic_timer_interrupt+0x1b/0x20
May 05 16:58:06 AI-ATX kernel:  ? smp_call_function_many_cond+0x133/0x500
May 05 16:58:06 AI-ATX kernel:  ? smp_call_function_many_cond+0x113/0x500
May 05 16:58:06 AI-ATX kernel:  ? __pfx_do_sync_core+0x10/0x10
May 05 16:58:06 AI-ATX kernel:  on_each_cpu_cond_mask+0x24/0x60
May 05 16:58:06 AI-ATX kernel:  text_poke_bp_batch+0xbe/0x300
May 05 16:58:06 AI-ATX kernel:  text_poke_finish+0x1f/0x40
May 05 16:58:06 AI-ATX kernel:  arch_jump_label_transform_apply+0x1a/0x30
May 05 16:58:06 AI-ATX kernel:  __jump_label_update+0xf4/0x140
May 05 16:58:06 AI-ATX kernel:  jump_label_update+0xe2/0x120
May 05 16:58:06 AI-ATX kernel:  __static_key_slow_dec_cpuslocked.part.0+0x3e/0x40
May 05 16:58:06 AI-ATX kernel:  jump_label_update_timeout+0x2c/0x40
May 05 16:58:06 AI-ATX kernel:  process_one_work+0x16d/0x350
May 05 16:58:06 AI-ATX kernel:  worker_thread+0x306/0x440
May 05 16:58:06 AI-ATX kernel:  ? __pfx_worker_thread+0x10/0x10
May 05 16:58:06 AI-ATX kernel:  kthread+0xf2/0x120
May 05 16:58:06 AI-ATX kernel:  ? __pfx_kthread+0x10/0x10
May 05 16:58:06 AI-ATX kernel:  ret_from_fork+0x47/0x70
May 05 16:58:06 AI-ATX kernel:  ? __pfx_kthread+0x10/0x10
May 05 16:58:06 AI-ATX kernel:  ret_from_fork_asm+0x1b/0x30
May 05 16:58:06 AI-ATX kernel:  </TASK>
May 05 16:58:23 AI-ATX kernel: sched: RT throttling activated
May 05 16:58:34 AI-ATX kernel: watchdog: BUG: soft lockup - CPU#11 stuck for 48s! [kworker/11:1:158]

May 05 21:16:51 AI-ATX QEMU[22005]: kvm: VFIO_MAP_DMA failed: Cannot allocate memory
May 05 21:16:51 AI-ATX QEMU[22005]: kvm: vfio_dma_map(0x606c5eb4ff80, 0x100000, 0xbff00000, 0x755faff00000) = -12 (Cannot allocate memory)

Hast du eine Netzwerkkarte auf PCIe stecken?
Geht dir event der RAM aus? Wieviel hast du den VM's/CT's zugewiesen? Hast du ein Limit für ZFS gesetzt?
Mach doch bitte mal nen erweiterten Memorycheck (beim Bootmenü auswählen) und auch eine erweiterte Prüfung deiner Datenträger. Die aktuellen Smartwerte siehst auch im Webinterface von Proxmox unter Disks.

Möglicherweise auch ein Kernelthema:
https://forum.proxmox.com/threads/n...ersion-watchdog-bug-soft-lockup-cpu-x.146233/
https://pve.proxmox.com/wiki/Host_Bootloader#sysboot_kernel_pin
 
Last edited:
  • Like
Reactions: AxNick-IT
Hey,

vielen Dank für das zusammenfassen wusste nicht was da alles wichtig sein könnte deshalb habe ich mal ein größeren Ausschnitt genommen.
Als Netzwerkkarte wird nur die OnBoard des Mainbordes genutzt.
Was Ram bezüglich VMs betrifft ist es meines erachten egal da das Problem auch auftritt wenn der Server im idle ohne VM so vor sich dahin läuft.

Ich werde mich später mal die Kernel Sachen durchlesen und die Testergebnisse nachreichen :)
 
So hier sind die SMART Werte der zwei Boot SSDs der erweiterte Memorycheck wurde auch mit einem PASS und ohne Fehler Beendet.
Für mich deutet das alles schwer auf den Kernel hin habe mir den anderen Forumsbeitrag durchgelesen und werde es mal in Betracht ziehen habe heute gesehen das ein neues Kernel update zur Verfügung stand vlt löst das schon die Probleme wenn nicht werde ich wahrscheinlich am Wochenende auf einen älteren Kernel wechseln und mich genauer damit auseinander setzten und werde Berichten

Falls jemand noch einen anderen Ansatz oder Tipps hat immer her damit bzw. würde mich freuen
 

Attachments

  • 2024-05-07 19_00_53-AI-ATX - Proxmox Virtual Environment.png
    2024-05-07 19_00_53-AI-ATX - Proxmox Virtual Environment.png
    19.8 KB · Views: 6
  • 2024-05-07 19_01_14-AI-ATX - Proxmox Virtual Environment.png
    2024-05-07 19_01_14-AI-ATX - Proxmox Virtual Environment.png
    19.5 KB · Views: 6
So nach weiteren Haare raufen habe ich vlt einen Neue Spur denn gerade ist es wieder passiert aber der Journal Eintrag ist spannend weißt aber wieder auf RAM Probleme hin was ich mir noch Vorstellen kann ist das die CPU nicht mit 4x8 GB Riegeln klar kommt oder der Speed zu hoch ist auch ohne XMP denn die neuen Einträge sehen so aus:

Code:
May 08 23:42:07 AI-ATX kernel: general protection fault, probably for non-canonical address 0xfff8f823d95ce950: 0000 [#1] PREEMPT SMP NOPTI
May 08 23:42:07 AI-ATX kernel: CPU: 14 PID: 47432 Comm: qemu-img Tainted: P           O       6.8.4-3-pve #1
May 08 23:42:07 AI-ATX kernel: Hardware name: Micro-Star International Co., Ltd. MS-7B79/X470 GAMING PLUS (MS-7B79), BIOS A.M1 05/05/2023
May 08 23:42:07 AI-ATX kernel: RIP: 0010:__rmqueue_pcplist+0xbd/0x8c0
May 08 23:42:07 AI-ATX kernel: Code: 01 f8 48 89 45 a0 49 8b 07 49 39 c7 0f 84 7f 01 00 00 48 bf 22 01 00 00 00 00 ad de 49 8b 07 48 8b 08 48 8b 50 08 4c 8d 40 f8 <48> 89 51 08 48 89 0a 48 b9 00 01 00 00 00 00 ad de 48 89 08 48 89
May 08 23:42:07 AI-ATX kernel: RSP: 0018:ffffa96ede85f678 EFLAGS: 00010293
May 08 23:42:07 AI-ATX kernel: RAX: fffff823d95ce908 RBX: 0000000000000001 RCX: fff8f823d95ce948
May 08 23:42:07 AI-ATX kernel: RDX: ffff90ac1e93cd60 RSI: 0000000000000000 RDI: dead000000000122
May 08 23:42:07 AI-ATX kernel: RBP: ffffa96ede85f728 R08: fffff823d95ce900 R09: ffff90ac1e93cd60
May 08 23:42:07 AI-ATX kernel: R10: 000000000000762a R11: 0000000000000000 R12: 0000000000000000
May 08 23:42:07 AI-ATX kernel: R13: 0000000000000000 R14: ffff90ac3f355c00 R15: ffff90ac1e93cd60
May 08 23:42:07 AI-ATX kernel: FS:  0000774cfd0006c0(0000) GS:ffff90ac1e900000(0000) knlGS:0000000000000000
May 08 23:42:07 AI-ATX kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
May 08 23:42:07 AI-ATX kernel: CR2: 00007f4cef74cca0 CR3: 000000072cf2c000 CR4: 00000000003506f0
May 08 23:42:07 AI-ATX kernel: Call Trace:
May 08 23:42:07 AI-ATX kernel:  <TASK>

Denn "kernel: general protection fault, probably for non-canonical address" soll oft mit RAM Problemen zusammenhängen ich teste mal wenn ich nur 2 der 4 Riegel benutze ob das Problem immer noch auftritt oder nicht bzw. werde ich die 2 dann tauchen um Defekte Riegel auszuschließen da da der RAM Test ja durchgelaufen ist. Den ganzen Log mitschnitt habe ich mal angehängt:)
 

Attachments

Moin,

Nach weiterem testen und suchen im Internet ist die Lösung für mein Problem relativ simpel :

Was mir letztendlich geholfen und das Problem behoben hat ist, eine Bios Einstellung die bei den CPU Overclocking Einstellungen zumindest bei mir zu finden war die "Power Supply Idle Control" heißt und per Standard auf "AUTO" eingestellt ist habe diese dann auf "Typical Current Idle" geändert und seitdem läuft die Kiste wieder über 2 Tage lang ohne Probleme.

ich werde in ein paar Tagen nochmal ein update geben ob es so gut weiter läuft oder wieder Probleme macht aber :

Case Closed :D
 
  • Like
Reactions: Falk R.

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!