Hallo Forum,
erstmal sorry, dass ich gleich mit meinem ersten Post hier mit einem Problem zur Tür reinfalle Aber ich komme hier grade nicht weiter...
Ich betreibe hier daheim schon seit einigen Jahren als private Spielwiese eine Proxmox VE-Installation auf einem älteren PC, was bisher ziemlich rumpelfrei funktioniert hat und mir u.a. auch als Testbett für den Cluster auf Arbeit im RZ dient.
Seit dem Upgrade von 7.4 auf 8.0 habe ich das Problem, dass die Maschine beinahe täglich entweder mit einem Kernel Panic stehen bleibt, oder (wie heute) alle VMs mit 100% CPU-Last laufen und nicht mehr reagieren. Das dmesg auf dem Host sieht dann z.B. wie folgt aus:
Da der Kernel sich über einen Page Fault beschwert, habe ich auf Verdacht erstmal ksm deaktiviert und beobachte das weiter. Ansonsten... kvm-Bug ?
erstmal sorry, dass ich gleich mit meinem ersten Post hier mit einem Problem zur Tür reinfalle Aber ich komme hier grade nicht weiter...
Ich betreibe hier daheim schon seit einigen Jahren als private Spielwiese eine Proxmox VE-Installation auf einem älteren PC, was bisher ziemlich rumpelfrei funktioniert hat und mir u.a. auch als Testbett für den Cluster auf Arbeit im RZ dient.
Seit dem Upgrade von 7.4 auf 8.0 habe ich das Problem, dass die Maschine beinahe täglich entweder mit einem Kernel Panic stehen bleibt, oder (wie heute) alle VMs mit 100% CPU-Last laufen und nicht mehr reagieren. Das dmesg auf dem Host sieht dann z.B. wie folgt aus:
Code:
[189644.680365] BUG: unable to handle page fault for address: 00007fffffffef83
[189644.680568] RIP: 0010:record_steal_time+0x17a/0x2c0 [kvm]
[189644.681101] #PF: supervisor write access in kernel mode
[189644.681656] Code: ea 0c e8 09 e1 fd ff 5b 41 5c 41 5d 5d 31 c0 31 d2 31 c9 31 f6 31 ff c3 cc cc cc cc 48 b8 00 f0 ff ff ff 7f 00 00 48 83 f8 3f <66> db 48 83 e8 40 4c 39 e0 72 d2 0f 1f 00 0f ae e8 31 c0 ba f2 ff
[189644.682189] #PF: error_code(0x0002) - not-present page
[189644.683373] RSP: 0018:ffffba8c83ccfd48 EFLAGS: 00010212
[189644.683933] PGD 8000000106867067 P4D 8000000106867067
[189644.684520] RAX: 00007ffffffff000 RBX: ffff964888d34800 RCX: 00000000000000de
[189644.684521] PUD 0
[189644.684522] RDX: 000000042fc33080 RSI: 0000000000000000 RDI: ffffba8c83cd1000
[189644.685080] Oops: 0002 [#2] PREEMPT SMP PTI
[189644.685666] RBP: ffffba8c83ccfd60 R08: 0000000000000000 R09: 0000000000000000
[189644.686223] CPU: 0 PID: 1993 Comm: CPU 1/KVM Tainted: P D O 6.2.16-3-pve #1
[189644.686225] Hardware name: MSI MS-7816/Z87-G43 (MS-7816), BIOS V1.6 11/27/2013
[189644.686226] RIP: 0010:record_steal_time+0x17a/0x2c0 [kvm]
[189644.686816] R10: 0000000000000000 R11: 0000000000000000 R12: 00007f4adfa33080
[189644.687399] Code: ea 0c e8 09 e1 fd ff 5b 41 5c 41 5d 5d 31 c0 31 d2 31 c9 31 f6 31 ff c3 cc cc cc cc 48 b8 00 f0 ff ff ff 7f 00 00 48 83 f8 3f <66> db 48 83 e8 40 4c 39 e0 72 d2 0f 1f 00 0f ae e8 31 c0 ba f2 ff
[189644.687981] R13: 0000000000000000 R14: ffff964890b80000 R15: ffff964888d34838
[189644.688567] RSP: 0018:ffffba8c8ab0fcf8 EFLAGS: 00010212
[189644.689144] FS: 00007f4aff3236c0(0000) GS:ffff964f7fb80000(0000) knlGS:0000000000000000
[189644.689705] RAX: 00007ffffffff000 RBX: ffff96488edca400 RCX: 00000000000000e4
[189644.689706] RDX: 000000013bb32040 RSI: 0000000000000000 RDI: ffffba8c8aa81000
[189644.690271] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[189644.690831] RBP: ffffba8c8ab0fd10 R08: 0000000000000000 R09: 0000000000000000
[189644.690832] R10: 0000000000000000 R11: 0000000000000000 R12: 00007f8a37932040
[189644.690833] R13: 0000000000000000 R14: ffff96488ede6600 R15: ffff96488edca438
[189644.690834] FS: 00007f8a43dbf6c0(0000) GS:ffff964f7fa00000(0000) knlGS:0000000000000000
[189644.692007] CR2: 00007fffffffef83 CR3: 0000000107dfa001 CR4: 00000000001726e0
[189644.692602] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[189644.699831] CR2: 00007fffffffef83 CR3: 000000010770e004 CR4: 00000000001726f0
[189644.700453] Call Trace:
[189644.701072] <TASK>
[189644.701691] kvm_arch_vcpu_ioctl_run+0x12fe/0x1740 [kvm]
[189644.702360] ? kvm_arch_vcpu_put+0x1a6/0x200 [kvm]
[189644.703027] ? vcpu_put+0x22/0x60 [kvm]
[189644.703683] ? kvm_arch_vcpu_ioctl_run+0x4ac/0x1740 [kvm]
[189644.704352] kvm_vcpu_ioctl+0x297/0x7c0 [kvm]
[189644.705010] ? kvm_vcpu_ioctl+0x30e/0x7c0 [kvm]
[189644.705669] ? syscall_exit_to_user_mode+0x29/0x50
[189644.706281] ? __fget_light+0xa5/0x120
[189644.706882] __x64_sys_ioctl+0xa0/0xe0
[189644.707441] do_syscall_64+0x5b/0x90
[189644.707994] ? exit_to_user_mode_prepare+0x39/0x190
[189644.708548] ? syscall_exit_to_user_mode+0x29/0x50
[189644.709099] ? do_syscall_64+0x67/0x90
[189644.709649] ? do_syscall_64+0x67/0x90
[189644.710198] ? do_syscall_64+0x67/0x90
[189644.710741] ? do_syscall_64+0x67/0x90
[189644.711269] ? do_syscall_64+0x67/0x90
[189644.711788] entry_SYSCALL_64_after_hwframe+0x72/0xdc
[189644.712301] RIP: 0033:0x7f8a546adafb
[189644.712801] Code: 00 48 89 44 24 18 31 c0 48 8d 44 24 60 c7 04 24 10 00 00 00 48 89 44 24 08 48 8d 44 24 20 48 89 44 24 10 b8 10 00 00 00 0f 05 <89> c2 3d 00 f0 ff ff 77 1c 48 8b 44 24 18 64 48 2b 04 25 28 00 00
[189644.713828] RSP: 002b:00007f8a43dba170 EFLAGS: 00000246 ORIG_RAX: 0000000000000010
[189644.714338] RAX: ffffffffffffffda RBX: 000055c02eef6f20 RCX: 00007f8a546adafb
[189644.714837] RDX: 0000000000000000 RSI: 000000000000ae80 RDI: 000000000000001b
[189644.715328] RBP: 000000000000ae80 R08: 000055c02d764e00 R09: 0000000000000000
[189644.715813] R10: 0000000000000010 R11: 0000000000000246 R12: 0000000000000000
[189644.716288] R13: 0000000000000002 R14: 0000000000000000 R15: 0000000000000000
[189644.716763] </TASK>
[189644.717233] Modules linked in: tcp_diag inet_diag ebtable_filter ebtables ip_set ip6table_raw iptable_raw ip6table_filter ip6_tables sctp ip6_udp_tunnel udp_tunnel scsi_transport_iscsi iptable_filter bpfilter bonding tls softdog sunrpc nfnetlink_log nfnetlink binfmt_misc intel_rapl_msr intel_rapl_common x86_pkg_temp_thermal intel_powerclamp coretemp snd_hda_codec_hdmi kvm_intel kvm ppdev mei_hdcp mei_pxp irqbypass crct10dif_pclmul polyval_clmulni polyval_generic ghash_clmulni_intel sha512_ssse3 i915 aesni_intel crypto_simd drm_buddy snd_hda_codec_realtek ttm snd_hda_codec_generic drm_display_helper ledtrig_audio cryptd cec snd_hda_intel snd_intel_dspcfg snd_intel_sdw_acpi snd_hda_codec rc_core rapl snd_hda_core drm_kms_helper intel_cstate snd_hwdep pcspkr i2c_algo_bit snd_pcm spi_nor uas syscopyarea mei_me sysfillrect snd_timer input_leds snd parport_pc joydev mxm_wmi at24 mtd sysimgblt mei usb_storage soundcore parport intel_smartconnect mac_hid zfs(PO) zunicode(PO) zzstd(O) zlua(O)
[189644.717278] zavl(PO) icp(PO) zcommon(PO) znvpair(PO) spl(O) vhost_net vhost vhost_iotlb tap drm efi_pstore dmi_sysfs ip_tables x_tables autofs4 raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c raid0 multipath linear simplefb hid_generic usbkbd usbhid hid raid1 spi_intel_platform spi_intel xhci_pci xhci_pci_renesas r8169 ahci video crc32_pclmul xhci_hcd realtek i2c_i801 i2c_smbus libahci ehci_pci lpc_ich ehci_hcd wmi
[189644.722304] CR2: 00007fffffffef83
[189644.722833] BUG: unable to handle page fault for address: 00007fffffffef83
[189644.722872] ---[ end trace 0000000000000000 ]---
Da der Kernel sich über einen Page Fault beschwert, habe ich auf Verdacht erstmal ksm deaktiviert und beobachte das weiter. Ansonsten... kvm-Bug ?