Kernel Panic / Freezes nach Upgrade auf Proxmox VE 8

Scrat

New Member
Jul 1, 2023
3
1
3
Hallo Forum,

erstmal sorry, dass ich gleich mit meinem ersten Post hier mit einem Problem zur Tür reinfalle ;) Aber ich komme hier grade nicht weiter...

Ich betreibe hier daheim schon seit einigen Jahren als private Spielwiese eine Proxmox VE-Installation auf einem älteren PC, was bisher ziemlich rumpelfrei funktioniert hat und mir u.a. auch als Testbett für den Cluster auf Arbeit im RZ dient.

Seit dem Upgrade von 7.4 auf 8.0 habe ich das Problem, dass die Maschine beinahe täglich entweder mit einem Kernel Panic stehen bleibt, oder (wie heute) alle VMs mit 100% CPU-Last laufen und nicht mehr reagieren. Das dmesg auf dem Host sieht dann z.B. wie folgt aus:

Code:
[189644.680365] BUG: unable to handle page fault for address: 00007fffffffef83
[189644.680568] RIP: 0010:record_steal_time+0x17a/0x2c0 [kvm]
[189644.681101] #PF: supervisor write access in kernel mode
[189644.681656] Code: ea 0c e8 09 e1 fd ff 5b 41 5c 41 5d 5d 31 c0 31 d2 31 c9 31 f6 31 ff c3 cc cc cc cc 48 b8 00 f0 ff ff ff 7f 00 00 48 83 f8 3f <66> db 48 83 e8 40 4c 39 e0 72 d2 0f 1f 00 0f ae e8 31 c0 ba f2 ff
[189644.682189] #PF: error_code(0x0002) - not-present page
[189644.683373] RSP: 0018:ffffba8c83ccfd48 EFLAGS: 00010212
[189644.683933] PGD 8000000106867067 P4D 8000000106867067
[189644.684520] RAX: 00007ffffffff000 RBX: ffff964888d34800 RCX: 00000000000000de
[189644.684521] PUD 0
[189644.684522] RDX: 000000042fc33080 RSI: 0000000000000000 RDI: ffffba8c83cd1000

[189644.685080] Oops: 0002 [#2] PREEMPT SMP PTI
[189644.685666] RBP: ffffba8c83ccfd60 R08: 0000000000000000 R09: 0000000000000000
[189644.686223] CPU: 0 PID: 1993 Comm: CPU 1/KVM Tainted: P      D    O       6.2.16-3-pve #1
[189644.686225] Hardware name: MSI MS-7816/Z87-G43 (MS-7816), BIOS V1.6 11/27/2013
[189644.686226] RIP: 0010:record_steal_time+0x17a/0x2c0 [kvm]
[189644.686816] R10: 0000000000000000 R11: 0000000000000000 R12: 00007f4adfa33080
[189644.687399] Code: ea 0c e8 09 e1 fd ff 5b 41 5c 41 5d 5d 31 c0 31 d2 31 c9 31 f6 31 ff c3 cc cc cc cc 48 b8 00 f0 ff ff ff 7f 00 00 48 83 f8 3f <66> db 48 83 e8 40 4c 39 e0 72 d2 0f 1f 00 0f ae e8 31 c0 ba f2 ff
[189644.687981] R13: 0000000000000000 R14: ffff964890b80000 R15: ffff964888d34838
[189644.688567] RSP: 0018:ffffba8c8ab0fcf8 EFLAGS: 00010212
[189644.689144] FS:  00007f4aff3236c0(0000) GS:ffff964f7fb80000(0000) knlGS:0000000000000000

[189644.689705] RAX: 00007ffffffff000 RBX: ffff96488edca400 RCX: 00000000000000e4
[189644.689706] RDX: 000000013bb32040 RSI: 0000000000000000 RDI: ffffba8c8aa81000
[189644.690271] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[189644.690831] RBP: ffffba8c8ab0fd10 R08: 0000000000000000 R09: 0000000000000000
[189644.690832] R10: 0000000000000000 R11: 0000000000000000 R12: 00007f8a37932040
[189644.690833] R13: 0000000000000000 R14: ffff96488ede6600 R15: ffff96488edca438
[189644.690834] FS:  00007f8a43dbf6c0(0000) GS:ffff964f7fa00000(0000) knlGS:0000000000000000
[189644.692007] CR2: 00007fffffffef83 CR3: 0000000107dfa001 CR4: 00000000001726e0
[189644.692602] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[189644.699831] CR2: 00007fffffffef83 CR3: 000000010770e004 CR4: 00000000001726f0
[189644.700453] Call Trace:
[189644.701072]  <TASK>
[189644.701691]  kvm_arch_vcpu_ioctl_run+0x12fe/0x1740 [kvm]
[189644.702360]  ? kvm_arch_vcpu_put+0x1a6/0x200 [kvm]
[189644.703027]  ? vcpu_put+0x22/0x60 [kvm]
[189644.703683]  ? kvm_arch_vcpu_ioctl_run+0x4ac/0x1740 [kvm]
[189644.704352]  kvm_vcpu_ioctl+0x297/0x7c0 [kvm]
[189644.705010]  ? kvm_vcpu_ioctl+0x30e/0x7c0 [kvm]
[189644.705669]  ? syscall_exit_to_user_mode+0x29/0x50
[189644.706281]  ? __fget_light+0xa5/0x120
[189644.706882]  __x64_sys_ioctl+0xa0/0xe0
[189644.707441]  do_syscall_64+0x5b/0x90
[189644.707994]  ? exit_to_user_mode_prepare+0x39/0x190
[189644.708548]  ? syscall_exit_to_user_mode+0x29/0x50
[189644.709099]  ? do_syscall_64+0x67/0x90
[189644.709649]  ? do_syscall_64+0x67/0x90
[189644.710198]  ? do_syscall_64+0x67/0x90
[189644.710741]  ? do_syscall_64+0x67/0x90
[189644.711269]  ? do_syscall_64+0x67/0x90
[189644.711788]  entry_SYSCALL_64_after_hwframe+0x72/0xdc
[189644.712301] RIP: 0033:0x7f8a546adafb
[189644.712801] Code: 00 48 89 44 24 18 31 c0 48 8d 44 24 60 c7 04 24 10 00 00 00 48 89 44 24 08 48 8d 44 24 20 48 89 44 24 10 b8 10 00 00 00 0f 05 <89> c2 3d 00 f0 ff ff 77 1c 48 8b 44 24 18 64 48 2b 04 25 28 00 00
[189644.713828] RSP: 002b:00007f8a43dba170 EFLAGS: 00000246 ORIG_RAX: 0000000000000010
[189644.714338] RAX: ffffffffffffffda RBX: 000055c02eef6f20 RCX: 00007f8a546adafb
[189644.714837] RDX: 0000000000000000 RSI: 000000000000ae80 RDI: 000000000000001b
[189644.715328] RBP: 000000000000ae80 R08: 000055c02d764e00 R09: 0000000000000000
[189644.715813] R10: 0000000000000010 R11: 0000000000000246 R12: 0000000000000000
[189644.716288] R13: 0000000000000002 R14: 0000000000000000 R15: 0000000000000000
[189644.716763]  </TASK>
[189644.717233] Modules linked in: tcp_diag inet_diag ebtable_filter ebtables ip_set ip6table_raw iptable_raw ip6table_filter ip6_tables sctp ip6_udp_tunnel udp_tunnel scsi_transport_iscsi iptable_filter bpfilter bonding tls softdog sunrpc nfnetlink_log nfnetlink binfmt_misc intel_rapl_msr intel_rapl_common x86_pkg_temp_thermal intel_powerclamp coretemp snd_hda_codec_hdmi kvm_intel kvm ppdev mei_hdcp mei_pxp irqbypass crct10dif_pclmul polyval_clmulni polyval_generic ghash_clmulni_intel sha512_ssse3 i915 aesni_intel crypto_simd drm_buddy snd_hda_codec_realtek ttm snd_hda_codec_generic drm_display_helper ledtrig_audio cryptd cec snd_hda_intel snd_intel_dspcfg snd_intel_sdw_acpi snd_hda_codec rc_core rapl snd_hda_core drm_kms_helper intel_cstate snd_hwdep pcspkr i2c_algo_bit snd_pcm spi_nor uas syscopyarea mei_me sysfillrect snd_timer input_leds snd parport_pc joydev mxm_wmi at24 mtd sysimgblt mei usb_storage soundcore parport intel_smartconnect mac_hid zfs(PO) zunicode(PO) zzstd(O) zlua(O)
[189644.717278]  zavl(PO) icp(PO) zcommon(PO) znvpair(PO) spl(O) vhost_net vhost vhost_iotlb tap drm efi_pstore dmi_sysfs ip_tables x_tables autofs4 raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c raid0 multipath linear simplefb hid_generic usbkbd usbhid hid raid1 spi_intel_platform spi_intel xhci_pci xhci_pci_renesas r8169 ahci video crc32_pclmul xhci_hcd realtek i2c_i801 i2c_smbus libahci ehci_pci lpc_ich ehci_hcd wmi
[189644.722304] CR2: 00007fffffffef83
[189644.722833] BUG: unable to handle page fault for address: 00007fffffffef83
[189644.722872] ---[ end trace 0000000000000000 ]---

Da der Kernel sich über einen Page Fault beschwert, habe ich auf Verdacht erstmal ksm deaktiviert und beobachte das weiter. Ansonsten... kvm-Bug ?
 
Ist tatsächlich nicht mehr die jüngste Hardware und könnte auch einfach daran liegen (https://pve.proxmox.com/wiki/Upgrad...ardware_and_New_6.2_Kernel_and_Other_Software).
Diese Befürchtung hatte ich auch schon. Wenn es tatsächlich daran liegt, wäre ein Downgrade auf 7.4 und ein Betrieb bis zum EOL vermutlich die einzige Option. Danach müsste dann wohl doch mal neue Hardware her...

Übrigens gab es seit der BIOS V1.6 schon einige weitere Updates, siehe: https://de.msi.com/Motherboard/Z87-G43/support
Die alte BIOS-Version ist meiner Faulheit geschuldet ... der Rechner rödelt seit mindestens 5 Jahren in der Ecke vor sich hin, weit ab von Tastatur und Bildschirm :D

Aber hilft ja nix, ich kümmere mich mal um ein Update. ;)

Du kannst noch ergänzen:
lscpu
pveversion --verbose

Gerne doch:
Code:
# lscpu
Architecture:            x86_64
  CPU op-mode(s):        32-bit, 64-bit
  Address sizes:         39 bits physical, 48 bits virtual
  Byte Order:            Little Endian
CPU(s):                  4
  On-line CPU(s) list:   0-3
Vendor ID:               GenuineIntel
  BIOS Vendor ID:        Intel
  Model name:            Intel(R) Core(TM) i5-4670K CPU @ 3.40GHz
    BIOS Model name:     Intel(R) Core(TM) i5-4670K CPU @ 3.40GHz Fill By OEM CPU @ 3.4GHz
    BIOS CPU family:     205
    CPU family:          6
    Model:               60
    Thread(s) per core:  1
    Core(s) per socket:  4
    Socket(s):           1
    Stepping:            3
    CPU(s) scaling MHz:  100%
    CPU max MHz:         3800.0000
    CPU min MHz:         800.0000
    BogoMIPS:            6800.57
    Flags:               fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr
                          sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good n
                         opl xtopology nonstop_tsc cpuid aperfmperf pni pclmulqdq dtes64 monitor ds_cpl vmx est tm2 ssse3
                         sdbg fma cx16 xtpr pdcm pcid sse4_1 sse4_2 movbe popcnt aes xsave avx f16c rdrand lahf_lm abm cpu
                         id_fault invpcid_single pti tpr_shadow vnmi flexpriority ept vpid ept_ad fsgsbase tsc_adjust bmi1
                          avx2 smep bmi2 erms invpcid xsaveopt dtherm ida arat pln pts
Virtualization features:
  Virtualization:        VT-x
Caches (sum of all):     
  L1d:                   128 KiB (4 instances)
  L1i:                   128 KiB (4 instances)
  L2:                    1 MiB (4 instances)
  L3:                    6 MiB (1 instance)
NUMA:                   
  NUMA node(s):          1
  NUMA node0 CPU(s):     0-3
Vulnerabilities:         
  Itlb multihit:         KVM: Mitigation: Split huge pages
  L1tf:                  Mitigation; PTE Inversion; VMX conditional cache flushes, SMT disabled
  Mds:                   Vulnerable: Clear CPU buffers attempted, no microcode; SMT disabled
  Meltdown:              Mitigation; PTI
  Mmio stale data:       Unknown: No mitigations
  Retbleed:              Not affected
  Spec store bypass:     Vulnerable
  Spectre v1:            Mitigation; usercopy/swapgs barriers and __user pointer sanitization
  Spectre v2:            Mitigation; Retpolines, STIBP disabled, RSB filling, PBRSB-eIBRS Not affected
  Srbds:                 Vulnerable: No microcode
  Tsx async abort:       Not affected

Code:
# pveversion --verbose
proxmox-ve: 8.0.1 (running kernel: 6.2.16-3-pve)
pve-manager: 8.0.3 (running version: 8.0.3/bbf3993334bfa916)
pve-kernel-6.2: 8.0.2
pve-kernel-5.15: 7.4-3
pve-kernel-6.2.16-3-pve: 6.2.16-3
pve-kernel-5.15.107-2-pve: 5.15.107-2
pve-kernel-5.11.22-7-pve: 5.11.22-12
ceph-fuse: 16.2.11+ds-2
corosync: 3.1.7-pve3
criu: 3.17.1-2
glusterfs-client: 10.3-5
ifupdown: residual config
ifupdown2: 3.2.0-1+pmx2
ksmtuned: 4.20150326+b1
libjs-extjs: 7.0.0-3
libknet1: 1.25-pve1
libproxmox-acme-perl: 1.4.6
libproxmox-backup-qemu0: 1.4.0
libproxmox-rs-perl: 0.3.0
libpve-access-control: 8.0.3
libpve-apiclient-perl: 3.3.1
libpve-common-perl: 8.0.5
libpve-guest-common-perl: 5.0.3
libpve-http-server-perl: 5.0.3
libpve-rs-perl: 0.8.3
libpve-storage-perl: 8.0.1
libspice-server1: 0.15.1-1
lvm2: 2.03.16-2
lxc-pve: 5.0.2-4
lxcfs: 5.0.3-pve3
novnc-pve: 1.4.0-2
proxmox-backup-client: 2.99.0-1
proxmox-backup-file-restore: 2.99.0-1
proxmox-kernel-helper: 8.0.2
proxmox-mail-forward: 0.1.1-1
proxmox-mini-journalreader: 1.4.0
proxmox-offline-mirror-helper: 0.6.1
proxmox-widget-toolkit: 4.0.5
pve-cluster: 8.0.1
pve-container: 5.0.3
pve-docs: 8.0.3
pve-edk2-firmware: 3.20230228-4
pve-firewall: 5.0.2
pve-firmware: 3.7-1
pve-ha-manager: 4.0.2
pve-i18n: 3.0.4
pve-qemu-kvm: 8.0.2-3
pve-xtermjs: 4.16.0-3
qemu-server: 8.0.6
smartmontools: 7.3-pve1
spiceterm: 3.3.0
swtpm: 0.8.0+pve1
vncterm: 1.8.0
zfsutils-linux: 2.1.12-pve1
 
  • Like
Reactions: alex#
Ich habe tatsächlich das selbe Problem auf dem neusten 6er Kernel.

Meine Logs zeigen folgendes beim Booten, wo auch in einem Boot loop bleibt und garnicht mehr durchbootet.
NVIDIA_Share_2023-07-05_11-35-31.png

Ich hänge auch mal ein paar Infos zur Hardware und Software an:

lscpu:
Code:
Architecture:            x86_64
  CPU op-mode(s):        32-bit, 64-bit
  Address sizes:         46 bits physical, 48 bits virtual
  Byte Order:            Little Endian
CPU(s):                  32
  On-line CPU(s) list:   0-31
Vendor ID:               GenuineIntel
  BIOS Vendor ID:        Intel(R) Corporation
  Model name:            13th Gen Intel(R) Core(TM) i9-13900
    BIOS Model name:     13th Gen Intel(R) Core(TM) i9-13900 To Be Filled By O.E.M. CPU @ 5.0GHz
    BIOS CPU family:     207
    CPU family:          6
    Model:               183
    Thread(s) per core:  2
    Core(s) per socket:  24
    Socket(s):           1
    Stepping:            1
    CPU(s) scaling MHz:  99%
    CPU max MHz:         5600.0000
    CPU min MHz:         800.0000
    BogoMIPS:            3993.60
    Flags:               fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good
                         nopl xtopology nonstop_tsc cpuid aperfmperf tsc_known_freq pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes                          xsave avx f16c rdrand lahf_lm abm 3dnowprefetch cpuid_fault epb ssbd ibrs ibpb stibp ibrs_enhanced tpr_shadow vnmi flexpriority ept vpid ept_ad fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid                          rdseed adx smap clflushopt clwb intel_pt sha_ni xsaveopt xsavec xgetbv1 xsaves split_lock_detect avx_vnni dtherm ida arat pln pts hwp hwp_notify hwp_act_window hwp_epp hwp_pkg_req umip pku ospke w                         aitpkg gfni vaes vpclmulqdq tme rdpid movdiri movdir64b fsrm md_clear serialize pconfig arch_lbr flush_l1d arch_capabilities
Virtualization features:
  Virtualization:        VT-x
Caches (sum of all):     
  L1d:                   896 KiB (24 instances)
  L1i:                   1.3 MiB (24 instances)
  L2:                    32 MiB (12 instances)
  L3:                    36 MiB (1 instance)
NUMA:                   
  NUMA node(s):          1
  NUMA node0 CPU(s):     0-31
Vulnerabilities:         
  Itlb multihit:         Not affected
  L1tf:                  Not affected
  Mds:                   Not affected
  Meltdown:              Not affected
  Mmio stale data:       Not affected
  Retbleed:              Not affected
  Spec store bypass:     Mitigation; Speculative Store Bypass disabled via prctl and seccomp
  Spectre v1:            Mitigation; usercopy/swapgs barriers and __user pointer sanitization
  Spectre v2:            Mitigation; Enhanced IBRS, IBPB conditional, RSB filling, PBRSB-eIBRS SW sequence
  Srbds:                 Not affected
  Tsx async abort:       Not affected

pveversion --verbose
Code:
proxmox-ve: 8.0.1 (running kernel: 5.15.108-1-pve)
pve-manager: 8.0.3 (running version: 8.0.3/bbf3993334bfa916)
pve-kernel-6.2: 8.0.2
pve-kernel-5.15: 7.4-4
pve-kernel-6.2.16-3-pve: 6.2.16-3
pve-kernel-5.15.108-1-pve: 5.15.108-1
pve-kernel-5.15.102-1-pve: 5.15.102-1
ceph-fuse: 16.2.11+ds-2
corosync: 3.1.7-pve3
criu: 3.17.1-2
glusterfs-client: 10.3-5
ifupdown2: 3.2.0-1+pmx3
ksm-control-daemon: 1.4-1
libjs-extjs: 7.0.0-3
libknet1: 1.25-pve1
libproxmox-acme-perl: 1.4.6
libproxmox-backup-qemu0: 1.4.0
libproxmox-rs-perl: 0.3.0
libpve-access-control: 8.0.3
libpve-apiclient-perl: 3.3.1
libpve-common-perl: 8.0.5
libpve-guest-common-perl: 5.0.3
libpve-http-server-perl: 5.0.3
libpve-rs-perl: 0.8.3
libpve-storage-perl: 8.0.2
libspice-server1: 0.15.1-1
lvm2: 2.03.16-2
lxc-pve: 5.0.2-4
lxcfs: 5.0.3-pve3
novnc-pve: 1.4.0-2
proxmox-backup-client: 3.0.1-1
proxmox-backup-file-restore: 3.0.1-1
proxmox-kernel-helper: 8.0.2
proxmox-mail-forward: 0.2.0
proxmox-mini-journalreader: 1.4.0
proxmox-widget-toolkit: 4.0.5
pve-cluster: 8.0.1
pve-container: 5.0.4
pve-docs: 8.0.4
pve-edk2-firmware: 3.20230228-4
pve-firewall: 5.0.2
pve-firmware: 3.7-1
pve-ha-manager: 4.0.2
pve-i18n: 3.0.4
pve-qemu-kvm: 8.0.2-3
pve-xtermjs: 4.16.0-3
qemu-server: 8.0.6
smartmontools: 7.3-pve1
spiceterm: 3.3.0
swtpm: 0.8.0+pve1
vncterm: 1.8.0
zfsutils-linux: 2.1.12-pve1

Mainboard:

Code:
# dmidecode 3.4
Getting SMBIOS data from sysfs.
SMBIOS 3.5.0 present.

Handle 0x0002, DMI type 2, 15 bytes
Base Board Information
        Manufacturer: ASRockRack
        Product Name: W680D4U-1L
        Version:                       
        Serial Number:                       
        Asset Tag:                       
        Features:
                Board is a hosting board
                Board is replaceable
        Location In Chassis:                       
        Chassis Handle: 0x0003
        Type: Motherboard
        Contained Object Handles: 0

Vielleicht hilft das ganze ja, und jemand kann mir/uns dabei helfen.
Habe als Workaround aktuell den Server auf dem latest 5er Kernel gebootet, damit läuft alles ohne Probleme aktuell.


Grüße, Fabian
 
Vielleicht hilft das ganze ja, und jemand kann mir/uns dabei helfen.
Habe als Workaround aktuell den Server auf dem latest 5er Kernel gebootet, damit läuft alles ohne Probleme aktuell.
Ich habe hier, seitdem ich KSM deaktiviert habe, keine weiteren Crashes auf meiner Maschine gesehen. Uptime mittlerweile fast 5 Tage, vorher hatte ich etwa täglich einen Kernel Panic.

Falls Du ebenfalls KSM nutzt, könntest Du das ebenfalls mal testhalber deaktivieren und beobachten?
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!