Proxmox crashed: "general protection fault: 0000 [#1] SMP NOPTI"

Aug 29, 2020
2
0
1
26
Guten Abend,

ich habe jetzt sein einigen Tagen damit zu kämpfen, dass mir Proxmox abstürzt. Ich hatte gehofft, dass mich jemand in die richtige Richtung schubsen kann, damit ich dem Problem Herr werde.
Mein System kann man für so eine Anwendung exotisch nennen. Es soll aber nur ein Homelab-Server sein wo 2-4 VMs drauf laufen zum basteln, paar Dienste hosten und NAS über SMB.

Mein System:
  • AMD Ryzen 3 3200G
  • Asrock B450M Pro4 B450 gepatched auf 4.30 (AGESA 1.0.0.6)
  • 16 GB RAM G.Skill Ripjaws V F4-3200C16D-16GVKB (läuft auf 2133MHz ohne XMP)
  • System-SSD: Crucial BX500 120 GB
  • Crucial MX500 500 GB (LVM-Thin)
  • WD 4TB WD40EFAX Red (LVM-Thin)
Im BIOS ist "global C-State control", "immou", "XMP" deaktiviert.
Es laufen bisher 2 Ubuntu VMs.
  1. Läuft auf der 500GB SSD, 2 GB RAM, 2 Kerne
  2. Läuft auf der 500GB SSD HDD gemounted, 2 GB RAM, 2 Kerne
Ich hab keine Anhaltspunkte außer, dass es jetzt schon 2 mal während eines rsync-Jobs (NAS-VM) zu/von HiDrive abgestürzt ist. Die VMs laufen meistens weiter, aber an der Proxmox Node bzw. in der Weboberfläche kann sich nicht angemeldet werden. Ich sehe auf dem Monitor nur den Dump und kann mich versuchen anzumelden und ein reboot auszuführen. Anmelden kann ich mich, der Reboot wird aber nie fertig.

Ich hoffe mir kann wer weiterhelfen. RAM-Tausch ist noch verkraftbar, aber ich würde es erstmal versuchen ohne die Hardware zu tauschen.

Vielen Dank!

Der neueste Dump, seitdem ich eine Neu-Installation probiert hab.
Code:
Aug 29 21:47:25 rasputin kernel: [ 8976.769483] general protection fault: 0000 [#1] SMP NOPTI
Aug 29 21:47:25 rasputin kernel: [ 8976.769512] CPU: 2 PID: 1151 Comm: pvedaemon worke Tainted: P           O      5.4.44-2-pve #1
Aug 29 21:47:25 rasputin kernel: [ 8976.769539] Hardware name: To Be Filled By O.E.M. To Be Filled By O.E.M./B450M Pro4, BIOS P4.30 07/14/2020
Aug 29 21:47:25 rasputin kernel: [ 8976.769572] RIP: 0010:vma_interval_tree_insert_after+0x37/0x90
Aug 29 21:47:25 rasputin kernel: [ 8976.769592] Code: 48 89 f9 48 2b 07 48 8b 97 98 00 00 00 4c 8d 4e 60 48 c1 e8 0c 48 8d 54 10 ff 48 8b 46 60 48 89 e5 48 85 c0 74 1b 48 8d 70 a8 <48> 39 50 18 73 04 48 89 50 18 48 8b 46 68 48 85 c0 75 e9 4c 8d 4e
Aug 29 21:47:25 rasputin kernel: [ 8976.769645] RSP: 0018:ffffaee180affd28 EFLAGS: 00010206
Aug 29 21:47:25 rasputin kernel: [ 8976.769662] RAX: 5fff98122215f7e8 RBX: ffff981224e62640 RCX: ffff981247d25a00
Aug 29 21:47:25 rasputin kernel: [ 8976.769684] RDX: 00000000000000eb RSI: 5fff98122215f790 RDI: ffff981247d25a00
Aug 29 21:47:25 rasputin kernel: [ 8976.769705] RBP: ffffaee180affd28 R08: ffff9812350a7a60 R09: ffff98122205f4b0
Aug 29 21:47:25 rasputin kernel: [ 8976.769726] R10: 0000000000000000 R11: 0000000000000000 R12: ffff9812350a7a40
Aug 29 21:47:25 rasputin kernel: [ 8976.769748] R13: ffff98122205f450 R14: ffff9812350a7a70 R15: ffff981247d25a00
Aug 29 21:47:25 rasputin kernel: [ 8976.769770] FS:  00007f7ba1a411c0(0000) GS:ffff981250880000(0000) knlGS:0000000000000000
Aug 29 21:47:25 rasputin kernel: [ 8976.769794] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Aug 29 21:47:25 rasputin kernel: [ 8976.769811] CR2: 000055bc4df11ed8 CR3: 00000003e4fae000 CR4: 00000000003406e0
Aug 29 21:47:25 rasputin kernel: [ 8976.769832] Call Trace:
Aug 29 21:47:25 rasputin kernel: [ 8976.769845]  dup_mm+0x34b/0x5c0
Aug 29 21:47:25 rasputin kernel: [ 8976.769857]  copy_process+0x141d/0x1b90
Aug 29 21:47:25 rasputin kernel: [ 8976.769870]  _do_fork+0x85/0x350
Aug 29 21:47:25 rasputin kernel: [ 8976.769882]  ? recalc_sigpending+0x1b/0x60
Aug 29 21:47:25 rasputin kernel: [ 8976.769896]  ? __set_task_blocked+0x72/0x90
Aug 29 21:47:25 rasputin kernel: [ 8976.769910]  __x64_sys_clone+0x8f/0xb0
Aug 29 21:47:25 rasputin kernel: [ 8976.769924]  do_syscall_64+0x57/0x190
Aug 29 21:47:25 rasputin kernel: [ 8976.769938]  entry_SYSCALL_64_after_hwframe+0x44/0xa9
Aug 29 21:47:25 rasputin kernel: [ 8976.769954] RIP: 0033:0x7f7ba1b427be
Aug 29 21:47:25 rasputin kernel: [ 8976.769966] Code: db 0f 85 25 01 00 00 64 4c 8b 0c 25 10 00 00 00 45 31 c0 4d 8d 91 d0 02 00 00 31 d2 31 f6 bf 11 00 20 01 b8 38 00 00 00 0f 05 <48> 3d 00 f0 ff ff 0f 87 b6 00 00 00 41 89 c4 85 c0 0f 85 c3 00 00
Aug 29 21:47:25 rasputin kernel: [ 8976.770020] RSP: 002b:00007fff3fa38800 EFLAGS: 00000246 ORIG_RAX: 0000000000000038
Aug 29 21:47:25 rasputin kernel: [ 8976.770043] RAX: ffffffffffffffda RBX: 0000000000000000 RCX: 00007f7ba1b427be
Aug 29 21:47:25 rasputin kernel: [ 8976.770064] RDX: 0000000000000000 RSI: 0000000000000000 RDI: 0000000001200011
Aug 29 21:47:25 rasputin kernel: [ 8976.770085] RBP: 0000000000000000 R08: 0000000000000000 R09: 00007f7ba1a411c0
Aug 29 21:47:25 rasputin kernel: [ 8976.770106] R10: 00007f7ba1a41490 R11: 0000000000000246 R12: 000055bc4cbffe68
Aug 29 21:47:25 rasputin kernel: [ 8976.770127] R13: 00007fff3fa38840 R14: 000055bc4bf34260 R15: 0000000000000000
Aug 29 21:47:25 rasputin kernel: [ 8976.770149] Modules linked in: veth ebtable_filter ebtables ip_set ip6table_raw iptable_raw ip6table_filter ip6_tables iptable_filter bpfilter bonding softdog nfnetlink_log nfnetlink edac_mce_amd kvm_amd ccp kvm irqbypass snd_hda_codec_realtek snd_hda_codec_generic ledtrig_audio amdgpu wmi_bmof snd_hda_codec_hdmi amd_iommu_v2 gpu_sched snd_hda_intel ttm snd_intel_dspcfg snd_hda_codec drm_kms_helper snd_hda_core snd_hwdep drm joydev snd_pcm input_leds snd_timer i2c_algo_bit fb_sys_fops snd syscopyarea sysfillrect soundcore sysimgblt crct10dif_pclmul crc32_pclmul ghash_clmulni_intel mac_hid k10temp aesni_intel crypto_simd pcspkr cryptd zfs(PO) glue_helper zunicode(PO) zlua(PO) zavl(PO) icp(PO) zcommon(PO) znvpair(PO) spl(O) vhost_net vhost tap ib_iser rdma_cm iw_cm ib_cm ib_core iscsi_tcp libiscsi_tcp libiscsi sunrpc scsi_transport_iscsi ip_tables x_tables autofs4 btrfs xor zstd_compress raid6_pq dm_thin_pool dm_persistent_data dm_bio_prison dm_bufio libcrc32c hid_generic usbkbd usbhid hid
Aug 29 21:47:25 rasputin kernel: [ 8976.770182]  i2c_piix4 xhci_pci r8169 xhci_hcd realtek ahci libahci wmi video gpio_amdpt gpio_generic
Aug 29 21:47:25 rasputin kernel: [ 8976.770458] ---[ end trace 55dcf2f1cdd5c996 ]---
Aug 29 21:47:25 rasputin kernel: [ 8976.770473] RIP: 0010:vma_interval_tree_insert_after+0x37/0x90
Aug 29 21:47:25 rasputin kernel: [ 8976.770492] Code: 48 89 f9 48 2b 07 48 8b 97 98 00 00 00 4c 8d 4e 60 48 c1 e8 0c 48 8d 54 10 ff 48 8b 46 60 48 89 e5 48 85 c0 74 1b 48 8d 70 a8 <48> 39 50 18 73 04 48 89 50 18 48 8b 46 68 48 85 c0 75 e9 4c 8d 4e
Aug 29 21:47:25 rasputin kernel: [ 8976.770550] RSP: 0018:ffffaee180affd28 EFLAGS: 00010206
Aug 29 21:47:25 rasputin kernel: [ 8976.770566] RAX: 5fff98122215f7e8 RBX: ffff981224e62640 RCX: ffff981247d25a00
Aug 29 21:47:25 rasputin kernel: [ 8976.770587] RDX: 00000000000000eb RSI: 5fff98122215f790 RDI: ffff981247d25a00
Aug 29 21:47:25 rasputin kernel: [ 8976.770609] RBP: ffffaee180affd28 R08: ffff9812350a7a60 R09: ffff98122205f4b0
Aug 29 21:47:25 rasputin kernel: [ 8976.770630] R10: 0000000000000000 R11: 0000000000000000 R12: ffff9812350a7a40
Aug 29 21:47:25 rasputin kernel: [ 8976.770651] R13: ffff98122205f450 R14: ffff9812350a7a70 R15: ffff981247d25a00
Aug 29 21:47:25 rasputin kernel: [ 8976.770672] FS:  00007f7ba1a411c0(0000) GS:ffff981250880000(0000) knlGS:0000000000000000
Aug 29 21:47:25 rasputin kernel: [ 8976.770696] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Aug 29 21:47:25 rasputin kernel: [ 8976.770714] CR2: 000055bc4df11ed8 CR3: 00000003e4fae000 CR4: 00000000003406e0

pveversion -v
Code:
proxmox-ve: 6.2-1 (running kernel: 5.4.44-2-pve)
pve-manager: 6.2-10 (running version: 6.2-10/a20769ed)
pve-kernel-5.4: 6.2-4
pve-kernel-helper: 6.2-4
pve-kernel-5.4.44-2-pve: 5.4.44-2
pve-kernel-5.4.34-1-pve: 5.4.34-2
ceph-fuse: 12.2.11+dfsg1-2.1+b1
corosync: 3.0.4-pve1
criu: 3.11-3
glusterfs-client: 5.5-3
ifupdown: residual config
ifupdown2: 3.0.0-1+pve2
ksm-control-daemon: 1.3-1
libjs-extjs: 6.0.1-10
libknet1: 1.16-pve1
libproxmox-acme-perl: 1.0.4
libpve-access-control: 6.1-2
libpve-apiclient-perl: 3.0-3
libpve-common-perl: 6.1-5
libpve-guest-common-perl: 3.1-2
libpve-http-server-perl: 3.0-6
libpve-storage-perl: 6.2-5
libqb0: 1.0.5-1
libspice-server1: 0.14.2-4~pve6+1
lvm2: 2.03.02-pve4
lxc-pve: 4.0.2-1
lxcfs: 4.0.3-pve3
novnc-pve: 1.1.0-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.2-9
pve-cluster: 6.1-8
pve-container: 3.1-12
pve-docs: 6.2-5
pve-edk2-firmware: 2.20200531-1
pve-firewall: 4.1-2
pve-firmware: 3.1-1
pve-ha-manager: 3.0-9
pve-i18n: 2.1-3
pve-qemu-kvm: 5.0.0-11
pve-xtermjs: 4.3.0-1
qemu-server: 6.2-11
smartmontools: 7.1-pve2
spiceterm: 3.1-1
vncterm: 1.6-1
zfsutils-linux: 0.8.4-pve1
 
Hallo,

ich hab das Wochenende noch ein wenig Zeit investiert und bisher läuft es seit 24h. Am Ende der Woche, wenn nichts passiert, stelle ich den Thread auf Solved.
Für die Nachwelt halte ichs mal fest.

Ich habe mich per SSH aus versehen auf eine VM angemeldet. Eigentlich wollte ich die CPU-Frequenz messen.
Code:
watch -n1 "cat /proc/cpuinfo | grep \"^[c]pu MHz\""

Auf der VM hat sich an der Frequenz nichts geändert, was ja klar ist, die VMs kriegen nicht mit, wenn sich die Frequenz ändert.
Auf der Node jedoch ist der CPU frequenzmäßig über der Spezifikation gelaufen, da habe ich das auch nochmal geprüft.

Ich AMD Core-Boost (CBS) deaktiviert.

Das Fiese an diesem ASROCK-Mainboard war, dass eine Option in den Overclocking-Einstellungen (SoC/Uncore OC Mode) default-mäßig an war.
Lasst euch nicht von Accept/Decline im BIOS abschrecken, in dem Fall hätte man sowieso keine Chance gehabt, da es schon aktiviert war.

Vielleicht probier ich, dass ich CBS nochmal aktiviere und es nichts damit zu tun hatte. Da könnte mir möglicherweise jemand nochmal Feedback geben.

Danke und
Servus!
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!