Proxmox installiert - hängt sich in erster Nacht auf

mode

Member
Dec 5, 2021
13
0
6
24
Hallo,
ich habe gestern mit voller Beigeisterung meinen Server von VMWare nach Proxmox migriert. Einrichtung und kompatibilität alles so viel besser als beim esxi.
Leider hatte sich die Maschine dann heute Nacht verabschiedet.
journalctl sagt dies:
Code:
Dec 05 05:50:17 prox kernel: BUG: unable to handle page fault for address: ffffffffffffffff
Dec 05 05:50:17 prox kernel: #PF: supervisor read access in kernel mode
Dec 05 05:50:17 prox kernel: #PF: error_code(0x0000) - not-present page
Dec 05 05:50:17 prox kernel: PGD 46b615067 P4D 46b615067 PUD 46b617067 PMD 0
Dec 05 05:50:17 prox kernel: Oops: 0000 [#3] SMP PTI
Dec 05 05:50:17 prox kernel: CPU: 3 PID: 126628 Comm: pveproxy worker Tainted: P      D    O      5.13.19-2-pve #1
Dec 05 05:50:17 prox kernel: Hardware name: MSI MS-7972/Z170M MORTAR (MS-7972), BIOS A.C0 06/25/2018
Dec 05 05:50:17 prox kernel: RIP: 0010:refill_obj_stock+0x45/0xc0
Dec 05 05:50:17 prox kernel: Code: 89 c3 fa 66 0f 1f 44 00 00 49 c7 c4 80 9b 02 00 65 4c 03 25 3d 78 90 5e 49 39 7c 24 10 74 44 49 89 fe 4c 89 e7 e8 cb f4 ff ff <49> 8b 06 a8 03 75 64 65 48 ff 00 e8 0b 3c e2 ff 4d 89 74 24 10 31
Dec 05 05:50:17 prox kernel: RSP: 0018:ffffa9e98b18bbe8 EFLAGS: 00010006
Dec 05 05:50:17 prox kernel: RAX: 00002b7d1101a758 RBX: 0000000000000206 RCX: 0000000000000005
Dec 05 05:50:17 prox kernel: RDX: ffff9e6b9af70c00 RSI: 0000000000000000 RDI: ffff9e6c6eda9b80
Dec 05 05:50:17 prox kernel: RBP: ffffa9e98b18bc08 R08: ffffffffffffffff R09: ffff9e690a2df320
Dec 05 05:50:17 prox kernel: R10: ffff9e690a2df320 R11: 0000000000000000 R12: ffff9e6c6eda9b80
Dec 05 05:50:17 prox kernel: R13: 0000000000000048 R14: ffffffffffffffff R15: ffffed9b8d6eca40
Dec 05 05:50:17 prox kernel: FS:  0000000000000000(0000) GS:ffff9e6c6ed80000(0000) knlGS:0000000000000000
Dec 05 05:50:17 prox kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Dec 05 05:50:17 prox kernel: CR2: ffffffffffffffff CR3: 000000046b610002 CR4: 00000000003726e0
Dec 05 05:50:17 prox kernel: Call Trace:
Dec 05 05:50:17 prox kernel:  obj_cgroup_uncharge+0xe/0x10
Dec 05 05:50:17 prox kernel:  kmem_cache_free+0x2fe/0x430
Dec 05 05:50:17 prox kernel:  ? unlink_anon_vmas+0x6e/0x1c0
Dec 05 05:50:17 prox kernel:  unlink_anon_vmas+0x6e/0x1c0
Dec 05 05:50:17 prox kernel:  free_pgtables+0x93/0xf0
Dec 05 05:50:17 prox kernel:  exit_mmap+0xbe/0x1f0
Dec 05 05:50:17 prox kernel:  mmput+0x5f/0x140
Dec 05 05:50:17 prox kernel:  do_exit+0x30d/0xa20
Dec 05 05:50:17 prox kernel:  do_group_exit+0x3b/0xb0
Dec 05 05:50:17 prox kernel:  __x64_sys_exit_group+0x18/0x20
Dec 05 05:50:17 prox kernel:  do_syscall_64+0x61/0xb0
Dec 05 05:50:17 prox kernel:  ? handle_mm_fault+0xda/0x2c0
Dec 05 05:50:17 prox kernel:  ? exit_to_user_mode_prepare+0x37/0x1b0
Dec 05 05:50:17 prox kernel:  ? irqentry_exit_to_user_mode+0x9/0x20
Dec 05 05:50:17 prox kernel:  ? irqentry_exit+0x19/0x30
Dec 05 05:50:17 prox kernel:  ? exc_page_fault+0x8f/0x170
Dec 05 05:50:17 prox kernel:  ? asm_exc_page_fault+0x8/0x30
Dec 05 05:50:17 prox kernel:  entry_SYSCALL_64_after_hwframe+0x44/0xae
Dec 05 05:50:17 prox kernel: RIP: 0033:0x7f926c960699
Dec 05 05:50:17 prox kernel: Code: Unable to access opcode bytes at RIP 0x7f926c96066f.
Dec 05 05:50:17 prox kernel: RSP: 002b:00007ffc205a7cf8 EFLAGS: 00000246 ORIG_RAX: 00000000000000e7
Dec 05 05:50:17 prox kernel: RAX: ffffffffffffffda RBX: 00007f926ca55610 RCX: 00007f926c960699
Dec 05 05:50:17 prox kernel: RDX: 000000000000003c RSI: 00000000000000e7 RDI: 0000000000000000
Dec 05 05:50:17 prox kernel: RBP: 0000000000000000 R08: ffffffffffffff80 R09: 0000000000000000
Dec 05 05:50:17 prox kernel: R10: fffffffffffff286 R11: 0000000000000246 R12: 00007f926ca55610
Dec 05 05:50:17 prox kernel: R13: 0000000000000174 R14: 00007f926ca55ae8 R15: 0000000000000000
Dec 05 05:50:17 prox kernel: Modules linked in: veth tcp_diag inet_diag rpcsec_gss_krb5 auth_rpcgss nfsv4 nfs lockd grace fscache netfs ebtable_filter ebtables ip_set ip6table_raw iptable_raw ip6table_filter ip6_tables iptable_filter bpfilter w1_smem b>
Dec 05 05:50:17 prox kernel:  icp(PO) zcommon(PO) znvpair(PO) spl(O) vhost_net vhost vhost_iotlb tap ib_iser rdma_cm iw_cm ib_cm ib_core iscsi_tcp libiscsi_tcp libiscsi scsi_transport_iscsi drm sunrpc ip_tables x_tables autofs4 btrfs blake2b_generic xo>
Dec 05 05:50:17 prox kernel: CR2: ffffffffffffffff
Dec 05 05:50:17 prox kernel: ---[ end trace be4c08585ec3aa62 ]---
Dec 05 05:50:17 prox kernel: RIP: 0010:ksm_scan_thread+0x583/0x1c30
Dec 05 05:50:17 prox kernel: Code: 3d 82 70 17 02 4c 89 e6 49 c7 44 24 10 00 00 00 00 48 83 2d 3e 70 17 02 01 e8 29 89 00 00 4d 8b 26 4d 85 e4 0f 84 f4 01 00 00 <49> 8b 44 24 18 48 89 c2 48 81 e2 00 f0 ff ff 48 39 d3 75 a8 48 81
Dec 05 05:50:17 prox kernel: RSP: 0018:ffffa9e9801d3e48 EFLAGS: 00010286
Dec 05 05:50:17 prox kernel: RAX: 0000000000000001 RBX: 00007f8bdac2b000 RCX: 0000000000000004
Dec 05 05:50:17 prox kernel: RDX: 0000000000000000 RSI: 0000000000000004 RDI: ffffed9b8e35db80
Dec 05 05:50:17 prox kernel: RBP: ffffa9e9801d3f08 R08: ffffed9b8e35db80 R09: ffffed9b8d6e1040
Dec 05 05:50:17 prox kernel: R10: 000000035b841067 R11: 0000000000000807 R12: ffffffffffffffff
Dec 05 05:50:17 prox kernel: R13: ffff9e6906c8f2c0 R14: ffff9e6b83042000 R15: ffffed9b8e35db80
Dec 05 05:50:17 prox kernel: FS:  0000000000000000(0000) GS:ffff9e6c6ed80000(0000) knlGS:0000000000000000
Dec 05 05:50:17 prox kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Dec 05 05:50:17 prox kernel: CR2: ffffffffffffffff CR3: 000000010f014006 CR4: 00000000003726e0
Dec 05 05:50:17 prox kernel: Fixing recursive fault but reboot is needed!

Ich habe das Gerät dann hart neugestartet.

Auf der Hardware lief vorher jahrelang esxi ohne einen Ausfall. Ich habe nur ein nvmi ssd auf einem pcie zu m.2 adapter eingebaut und darauf proxmox installiert. Das Board hat leider keinen m.2 slot für ssd. Esxi war auf einer SATA ssd installiert.

Es handelt sich um folgende HW:
MSI MS-7972/Z170M MORTAR mit aktuellem Bios
Intel i5 (glaube gen 6)
8 GB DDR4 RAM
Crucial P2 CT1000P2SSD8 1TB Internes SSD für Proxmox und die VM. Installiert im pcie Adapter
WD 6TB HDD als Datengrab für eine VM.

Folgende Besonderheiten gibt es noch auf dem System:
IP DHCP wurde aktiviert.
Es gibt eine 6 TB Hdd die einfach als Blockdevice einer VM zur verfügung gestellt wird.
Proxmox und alle VM befinden sich auf einer 1TB SDD M.2 nvme die in einem pcie adapter steckt
Das nas ist nur Abends zur Backup Zeit online, daher sind hier die Fehler im log zu erwarten

Anbei das Boot Log nach dem Ausfall.
<Siehe Datei boot_log.txt>

Jemand eine Idee was ich tun kann, damit das System stabil wird?
Gestern war ich noch so begeistert und jetzt bin ich sehr entäuscht, da Stabilität sehr wichtig für mich ist. Mein erster Schritt wäre Proxmox auf einer S-ATA SSD zu installieren und damit nicht mehr den pcie -> m.2 adapter nutzen zu müssen. Könnte das was bringen? Weil in dieser Config lief es unter esxi jahrelang stabil...

Freue mich sehr über Ideen von euch

mode
 

Attachments

Ich habe nun einmal Memtest86 ( https://www.technoy.de/downloads/memtest86-usb/ ) von einem USB Stick gestartet und durchlaufen lassen. Es wurden keine Fehler festgestellt, so dass der RAM nicht schuld sein sollte. Das memtest aus dem Bootloader von proxmox hat leider nicht gebootet (reboot beim auswählen).
 
Wie hast du das NAS eingebunden? Wenn das nur kurz online ist, machst du nach dem Backup einen sauberen unmount?
Wenn ein Storage nicht erreichbar ist mögen alle Hypervisoren nicht.
 
  • Like
Reactions: gmed
Ich habe nun einmal Memtest86 ( https://www.technoy.de/downloads/memtest86-usb/ ) von einem USB Stick gestartet und durchlaufen lassen. Es wurden keine Fehler festgestellt, so dass der RAM nicht schuld sein sollte. Das memtest aus dem Bootloader von proxmox hat leider nicht gebootet (reboot beim auswählen).
Memtest von Proxmox hat zur Zeit ein Problem, wenn via UEFI gebootet wird.
Grundsätzlich sollte memtest längere Zeit laufen, um valide Daten zu bekommen.
Ein einfacher kurzer test von 1 2 Minuten reicht nicht sicher aus.

nur so als Anmerkung zu memtest.
 
Ich habe das NAS ganz normal dauerhaft eingebunden und es ist aber nur 4 STunden am Tag erreichbar. Dies wirft fehler ins Log, ist aber für meinen Zweck nicht schlimm, da das Nas nur für die täglichen Backups benötigt wird.
Ausserdem dürfe ein nicht vorhandenes NAS keinen Kernel Panic auslösen. Ich habe das nas nun entfernt und trotzdem ist das system nach einigen STunden einfach stehen geblieben.
Ich habe proxmox nun auf einen anderen alten rechner umgezogen und dort läuft alles stabil.

memtest hatte ich auf dem Problemrechner eine ganze Nacht durchlaufen lassen.
Gleich kommt eine neue sata ssd. Darauf werde ich eine neue Proxmox installation werfen und schauen ob das Problem verschwindet.....
Sonst würde mir wirklich nix mehr einfallen ausser zB Mainboard tauschen.
 
Bios aktuell? Ich sehe es immer wieder, nach Kernelupdates im Linux oder Windows Rollups gibt es Fehler wenn das BIOS zu alt ist.
 
Evtl. fehlt auch ein firmware-Paket. Soweit ich weiß, nutzt der Proxmox Installer nicht alle firmware-Pakete und das könnte auch zum Ooops führen?
 
Bios Firmware ist up to date. Und die von der SSD Crucial P2 auch
Welches FW Paket könnte fehlen und wo bekomme ich das?
 
Du meinst dies
Code:
deb http://deb.debian.org/debian bullseye main contrib non-free
deb-src http://deb.debian.org/debian bullseye main contrib non-free

deb http://deb.debian.org/debian-security/ bullseye-security main contrib non-free
deb-src http://deb.debian.org/debian-security/ bullseye-security main contrib non-free

deb http://deb.debian.org/debian bullseye-updates main contrib non-free
deb-src http://deb.debian.org/debian bullseye-updates main contrib non-free
in die sources list. apt-get update und dann?

Ich hab aktuell keine Idee welches Paket aus den non-free sources mir fehlen könnte, dass eine kernel panic nach stunden laufzeit auslöst..
 
Last edited:
Es geht nicht darum, daß es installiertes Paket den oops auslöst, sondern dass evtl eines der beiden genannten Pakete bei dir fehlt.
Dadurch läuft zwar das Modul der Hardware und die Hardware kann genutzt werden. Aber eben nicht stabil.

Einfach mal schauen, was apt-get install firmware-linux-free bzwe apt-get install firmware-misc-nonfree macht.
 
Code:
root@prox:~# apt-get install firmware-linux-free
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following packages will be REMOVED:
  proxmox-ve pve-firmware pve-kernel-5.13
The following NEW packages will be installed:
  firmware-linux-free
0 upgraded, 1 newly installed, 3 to remove and 0 not upgraded.
Need to get 24.2 kB of archives.
After this operation, 341 MB disk space will be freed.
Do you want to continue? [Y/n]

klingt irgendwie nicht so gut, oder?
 
Das sollte eigentlich nicht kommen und an der Stelle bricht bitte ab.

Find ich etwas seltsam, da ich sowas schon ohne solche Hinweise installiert habe.
Kann aber unter pve5.x oder 6.x gewesen sein?
 
Last edited:
Ich baue gleich die sata ssd ein und installiere proxmox darauf neu. Melde mich dann wieder.
 
die firmware für den pve-kernel steckt in dem paket "pve-firmware".

Was du probieren könntest ist eine neuere Version vom pve-kernel zu installieren: pve-kernel-5.13 ist installiert aber pve-kernel-5.15 sollte einfach installiert werden können (wenn du die pve-no-subscription repositories verwendest).
 
So bin weitergekommen.
Hab neben der NVME SSD eine SATA SSD installiert und auf der SATA SSD Proxmox frisch installiert. Die NVME SSD wird nicht genutzt. Dann einen frischen Ubuntu Container gestartet, und auf diesem etwas Last erzeugt (wobei das Last erzeugen wahrscheinlich gar nicht notwendig ist).
Nach ca 6 Stunden wird das System zum Zombi. WebIF nicht mehr erreichbar. Proxmox ist noch pingbar. An der Console kann man noch User und Pass eingeben aber bevor die Bash angezeigt ist hängt er sich komplett weg. Keine Chance noch an Logs zu kommen.

Dann habe ich die nicht mehr genutzte NVME SSD komplett aus dem System entfernt und Proxmox nochmals neu auf der SATA installiert (genau wie oben auch schon). Dann wieder Ubuntu Container mit Last gestartet und was soll ich sagen? Das System läuft seit 14h stabil. Und das nur weil ich die nicht mehr verwendete NVME SSD ausgebaut habe.

Also merke: Wenn man ein Mainboard MSI MS-7972/Z170M MORTAR (MS-7972), BIOS A.C0 06/25/2018 hat, sollte man tunlichst keine NVME SSD via PCIe Adapter verwenden....
 
Tja zu früh gefreut. Nach 30 Stunden hat es den Proxmox Server schon wieder erwischt. WebIF nicht erreichbar. Ping geht. Keyboard reagiert nicht und Console siehe Bild. Was nun? Ich kann nicht mehr :-(
 

Attachments

  • Proxmox.jpg
    Proxmox.jpg
    375.9 KB · Views: 14
Hab jetzt mal
apt update && apt install pve-kernel-5.15
wie von abma empfohlen ausgeführt und lasse noch mal den Test laufen
 
Wenn ich das richtig interpretiere ist dir der RAM ausgegangen.
 
Es handelt sich um folgende HW:
MSI MS-7972/Z170M MORTAR mit aktuellem Bios
Intel i5 (glaube gen 6)
8 GB DDR4 RAM
Crucial P2 CT1000P2SSD8 1TB Internes SSD für Proxmox und die VM. Installiert im pcie Adapter
WD 6TB HDD als Datengrab für eine VM.
Wenn ich das richtig interpretiere ist dir der RAM ausgegangen.

Wie ist das system aufgesetzt (ZFS?) und was lauft da an VMs/Container?
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!