Proxmox Server friert sporadisch ein - Hilfe benötigt

Maximilian2024 · Jun 6, 2024

Hallo zusammen,

ich habe ein Problem mit meinem Proxmox Server. Dieser friert immer mal wieder ein, was natürlich sehr störend ist. Das Einfrieren kann nicht willentlich herbeigerufen werden, sondern tritt immer mal wieder auf - manchmal nach einigen Minuten, manchmal nach einigen Stunden.

Nach einem Ratschlag auf einem Discord-Server habe ich bereits den Tipp bekommen, kdump zu installieren und die Log-Dateien hier zu posten. Hat jemand einen Tipp für mich, was der Fehler sein könnte oder wie ich das Problem weiter eingrenzen kann? Der Fehler tritt übrigens auch mit dem 6.8 Kernel auf.

CPU(s) 16 x AMD Ryzen 7 4800U with Radeon Graphics (1 Socket)
Kernel Version Linux 6.5.13-5-pve (2024-04-05T11:03Z)
Boot Mode EFI
Manager Version pve-manager/8.2.2/9355359cd7afbae4

Beste Grüße,
Max

quanto11 · Jun 6, 2024

Hey Max,

ich kann folgendes aus den Logs lesen:

Code:

ACPI BIOS Error (bug): Failure creating named object [\SMIB], AE_ALREADY_EXISTS

Measured 2844 cycles TSC warp between CPUs, turning off TSC clock

ACPI: PCI: Interrupt link LNKA configured for IRQ 0

[    0.463370] DMA: preallocated 4096 KiB GFP_KERNEL pool for atomic allocations
[    0.465068] DMA: preallocated 4096 KiB GFP_KERNEL|GFP_DMA pool for atomic allocations
[    0.465482] DMA: preallocated 4096 KiB GFP_KERNEL|GFP_DMA32 pool for atomic allocations

Zenbleed: please update your microcode for the most optimal fix

Welches System/Mainboard verwendest du und ist die Firmware aktuell? Hast du die Bios Einstellungen manuell angepasst? Hast du eventuell vorhandene Ressourcen deutlich überprovisioniert?

Maximilian2024 · Jun 6, 2024

Hallo, danke für die schnelle Rückmeldung.

Das System ist ein "Hardware name: To Be Filled By O.E.M. 4X4 BOX/4X4-4000 Series, BIOS P1.30 11/27/2020".

Das BIOS ist seit dem dritten Crash heute auf die für das System aktuellste Version 1.6 upgedatet. Im BIOS wurden keine "besonderen" Einstellungen vorgenommen.

Eigentlich habe ich nur die Soundkarte deaktiviert, damit sie keine Fehler verursacht, und den Shared Memory Speicher für die Grafikkarte auf 16 MB gestellt.

Kannst du mir sagen, was du hiermit meinst?

Hast du eventuell vorhandene Ressourcen deutlich überprovisioniert?

Für die VMs?

Nein, die VMs, die jetzt noch auf dem System laufen, nutzen weniger als 50% des RAMs.

Das Einzige, was überbeansprucht sein könnte, ist die CPU, da nicht genug Kerne für die VMs vorhanden sind.

Auch das ressourcenintensivste Programm, Zoneminder für die Igel-Kamera, ist mittlerweile auf einen älteren Rechner umgezogen. Jetzt laufen nur noch VMs für Vaultwarden, Paperless, AdGuard und ähnliche Anwendungen auf dem System.

quanto11 · Jun 6, 2024

Code:

"Hardware name: To Be Filled By O.E.M. 4X4 BOX/4X4-4000 Series, BIOS P1.30 11/27/2020".

Das sagt überhaupt nichts über dein System aus. Gib uns doch mal die kompletten Specs. Vielleicht mit einpaar Screenshots vom PVE Host selbst. Ich vermute du verwendest einen Laptop für Proxmox?

Code:

Das Einzige, was überbeansprucht sein könnte, ist die CPU, da nicht genug Kerne für die VMs vorhanden sind.

Das könnte ja schon dein Problem sein, aber das erkennst du ja auch im Dashboard unter Summary -> CPU usage

Maximilian2024 · Jun 6, 2024

Nein, es ist kein Laptop. Es ist ein Mini-PC:

ASRock 4X4 4800U: ASRock 4X4 4800U

AMD Ryzen™ 4000U-Series 4800U
2 x 260-pin SO-DIMM DDR4 3200 MHz, bis zu 64GB (32GB pro DIMM)
3 x USB 3.2 Gen2, 2 x USB 2.0, 1 x M.2 Key M, 1 x M.2 Key E (WiFi-6), 1 x SATA3
1 x Realtek 1 Gigabit LAN, 1 x Realtek 2.5 Gigabit LAN
Unterstützt Quad-Display: 1 x HDMI 2.0a, 3 x DP 1.2a (2 über Type-C)
TPM 2.0 onboard IC
19V/90W Netzteil
Abmessungen: 117.5 x 110.0 x 47.85 mm (4.63" x 4.33" x 1.88"), mit Lüfter (Fanned Barebone)

Es ist eine Samsung 4TB NVMe sowie eine 2TB Crucial SSD verbaut.
Der RAM 64GB ist, wenn ich mich richtig erinnere, von Kingston und wurde bereits mit MemTest86 geprüft. Es wurden keine Fehler festgestellt.

Ich habe 24 VMs laufen, jede mit 1 Kern.

quanto11 · Jun 6, 2024

Das sieht alles ganz gut aus, an der Auslastung sollte es nicht liegen. Was du versuchen kannst ist, den SWAP komplett auszuschalten.

Das andere wäre, die Energieoptionen im Bios Testweise auf Maximale Performance zu stellen und alle Energiespar Optionen zu deaktivieren.

Lass einfach mal einen RAM Test durchlaufen -> Memtest.

Kannst du nochmal genauer beschreiben was einfrieren bedeutet? Lässt sich der Host oder die VMs anpingen? Funktioniert die GUI, was sieht man in der Konsolenausgabe vom Host?

hast du unter "/etc/default/grub" zusätzliche Einstellungen vorgenommen?

ThoSo · Jun 6, 2024

"Ich habe 24 VMs laufen, jede mit 1 Kern."
Das ist für die kleine Kiste aber sehr mutig und das ist auch keine Server-Hardware!

Irgend etwas auffälliges in den LOGs (var/log) : syslog, messages, kern ?
Tritt der Fehler auch auf, wenn keine VM läuft?
Kann da eine VM "ausrasten" und das System auslasten ?
Sind in den VMs Qemu Agenten installiert ?
Temperaturprobleme beim Rechner / CPU?

Maximilian2024 · Jun 6, 2024

Wie gesagt, der MemTest mit MemTest86 wurde durchgeführt (siehe Screenshots aus meinem vorherigen Beitrag) und es wurden keine Fehler festgestellt.

Die Energieeinstellungen sind komplett deaktiviert und alles steht auf "Performance".

Einstellungen in GRUB wurden nicht vorgenommen. Das System ist auch nicht hochupgedatet worden. Es ist ein komplett neu aufgesetztes System, da ich die Vermutung hatte, dass vielleicht durch die ständigen Updates etwas hängen geblieben war. Daher habe ich das System vor 3 Wochen neu aufgesetzt, um wirklich keine Altlasten (abgesehen von den VMs) zu haben.

Was bedeutet "Einfrieren"?

Laut der LAN-LED hat der Rechner Aktivität - sie blinkt.
Ein Ping erreicht weder den Host noch die laufenden VMs.
Am angeschlossenen Bildschirm blinkt der Cursor im Login-Prompt nicht mehr und steht still.
Die Num-Lock-Lampe an der Tastatur lässt sich nicht umschalten.

Das komplette System ist in diesem Zustand eingefroren.

Falk R. · Jun 6, 2024

Welchen Kernel nutzt du denn?

Maximilian2024 · Jun 6, 2024

Ich habe hier mal alle Daten, die ich bisher habe, zusammengesammelt und hochgeladen: Nextcloud-Link

Darin befinden sich alle bisherigen Syslogs, Dumps und was ich sonst noch habe. Die Dump-Dateien sollte ich sammeln, aber ich weiß nicht, was ich damit anfangen soll. Vielleicht kann jemand von euch weiterhelfen und mit den Dumps den Fehler finden?

Die Fragen, die ich noch nicht beantwortet hatte:Bei den Logs habe ich zumindest nichts gesehen, was interessant sein könnte.

Der Kernel ist aktuell:
Linux prox-host 6.5.13-5-pve #1 SMP PREEMPT_DYNAMIC PMX 6.5.13-5 (2024-04-05T11:03Z) x86_64 GNU/Linux

Aber das Problem trat auch bei Kernel 6.8 auf. Ich sollte den Downgrade auf 6.5 versuchen, um Bugs auszuschließen.

Ich hole nochmal etwas aus, da die Vermutung besteht, dass es an den VMs bzw. der Auslastung der CPU liegt - daher eine etwas längere Geschichte.

Der ASRock dient(e) mir jetzt seit ein paar Jahren als Proxmox Server. Irgendwann im August/September 2023 ist mir aufgefallen, dass der ASRock hin und wieder abstürzt. Zu diesem Zeitpunkt hatte ich es auf die NVMe geschoben. Diese hatte anscheinend defekte Sektoren, so haben es mir zumindest ein paar Testprogramme auf meinem Computer gezeigt, und auch, dass die NVMe anscheinend SMART-Fehler hatte. Die Daten darauf waren auch nicht mehr vollständig auszulesen.

Daraufhin habe ich mir eine neue NVMe (die Samsung) zugelegt und alles mehr oder weniger wieder im ASRock eingebaut. Da die Abstürze weiterhin auftraten und teilweise innerhalb von Minuten zum Absturz führten, habe ich mich um einen "alten" Ersatz bemüht und die VMs alle auf den leistungsschwächeren Ersatz geschoben. Der alte Rechner hat nur sechs Kerne (inklusive Threads).

Dann gab es vor einiger Zeit einen anderen Ryzen im Angebot - ich habe ihn mir geholt und wollte den neuen Ryzen wieder zu meinem Haupt-Proxmox-Server machen. Aber auch bei dem neuen habe ich dann irgendwann gemerkt, dass er gelegentlich einfriert.
Die VMs, die auf dem ASRock liefen, sind dieselben VMs, die jetzt auf dem alten Rechner laufen. Der ASRock werkelt aktuell in einem eigenen VLAN, wo nichts anderes mehr ist, und ich nutze nur noch die VMs, die auf dem alten Rechner laufen. Der alte Rechner ist allerdings gut am Schuften, da hier die Auslastung bei konstant >70% CPU-Leistung liegt, und er läuft stabil.

Da der ASRock und der neue Ryzen die Freezes aufweisen, während der alte Rechner mit deutlich mehr VMs und Auslastung (wie gesagt, Zoneminder und mein Minecraft-Server sind nicht mehr drauf) stabil läuft, dürfte es meiner Meinung nach kein Problem der VMs sein. Ich vermute eher einen Softwarefehler, da auch der neue Ryzen Abstürze hatte und daraufhin zurückging - ich dachte, die Hardware wäre ebenfalls defekt.

Aber dass zwei Rechner unabhängig voneinander einfrieren, kann ich mir im Nachhinein nicht vorstellen. Daher dieser Beitrag, um dem Fehler auf die Spur zu kommen.
Ach so, eins noch: Der neue Ryzen hatte seinen eigenen RAM und alles mitgebracht. Es wurde also nur die Software und die VMs geklont.

Ich bin der Meinung, der Fehler trat ende 2023 auf, nachdem ich ein apt update / apt upgrade gemacht hatte. Ich kann das jedoch nicht bestätigen und es könnte nur subjektiv sein, da der Fehler möglicherweise mit der defekten NVMe einherging. Zu diesem Zeitpunkt werkelte auch noch Btrfs auf dem Rechner, wovon mir dringend abgeraten wurde.

quanto11 · Jun 7, 2024

was genau macht die USB Festplatte?

hier hat wohl der freeze angefangen:

Code:

192.168.3.30    Jun  6 08:56:25    prox-host    daemon    err    pvestatd[1497]    VM 114 qmp command failed - VM 114 qmp command 'query-proxmox-support' failed - got timeout
192.168.3.30    Jun  6 08:56:25    prox-host    daemon    info    pvestatd[1497]    status update time (5.141 seconds)
192.168.3.30    Jun  6 08:56:38    prox-host    daemon    err    pvestatd[1497]    VM 114 qmp command failed - VM 114 qmp command 'query-proxmox-support' failed - unable to connect to VM 114 qmp socket - timeout after 51 retries
192.168.3.30    Jun  6 08:56:38    prox-host    daemon    info    pvestatd[1497]    status update time (8.132 seconds)
192.168.3.30    Jun  6 08:56:48    prox-host    daemon    err    pvestatd[1497]    VM 114 qmp command failed - VM 114 qmp command 'query-proxmox-support' failed - unable to connect to VM 114 qmp socket - timeout after 51 retries
192.168.3.30    Jun  6 08:56:48    prox-host    daemon    info    pvestatd[1497]    status update time (8.152 seconds)
192.168.3.30    Jun  6 08:56:59    prox-host    daemon    err    pvestatd[1497]    VM 114 qmp command failed - VM 114 qmp command 'query-proxmox-support' failed - unable to connect to VM 114 qmp socket - timeout after 51 retries
192.168.3.30    Jun  6 08:56:59    prox-host    daemon    info    pvestatd[1497]    status update time (8.150 seconds)
192.168.3.30    Jun  6 08:57:53    prox-host    kern    alert    kernel    [ 3631.516053] BUG: unable to handle page fault for address: 0000034d87394000
192.168.3.30    Jun  6 08:57:53    prox-host    kern    emerg    kernel    [ 3642.797110] watchdog: Watchdog detected hard LOCKUP on cpu 10
192.168.3.30    Jun  6 08:57:53    prox-host    kern    warning    kernel    [ 3642.797113] Modules linked in: ebtable_filter ebtables ip_set ip6table_raw iptable_raw ip6table_filter ip6_tables iptable_filter bpfilter nf_tables softdog libcrc32c bonding tls sunrpc nfnetlink_log nfnetlink binfmt_misc intel_rapl_msr intel_rapl_common edac_mce_amd snd_sof_amd_rembrandt snd_sof_amd_renoir kvm_amd snd_sof_amd_acp snd_sof_pci snd_sof_xtensa_dsp kvm amdgpu snd_sof irqbypass crct10dif_pclmul polyval_clmulni snd_sof_utils polyval_generic snd_intel_dspcfg ghash_clmulni_intel snd_intel_sdw_acpi sha256_ssse3 sha1_ssse3 snd_soc_core amdxcp aesni_intel iwlmvm iommu_v2 crypto_simd snd_compress drm_buddy ac97_bus cryptd gpu_sched snd_pcm_dmaengine drm_suballoc_helper snd_pci_ps drm_ttm_helper snd_rpl_pci_acp6x mac80211 ttm snd_acp_pci rapl libarc4 snd_pci_acp6x drm_display_helper snd_pcm cec btusb snd_timer rc_core snd btrtl iwlwifi soundcore btbcm btintel drm_kms_helper snd_pci_acp5x btmtk bluetooth i2c_algo_bit snd_rn_pci_acp3x cfg80211 snd_acp_config joydev ecdh_generic snd_soc_acpi ipmi_devintf snd_pci_acp3x
192.168.3.30    Jun  6 08:57:53    prox-host    kern    warning    kernel    [ 3642.797178]  ecc input_leds pcspkr ipmi_msghandler ccp k10temp mac_hid zfs(PO) spl(O) vhost_net vhost vhost_iotlb tap drm efi_pstore dmi_sysfs ip_tables x_tables autofs4 simplefb hid_generic usbkbd usbhid hid uas usb_storage ahci xhci_pci nvme xhci_pci_renesas crc32_pclmul xhci_hcd nvme_core ehci_pci libahci i2c_piix4 r8169 nvme_common ehci_hcd realtek video wmi
192.168.3.30    Jun  6 08:57:53    prox-host    kern    warning    kernel    [ 3642.797208] CPU: 10 PID: 0 Comm: swapper/10 Kdump: loaded Tainted: P           O       6.5.13-5-pve #1
192.168.3.30    Jun  6 08:57:53    prox-host    kern    warning    kernel    [ 3642.797210] Hardware name: To Be Filled By O.E.M. 4X4 BOX/4X4-4000 Series, BIOS P1.30 11/27/2020
192.168.3.30    Jun  6 08:57:53    prox-host    kern    warning    kernel    [ 3642.797212] RIP: 0010:native_queued_spin_lock_slowpath+0x7f/0x2d0
192.168.3.30    Jun  6 08:57:53    prox-host    kern    warning    kernel    [ 3642.797217] Code: 00 00 f0 0f ba 2b 08 0f 92 c2 8b 03 0f b6 d2 c1 e2 08 30 e4 09 d0 3d ff 00 00 00 77 5f 85 c0 74 10 0f b6 03 84 c0 74 09 f3 90 <0f> b6 03 84 c0 75 f7 b8 01 00 00 00 66 89 03 5b 41 5c 41 5d 41 5e
192.168.3.30    Jun  6 08:57:53    prox-host    kern    warning    kernel    [ 3642.797218] RSP: 0018:ffffb670802707e0 EFLAGS: 00000002
192.168.3.30    Jun  6 08:57:53    prox-host    kern    warning    kernel    [ 3642.797220] RAX: 0000000000000001 RBX: ffff903d6f0b3100 RCX: 0000000000000000
192.168.3.30    Jun  6 08:57:53    prox-host    kern    warning    kernel    [ 3642.797221] RDX: 0000000000000000 RSI: 0000000000000001 RDI: ffff903d6f0b3100
192.168.3.30    Jun  6 08:57:53    prox-host    kern    warning    kernel    [ 3642.797222] RBP: ffffb67080270800 R08: 000000000000000a R09: 0000000000000000
192.168.3.30    Jun  6 08:57:53    prox-host    kern    warning    kernel    [ 3642.797223] R10: 0000000000000000 R11: 0000000000000000 R12: ffff903d6f0b3100
192.168.3.30    Jun  6 08:57:53    prox-host    kern    warning    kernel    [ 3642.797224] R13: 0000000000000000 R14: 0000000000000006 R15: ffff902e630b8ca4
192.168.3.30    Jun  6 08:57:53    prox-host    kern    warning    kernel    [ 3642.797225] FS:  0000000000000000(0000) GS:ffff903d6f080000(0000) knlGS:0000000000000000
192.168.3.30    Jun  6 08:57:53    prox-host    kern    warning    kernel    [ 3642.797227] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
192.168.3.30    Jun  6 08:57:53    prox-host    kern    warning    kernel    [ 3642.797228] CR2: 0000034d87394000 CR3: 0000000344778000 CR4: 0000000000350ee0
192.168.3.30    Jun  6 08:57:53    prox-host    kern    warning    kernel    [ 3642.797229] Call Trace:
192.168.3.30    Jun  6 08:57:53    prox-host    kern    warning    kernel    [ 3642.797231]  <NMI>

ThoSo · Jun 7, 2024

192.168.3.30 Jun 6 08:20:24 prox-host daemon info systemd[1] user-0.slice: Consumed 2.261s CPU time.
192.168.3.30 Jun 6 08:25:59 prox-host daemon info smartd[1101] Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 67 to 65
192.168.3.30 Jun 6 08:25:59 prox-host daemon info smartd[1101] Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 229 to 220
192.168.3.30 Jun 6 08:56:25 prox-host daemon err pvestatd[1497] VM 114 qmp command failed - VM 114 qmp command 'query-proxmox-support' failed - got timeout
192.168.3.30 Jun 6 08:56:25 prox-host daemon info pvestatd[1497] status update time (5.141 seconds)
192.168.3.30 Jun 6 08:56:38 prox-host daemon err pvestatd[1497] VM 114 qmp command failed - VM 114 qmp command 'query-proxmox-support' failed - unable to connect to VM 114 qmp socket - timeout after 51 retries

Zwischen 8:25 und 8:56 ist ein großes Zeitfenster und als letzter Eintrag steht da ein SMART Wert Temperatur_Celsius für die SDB von 229 to 220 (?)
Das sind hohe Werte!

ThoSo · Jun 7, 2024

Da der ASRock und der neue Ryzen die Freezes aufweisen, während der alte Rechner mit deutlich mehr VMs und Auslastung (wie gesagt, Zoneminder und mein Minecraft-Server sind nicht mehr drauf) stabil läuft, dürfte es meiner Meinung nach kein Problem der VMs sein. Ich vermute eher einen Softwarefehler, da auch der neue Ryzen Abstürze hatte und daraufhin zurückging - ich dachte, die Hardware wäre ebenfalls defekt.

Aber dass zwei Rechner unabhängig voneinander einfrieren, kann ich mir im Nachhinein nicht vorstellen. Daher dieser Beitrag, um dem Fehler auf die Spur zu kommen.

Kann schon sein, wenn es ein Serienfehler ist. Mainboard / CPU / BIOS

Maximilian2024 · Jun 7, 2024

Die USB-Festplatte hat überhaupt keine Bedeutung. Sie ist zwar am System angeschlossen, aber aktuell nicht gemountet bzw. in Benutzung. Darauf hatte ich die Backups der VMs liegen. Am laufenden System habe ich dafür eine SSD, um die Backups der VMs zu speichern.

In diesem Szenario ist aktuell jedoch kein Backup eingerichtet.

Aktuelle Änderung
Das System ist heute, am 7.6.24, um 11:36 Uhr wieder abgestürzt. Seitdem habe ich die externe Festplatte abgezogen und die VM114 gestoppt. Auf der VM läuft ein Debian mit installiertem AdGuard.

Mal sehen, ob wieder etwas passiert oder wie lange der Rechner nun läuft.

Maximilian2024 · Jun 10, 2024

Guten Morgen,

ich hatte jetzt mal etwas pausiert, um neue Informationen zu sammeln, damit nicht immer nur hier etwas steht und da wieder etwas. Nachdem ich die VM114 gestoppt hatte, ist das System dennoch abgestürzt. Das Abziehen der USB-Festplatte und das Stoppen der VM halfen nicht weiter.

Versuch 2: Ich habe alle VMs gestoppt gehabt. Selbes Problem: Der Rechner stürzte um 22:12Uhr ab.

Für den Fall, dass jemand etwas mit dem Kdump anfangen kann: Kdump-Dateien

Hat noch jemand eine Idee, wo der Fehler liegen könnte?

news · Jun 10, 2024

Also ich würde die CPU einbremsen auf langsam, dann den DDr4 Ram auf default stellen ~ 2166 MT/s und alle Optimierungen auf default.
Evtl. ist es auch ein Problem der SSD, bzw. deren Verkabelung.

news · Jun 10, 2024

Wie sieht denn die Config der VM114 in der Datei auf dem Proxmox VE aus?

news · Jun 10, 2024

Mir wäre eine Crucial BX500 2 TB im Idle mit ~ 60 °C und im Log bis 73 °C zu warm!

news · Jun 10, 2024

Also eher ein Temperatur Problem im gesamten Mini-Rechnersystem.
Test öffnen und einen Externen 120 mm Lüfter auf 100% anschließen und damit alles kühlen!

news · Jun 10, 2024

Also ich würde dem Rechnersystem noch ein Stresstest unterziehen.
a) s-tui mit stress .. apt install ...
oder
b) Prime95 auf dem Proxmox VE auspacken und ausführen.
# https://www.mersenne.org/download/
# https://www.mersenne.org/download/software/v30/30.19/p95v3019b20.linux64.tar.gz

Dabei dann alle möglichen Parameter des Rechners überwachen.

Code:

apt install btop
apt install lm-sensors
sensors-detect
# module einfügen und laden
btop

Proxmox Server friert sporadisch ein - Hilfe benötigt

New Member

Attachments

Member

New Member

Member

New Member

Attachments

Member

Member

New Member

Distinguished Member

New Member

Member

Member

Member

New Member

New Member

Attachments

Active Member

Active Member

Active Member

Active Member

Active Member