Proxmox Host friert ein oder Dienste melden Timeouts

Dec 18, 2024
7
1
3
Hallo zusammen

Ich hatte auf meinem Proxmox Host zwei komplett Ausfaelle, bei denen ich beim Debuggen nicht mehr weiter komme.

Auf dem Host laeuft:
proxmox-ve: 8.3.0 (running kernel: 6.8.12-8-pve)
pve-manager: 8.3.4 (running version: 8.3.4/65224a0f9cd294a3)

Hardware ist ein Tuxedo Nano Pro - Gen13 mit 32GB und einer AMD Ryzen 5 8640U CPU

1. Fall
Host friert ein. Keine Antwort auf Pings. Login via SSH oder direkt am Host nicht mehr moeglich. Einzige Loesung: vom Strom trennen.
Logs liefern keine Infos. Es gibt keine Fehler, man sieht nur das der Host nicht mehr log, da er eingefroren ist.

2. Fall
Web-GUI gibt keine Antwort mehr (Timeout). Login via SSH ist moeglich, dauert aber eine Weile. Alle VM (5) sind am laufen und geben Antwort.
Ein restart vom pveporxy Dienst ist nicht moeglich: Failed to execute operation: Connection timed out. Logs kann ich auch nicht anschauen journalctl beendet sich mit der gleichen Meldung. Einfaches reboot geht auch nicht: Failed to talk to init daemon: Connection timed out. Loesung hier: systemctl --force --force reboot. Host startet neu und alle Dienste funktionieren wieder.

Was ich bis jetzt angeschaut habe
Vor dem Neustart im Fall 2, hat mir ein demsg folgende Segfault angezeigt:
Bash:
[216746.676921] server[1166]: segfault at 725653dff680 ip 000072563c927399 sp 0000725633dff590 error 6 in libc.so.6[72563c8cf000+155000] likely on CPU 6 (core 0, socket 0)
[216746.676932] Code: 2d 13 15 00 4c 89 ff 48 89 84 24 e8 00 00 00 e8 8d 65 00 00 66 0f 6f 04 24 44 89 f1 4c 89 ea 4c 89 e6 4c 89 ff 83 64 24 10 fe <0f> 29 84 24 f0 00 00 20 e8 5a e0 fd ff 89 c3 85 c0 0f 88 b0 00 00
[216746.677338] systemd-journal[455]: segfault at 7ffdca83cc40 ip 000077bd3069d399 sp 00007ffdaa83cb50 error 6 in libc.so.6[77bd30645000+155000] likely on CPU 8 (core 2, socket 0)
[216746.677351] Code: 2d 13 15 00 4c 89 ff 48 89 84 24 e8 00 00 00 e8 8d 65 00 00 66 0f 6f 04 24 44 89 f1 4c 89 ea 4c 89 e6 4c 89 ff 83 64 24 10 fe <0f> 29 84 24 f0 00 00 20 e8 5a e0 fd ff 89 c3 85 c0 0f 88 b0 00 00
[216746.678498] systemd[1]: segfault at 7fffa6954830 ip 000078920809d399 sp 00007fff86954740 error 6 in libc.so.6[789208045000+155000] likely on CPU 0 (core 0, socket 0)
[216746.678540] Code: 2d 13 15 00 4c 89 ff 48 89 84 24 e8 00 00 00 e8 8d 65 00 00 66 0f 6f 04 24 44 89 f1 4c 89 ea 4c 89 e6 4c 89 ff 83 64 24 10 fe <0f> 29 84 24 f0 00 00 20 e8 5a e0 fd ff 89 c3 85 c0 0f 88 b0 00 00
[234808.610712] pveproxy[1221]: segfault at ff00000012 ip 00005beb3bdb9758 sp 00007ffda64e3040 error 4 in perl[5beb3bccf000+195000] likely on CPU 5 (core 5, socket 0)
[234808.610726] Code: 00 00 41 83 f0 01 41 89 d7 49 89 cd 48 83 c5 08 45 89 c4 eb 15 0f 1f 44 00 00 48 89 dd 48 8b 5d 00 48 85 db 0f 84 88 00 00 00 <0f> be 43 12 44 39 f8 75 e7 48 8b 43 08 41 f6 c4 01 75 05 4c 39 e8

Bei der Analyse der Kernelmeldungen ist mir auch aufgefallen das der WiFi Treiber folgendes meldet:
Bash:
[13754.590964] mt7921e 0000:03:00.0: Message 00000010 (seq 9) timeout
[13754.590974] mt7921e 0000:03:00.0: Failed to get patch semaphore

Ich brauche die WiFi-Netzwerkkarte gar nicht. Bei einem naechsten Neustart werde ich versuchen sie im BIOS zu deaktivieren.


Beim Boot sehe ich folgende Fehlermeldungen:
Bash:
pve kernel: ACPI BIOS Error (bug): Could not resolve symbol [\_SB.PCI0.GPP6.WLAN], AE_NOT_FOUND (20230628/dswload2-162)
pve kernel: ACPI Error: AE_NOT_FOUND, During name lookup/catalog (20230628/psobject-220)

Initramfs unpacking failed: ZSTD-compressed data is corrupt

pve kernel: ACPI BIOS Error (bug): Could not resolve symbol [\_SB.PCI0.GPP7.DEV0], AE_NOT_FOUND (20230628/psargs-332)
pve kernel: ACPI Error: Aborting method \_SB.GPIO._EVT due to previous error (AE_NOT_FOUND) (20230628/psparse-529)

Wegen der Initramfs habe ich mit smartctl die NVME angeschaut:
Bash:
=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        25 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    1%
Data Units Read:                    3,722,354 [1.90 TB]
Data Units Written:                 2,921,577 [1.49 TB]
Host Read Commands:                 25,875,188
Host Write Commands:                244,060,235
Controller Busy Time:               728
Power Cycles:                       14
Power On Hours:                     2,693
Unsafe Shutdowns:                   2
Media and Data Integrity Errors:    0
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               25 Celsius
Temperature Sensor 2:               25 Celsius

Error Information (NVMe Log 0x01, 16 of 64 entries)
No Errors Logged

Im Moment bin ich mir unsicher ob ich hier ein Proxmox oder Hardware/BIOS Problem habe. Uebersehe ich etwas oder wo soll ich als naechstes schauen?

Vielen Dank fuer euren Input!
 
Hi,

hat mir ein demsg folgende Segfault angezeigt:
die ganzen Segfaults schauen verdächtig stark nach fehlerhaften RAM aus. Auch die diversen Freezes etc. würden sich dadurch erklären lassen.

Ich würde empfehlen als Erstes mal memtest86+ laufen zu lassen - am besten das Proxmox VE ISO von einem USB-Stick booten, da wird das mitgeliefert.
Das dauert einige Stunden zumindest, schafft aber zumindest mal Klarheit in dem Bereich.

Gerade bei solchen Mini PC bzw. dann wahrscheinlich SODIMM-Sticks nicht all zu unwahrscheinlich.
 
  • Like
Reactions: izio