Host Crash - ich bin mittlerweile ratlos. Habt ihr Impulse?

mindfacker · Apr 27, 2022

Hi liebe Community,

ich versuche mal so strukturiert wie möglich mein Setup, mein Problem und meine bisherigen Lösungsversuche darzustellen:

System:

CPU: 16 x AMD Ryzen 7 4800U with Radeon Graphics (1 Socket)
RAM: 32GB
Kernel: Linux 5.13.19-6-pve; PVE: pve-manager/7.1-11
Bios: up-2-date
Media Dateien sind alle auf meinem Synology NAS und werden "rein gemountet"
Google Coral TPU und Zigbee Dongle (ConbeeII) sind via powered USB hub verbunden
Festplatten (Platz ist da ...):

Laufende Container:

Nginx (512MB RAM, 512MB SWAP, 1 core)
DuckDNS (512MB RAM, 512MB SWAP, 1 core)
Bitwarden (512MB RAM, 512MB SWAP, 1 core)
Adguard (512MB RAM, 512MB SWAP, 1 core)
Wireguard (512MB RAM, 512MB SWAP, 1 core)
PhotoPrism (4GIG RAM, 4GIG SWAP, 4 cores, privelgiert für NAS mount)
Grafana+InfluxDB (2GB RAM, 512MB SWAP, 2 cores)
PLEX (2GB RAM, 512MB RAM, 2 cores, privelgiert für NAS mount)

Laufende VMs:

Home Assistant (8GB RAM, 2 cores, Coral und Conbee II USB passthrough)

Pausierte VMs:

Windows 11 (8 GB RAM, 4 cores)

In diesem Setup habe ich im Leerlauf <5% CPU Nutzung und <15% RAM Nutzung. Die Temperaturen (watch -n 1 sensors) und power consumption sind:

CPU: 45°C
NVME: 52°C
Power consumption: 5 W

Mein Problem:

Nicht wirklich reproduzierbare Host crashs. Mal nach 2h, mal nach 3 Tagen. Einziger Weg, wie ich es provozieren kann: ich fahre die Win11 VM hoch (siehe auch Screenshot). Aber lief damit auch schon 3 Tage am Stück und ich habe die Steuererklärung via RDP auf der VM gemacht.
Es geht dann gar nichts mehr (SSH, WebGUI, .. alles tot). Nur Stom aus/an bringt alles zurück.

Meine Analyse und bisheriges Ergebnis:

Logs sind mEn nicht aussagekräftig. Hören einfach auf (20:14 Uhr ) und fangen beim Reboot (20:17 Uhr) wieder neu an.
- less /var/log/syslog: https://pastebin.com/AUypuTde
- journalctl: https://pastebin.com/E4Eg1KfG
- less /var/log/messages: https://pastebin.com/kVY90bf9
Ich habe einen CPU Stresstest durchgeführt, sowie 4 runs mit memtest (0 errors). In allen Belangen keine Auffälligkeiten oder crash.
Ich habe den ganzen USB Schnickschnack entfernt und an den USB Hub (eigenes Netzteil!) gehängt, in der Annahme, dass vllt. das Netzteil des Gigabyte in die Knie geht. Habe es testweise auch komplett weggelassen. Kein Effekt.
In der Annahme, dass mein Problem irgendwo mit dem RAM was zu tun hat, habe ich mir das ganze ZFS setting angeschaut
- Mir ist klar, dass mein jetziges ZFS Setup irgendwie Banane ist. Consumer SSD, kein ECC RAM. Habe mittlerweile viel quer gelesen, das ganze ZFS Pimmelimm aber auch nicht 100% verstanden.
- Was ich verstanden habe: Per default frisst ZFS 50% RAM. Habe daher ARC limitiert.
  - /etc/modprobe.d/zfs.conf wurde wie folgt limitiert:
    - options zfs zfs_arc_min=4294967296
      options zfs zfs_arc_max=8589934592
- Ich hatte damit die Hoffnung, ggf. Probleme mit dem "over-committen" von RAM irgendwie entgegenzuwirken. Kein Effekt. Trotzdem crash.
Die Win11 VM ist mEn im Standard angelegt, beim RAM ist "balloning" aktiviert:

Nun bin ich echt ratlos. Viele Stunden investiert, bin leicht genervt und würde es am liebsten an die Wand pfeffern. Vielleicht hat ja von Euch noch jemand einen Tipp oder Rat?
Besten Dank und viele Grüße

Falk R. · Apr 27, 2022

Hi, meine AMD Systeme laufen besser seit dem Schwenk auf den 5.15er Kernel.
Hast du mal geschaut was ZFS tasächlich verbraucht während die VM Läuft und was tut?

Dunuin · Apr 27, 2022

Laut deiner Liste sind das 26,5 GB RAM für die Gäste. Wobei du aber vermutlich eher 26,5 GiB meinst, was dann 28,45 GB wären. Dann noch 4-8 GiB für ZFS, 2 GiB für Proxmox selbst und die KVM Prozesse haben dann auch noch Overhead und brauchen mehr RAM als du der VM selbst zuteilst. Du verteilst also mehr RAM als dir tatsächlich zur Verfügung steht.
Scheint ja aber nicht das Problem zu sein, wenn der Server laut Diagramm schon bei 12 von 32 GB crasht.
ZFS nutzt standardmäßig übrigens BIS ZU 50% RAM, kann aber wenn der RAM anderweitig gebraucht wird auch wieder auf bis zu 1GB schrumpfen.

Deleted member 116138 · Apr 28, 2022

Host freezes auf AMD Systemen - insbesondere bei Desktop CPUs - können u.a. auch von ACPI/C-states kommen, wenn diese im Bios aktiviert sind. Ich würde alles an ACPI und C-states testweise deaktivieren.

mindfacker · Apr 28, 2022

Hast du mal geschaut was ZFS tasächlich verbraucht während die VM Läuft und was tut?

Danke für den Impuls. Hier arc_summary (sofern du das meintest) im Leerlauf:

Und mit aktiver Win11 VM:

Ich sehe da keinen Unterschied, aber die Interpretation fällt mir sehr sehr schwer.

meine AMD Systeme laufen besser seit dem Schwenk auf den 5.15er Kernel.

Ich war bis vor zwei Wochen auf dem 5.11, hatte die gleichen Probleme. Werde aber der Sache nochmal nachgehen.

können u.a. auch von ACPI/C-states kommen, wenn diese im Bios aktiviert sind. Ich würde alles an ACPI und C-states testweise deaktivieren.

DANKE. Das ist mir neu, dem werde ich auch mal nachgehen.

Laut deiner Liste sind das 26,5 GB RAM für die Gäste. Wobei du aber vermutlich eher 26,5 GiB meinst, was dann 28,45 GB wären. Dann noch 4-8 GiB für ZFS, 2 GiB für Proxmox selbst und die KVM Prozesse haben dann auch noch Overhead und brauchen mehr RAM als du der VM selbst zuteilst. Du verteilst also mehr RAM als dir tatsächlich zur Verfügung steht.
Scheint ja aber nicht das Problem zu sein, wenn der Server laut Diagramm schon bei 12 von 32 GB crasht.

Korrekt, habe ein "committment" von rund 110% beim RAM. War aber in der Annahme, dass das erst einmal kein Problem darstellt. Gem. Proxmox UI komme ich ja nicht mal annähernd in eine Vollauslastung (wie du ja auch geschrieben hast). Ich kann auch die Container nochmal reduzieren um runter zu kommen.

Vielen Dank auf jeden Fall für eure Rückmeldungen.

mindfacker · Apr 28, 2022

So, bin jetzt mal auf 5.15.30-1-pve (keinerlei Probleme bisher) gegangen und hab das BIOS angepasst. Mal schauen

mindfacker · May 1, 2022

Hi,
kurze Rückmeldung: läuft seit 5 Tagen stabil. Markiere den Beitrag mal als "solved".
Vielen Dank für eure Hilfe!

mindfacker · May 3, 2022

Hi liebe Community,

BÄM. Heute Nacht war es wieder so weit. Host crash. Nach rund 5 Tagen. Hatte gestern Abend die Win11 VM im Einsatz, größerer Download. Daher der hohe Traffic ab ca. 20 Uhr.

Jetzt ist mir was ganz anderes im Rahmen dieses Crashs aufgefallen. Ich nutze uptimekuma als simples ping-Monitoring Tool. Mein Proxmox Server hängt an LAN Port #1 meiner Fritzbox, meine Synology an LAN Port #2. Heute bin ich durch ZUfall mal wieder über das uptimekuma Dashboard gestolpert und habe Folgendes gesehen:

Immer wenn der Proxmox Server vermeidlich crasht (00:02 Uhr), ist auch kurz darauf die Synology nicht erreichbar (00:12 Uhr), kommt dann zurück und ist dann doch offline (00:37 Uhr). Erst mit dem Restart von Proxmox (6:21 Uhr) kommt auch direkt die Synology zurück (6:22Uhr). Das ist mir nun absolut rätselhaft. Gehe ich in der Timeline zurück, so sehe ich dieses Verhalten bei allen "crashs". Stören sich hier die Ports? Könnte das Problem ganz woanders liegen?

Vielleicht gibt es ja die ein oder andere Idee oder noch einen Impuls?

Vielen Dnak und viele Grüße

Deleted member 116138 · May 3, 2022

Was sagt denn das Ereignisprotokoll der Fritte zu diesem Zeitpunkt? Dort noch Auffäligkeiten? Ist das zufälligerweise eine Fritte mit 2.5G an Lan1? Falls ja, setze den PVE testweise mal auf Lan3.

Die 2.5G Ports der Fritten können komische Symptome bei *nix Systemen hervorrufen.

Laufen denn um 0:00 Uhr irgendwelche lastintensiven Sachen über das Netzwerk?

mindfacker · May 3, 2022

Hi,
vielen Dank für deine Rückmeldung.

Was sagt denn das Ereignisprotokoll der Fritte zu diesem Zeitpunkt? Dort noch Auffäligkeiten?

Keinerlei Auffälligkeiten. Der DNS Fehler liegt daran, dass AdGuard nicht online war. Proxmox war ja nicht erreichbar

Ist das zufälligerweise eine Fritte mit 2.5G an Lan1?

Nope, 2x 1GB LAN. Bin jetzt mal mit beiden Kabeln auf Port #3 und #4 gegangen, die haben jeweils 100Mbit. Mal schauen ob es was bringt.

Laufen denn um 0:00 Uhr irgendwelche lastintensiven Sachen über das Netzwerk?

Jup. Da synct sich die Synology mit meinem OneDrive Konto und holt sich neue Dokumente/Bilder. Ist aber eigentlich nicht viel Traffic. Sollte in 1-2 min erledigt sein. Vllt. 50-100 MB.

Ergänzend: Der Crash ist nicht auf eine spezifische Uhrzeit oder Traffic eingrenzbar. Ich habe mit der VM die Tage davor rund 30 Gig via JDownloader über mehrere Stunden direkt auf das NAS geladen. Lief problemos ...

Deleted member 116138 · May 4, 2022

Hm… interessant wäre, ob der PVE wieder erreichbar ist, wenn Du nur das Patchkabel ziehst und wieder einsteckst bei einem Freeze, also ohne reset.

Spuckt die Synology denn noch etwas Informatives aus (Protokolle)?

mindfacker · May 4, 2022

Hm… interessant wäre, ob der PVE wieder erreichbar ist, wenn Du nur das Patchkabel ziehst und wieder einsteckst bei einem Freeze, also ohne reset.

Das ist eine gute Überlegung. Werde ich beim nächsten Crash ausprobieren. Dankeschön!

Spuckt die Synology denn noch etwas Informatives aus (Protokolle)?

Absolut nichts Auffälliges. Die Synology hat mEn nicht gemerkt, dass sie nicht erreichbar ist.

showiproute · May 4, 2022

Ich hatte ein ähnliches Problem vergangenes Jahr: Bei mir war meine CPU defekt (obwohl Neuware). Da konnte ich leider nur nach dem Ausschlussverfahren durchtesten.

Meine Probleme waren jedoch ident wie die deinigen: Kommentarloser Crash + anschließender Reboot.

mindfacker · May 4, 2022

Da konnte ich leider nur nach dem Ausschlussverfahren durchtesten.

Und nach welchem Verfahren hast du die CPU getestet? Ich habe via Shell s-tui (https://github.com/amanusk/s-tui) geladen und laufen lassen. Ist das der richtige Weg um fundiert einen CPU Test zu machen? Hab das Ding dann einfach ca. 60min laufen lassen und im 15min-Takt an den Optionen irgendwas (ja, hab nämlich keine Ahnung :-D) rumgefummelt ....

showiproute · May 4, 2022

mindfacker said:
Und nach welchem Verfahren hast du die CPU getestet? Ich habe via Shell s-tui (https://github.com/amanusk/s-tui) geladen und laufen lassen. Ist das der richtige Weg um fundiert einen CPU Test zu machen? Hab das Ding dann einfach ca. 60min laufen lassen und im 15min-Takt an den Optionen irgendwas (ja, hab nämlich keine Ahnung :-D) rumgefummelt ....

Prinzipiell ganz simpel: Ich habe mir eine 2. CPU gekauft und eingebaut.
Danach lief alles problemlos.

Die defekte CPU habe ich mir dann refundieren lassen.

mindfacker · May 4, 2022

Ok, auf die Idee bin ich noch gar nicht gekommen

Danke, kommt auf meine weitere Liste an Dingen welche ich ausprobiere. Muss nur noch schauen, dass das toDo "Kiste gegen die Wand schmeißen" weit unten in der Liste bleibt

showiproute · May 4, 2022

Praktisch wäre es natürlich, wenn du ein 2. Hardware Setup hast, wo du die einzelnen Komponenten testen könntest.

Deleted member 116138 · May 4, 2022

Wenn nur der PVE nicht erreichbar wäre, aber es „zieht“ ja auch die NAS runter bzw. deren Konnektivität. Wobei man Hardwarefehler natürlich nicht ausschließen kann.

showiproute · May 4, 2022

Du könntest hier testweise mal ein Linux Live OS booten - zB Debian, Ubuntu, you name it und dort mal so einen Download auf das NAS nachstellen.
Evtl hilft dir das etwas?

marco1990 · Jan 3, 2023

Hast du die Probleme lösen können? Ich habe auch Homeassistant als VM Laufen mit Google Coral und Zigbee und ständig Abstürze teilweise nur die VM teilweise ist Proxmox komplett nicht erreichbar. Es steht nix im LOG.

Host Crash - ich bin mittlerweile ratlos. Habt ihr Impulse?

Member

Distinguished Member

Distinguished Member

Deleted member 116138

Guest

Member

Member

Member

Member

Attachments

Deleted member 116138

Guest

Member

Deleted member 116138

Guest

Member

Renowned Member

Member

Renowned Member

Member

Renowned Member

Deleted member 116138

Guest

Renowned Member

New Member

We value your privacy