Host Crash - ich bin mittlerweile ratlos. Habt ihr Impulse?

Jan 6, 2022
13
1
3
42
Hi liebe Community,

ich versuche mal so strukturiert wie möglich mein Setup, mein Problem und meine bisherigen Lösungsversuche darzustellen:

System:
  • CPU: 16 x AMD Ryzen 7 4800U with Radeon Graphics (1 Socket)
  • RAM: 32GB
  • Kernel: Linux 5.13.19-6-pve; PVE: pve-manager/7.1-11
  • Bios: up-2-date
  • Media Dateien sind alle auf meinem Synology NAS und werden "rein gemountet"
    Google Coral TPU und Zigbee Dongle (ConbeeII) sind via powered USB hub verbunden
  • Festplatten (Platz ist da ...):

  • 1651090133680.png
Laufende Container:
  • Nginx (512MB RAM, 512MB SWAP, 1 core)
  • DuckDNS (512MB RAM, 512MB SWAP, 1 core)
  • Bitwarden (512MB RAM, 512MB SWAP, 1 core)
  • Adguard (512MB RAM, 512MB SWAP, 1 core)
  • Wireguard (512MB RAM, 512MB SWAP, 1 core)
  • PhotoPrism (4GIG RAM, 4GIG SWAP, 4 cores, privelgiert für NAS mount)
  • Grafana+InfluxDB (2GB RAM, 512MB SWAP, 2 cores)
  • PLEX (2GB RAM, 512MB RAM, 2 cores, privelgiert für NAS mount)
Laufende VMs:
  • Home Assistant (8GB RAM, 2 cores, Coral und Conbee II USB passthrough)
Pausierte VMs:
  • Windows 11 (8 GB RAM, 4 cores)
In diesem Setup habe ich im Leerlauf <5% CPU Nutzung und <15% RAM Nutzung. Die Temperaturen (watch -n 1 sensors) und power consumption sind:
  • CPU: 45°C
  • NVME: 52°C
  • Power consumption: 5 W
Mein Problem:
  • Nicht wirklich reproduzierbare Host crashs. Mal nach 2h, mal nach 3 Tagen. Einziger Weg, wie ich es provozieren kann: ich fahre die Win11 VM hoch (siehe auch Screenshot). Aber lief damit auch schon 3 Tage am Stück und ich habe die Steuererklärung via RDP auf der VM gemacht.
  • Es geht dann gar nichts mehr (SSH, WebGUI, .. alles tot). Nur Stom aus/an bringt alles zurück.
1651090046614.png

Meine Analyse und bisheriges Ergebnis:
  • Logs sind mEn nicht aussagekräftig. Hören einfach auf (20:14 Uhr ) und fangen beim Reboot (20:17 Uhr) wieder neu an.
  • Ich habe einen CPU Stresstest durchgeführt, sowie 4 runs mit memtest (0 errors). In allen Belangen keine Auffälligkeiten oder crash.
  • Ich habe den ganzen USB Schnickschnack entfernt und an den USB Hub (eigenes Netzteil!) gehängt, in der Annahme, dass vllt. das Netzteil des Gigabyte in die Knie geht. Habe es testweise auch komplett weggelassen. Kein Effekt.
  • In der Annahme, dass mein Problem irgendwo mit dem RAM was zu tun hat, habe ich mir das ganze ZFS setting angeschaut
    • Mir ist klar, dass mein jetziges ZFS Setup irgendwie Banane ist. Consumer SSD, kein ECC RAM. Habe mittlerweile viel quer gelesen, das ganze ZFS Pimmelimm aber auch nicht 100% verstanden.
    • Was ich verstanden habe: Per default frisst ZFS 50% RAM. Habe daher ARC limitiert.
      • /etc/modprobe.d/zfs.conf wurde wie folgt limitiert:
        • options zfs zfs_arc_min=4294967296
          options zfs zfs_arc_max=8589934592
    • Ich hatte damit die Hoffnung, ggf. Probleme mit dem "over-committen" von RAM irgendwie entgegenzuwirken. Kein Effekt. Trotzdem crash.
  • Die Win11 VM ist mEn im Standard angelegt, beim RAM ist "balloning" aktiviert:
  • 1651091695380.png

Nun bin ich echt ratlos. Viele Stunden investiert, bin leicht genervt und würde es am liebsten an die Wand pfeffern. Vielleicht hat ja von Euch noch jemand einen Tipp oder Rat?
Besten Dank und viele Grüße
 
Hi, meine AMD Systeme laufen besser seit dem Schwenk auf den 5.15er Kernel.
Hast du mal geschaut was ZFS tasächlich verbraucht während die VM Läuft und was tut?
 
Laut deiner Liste sind das 26,5 GB RAM für die Gäste. Wobei du aber vermutlich eher 26,5 GiB meinst, was dann 28,45 GB wären. Dann noch 4-8 GiB für ZFS, 2 GiB für Proxmox selbst und die KVM Prozesse haben dann auch noch Overhead und brauchen mehr RAM als du der VM selbst zuteilst. Du verteilst also mehr RAM als dir tatsächlich zur Verfügung steht.
Scheint ja aber nicht das Problem zu sein, wenn der Server laut Diagramm schon bei 12 von 32 GB crasht.
ZFS nutzt standardmäßig übrigens BIS ZU 50% RAM, kann aber wenn der RAM anderweitig gebraucht wird auch wieder auf bis zu 1GB schrumpfen.
 
Host freezes auf AMD Systemen - insbesondere bei Desktop CPUs - können u.a. auch von ACPI/C-states kommen, wenn diese im Bios aktiviert sind. Ich würde alles an ACPI und C-states testweise deaktivieren.
 
Hast du mal geschaut was ZFS tasächlich verbraucht während die VM Läuft und was tut?

Danke für den Impuls. Hier arc_summary (sofern du das meintest) im Leerlauf:

1651134568654.png

Und mit aktiver Win11 VM:
1651135443867.png

Ich sehe da keinen Unterschied, aber die Interpretation fällt mir sehr sehr schwer.

meine AMD Systeme laufen besser seit dem Schwenk auf den 5.15er Kernel.
Ich war bis vor zwei Wochen auf dem 5.11, hatte die gleichen Probleme. Werde aber der Sache nochmal nachgehen.

können u.a. auch von ACPI/C-states kommen, wenn diese im Bios aktiviert sind. Ich würde alles an ACPI und C-states testweise deaktivieren.
DANKE. Das ist mir neu, dem werde ich auch mal nachgehen.

Laut deiner Liste sind das 26,5 GB RAM für die Gäste. Wobei du aber vermutlich eher 26,5 GiB meinst, was dann 28,45 GB wären. Dann noch 4-8 GiB für ZFS, 2 GiB für Proxmox selbst und die KVM Prozesse haben dann auch noch Overhead und brauchen mehr RAM als du der VM selbst zuteilst. Du verteilst also mehr RAM als dir tatsächlich zur Verfügung steht.
Scheint ja aber nicht das Problem zu sein, wenn der Server laut Diagramm schon bei 12 von 32 GB crasht.
Korrekt, habe ein "committment" von rund 110% beim RAM. War aber in der Annahme, dass das erst einmal kein Problem darstellt. Gem. Proxmox UI komme ich ja nicht mal annähernd in eine Vollauslastung (wie du ja auch geschrieben hast). Ich kann auch die Container nochmal reduzieren um runter zu kommen.

Vielen Dank auf jeden Fall für eure Rückmeldungen.
 
Hi liebe Community,

BÄM. Heute Nacht war es wieder so weit. Host crash. Nach rund 5 Tagen. Hatte gestern Abend die Win11 VM im Einsatz, größerer Download. Daher der hohe Traffic ab ca. 20 Uhr.

1651582330811.png
Jetzt ist mir was ganz anderes im Rahmen dieses Crashs aufgefallen. Ich nutze uptimekuma als simples ping-Monitoring Tool. Mein Proxmox Server hängt an LAN Port #1 meiner Fritzbox, meine Synology an LAN Port #2. Heute bin ich durch ZUfall mal wieder über das uptimekuma Dashboard gestolpert und habe Folgendes gesehen:

1651591425690.png

Immer wenn der Proxmox Server vermeidlich crasht (00:02 Uhr), ist auch kurz darauf die Synology nicht erreichbar (00:12 Uhr), kommt dann zurück und ist dann doch offline (00:37 Uhr). Erst mit dem Restart von Proxmox (6:21 Uhr) kommt auch direkt die Synology zurück (6:22Uhr). Das ist mir nun absolut rätselhaft. Gehe ich in der Timeline zurück, so sehe ich dieses Verhalten bei allen "crashs". Stören sich hier die Ports? Könnte das Problem ganz woanders liegen?

Vielleicht gibt es ja die ein oder andere Idee oder noch einen Impuls?

Vielen Dnak und viele Grüße
 

Attachments

  • 1651591037682.png
    1651591037682.png
    81.5 KB · Views: 8
Last edited:
Was sagt denn das Ereignisprotokoll der Fritte zu diesem Zeitpunkt? Dort noch Auffäligkeiten? Ist das zufälligerweise eine Fritte mit 2.5G an Lan1? Falls ja, setze den PVE testweise mal auf Lan3.

Die 2.5G Ports der Fritten können komische Symptome bei *nix Systemen hervorrufen.

Laufen denn um 0:00 Uhr irgendwelche lastintensiven Sachen über das Netzwerk?
 
Hi,
vielen Dank für deine Rückmeldung.
Was sagt denn das Ereignisprotokoll der Fritte zu diesem Zeitpunkt? Dort noch Auffäligkeiten?
Keinerlei Auffälligkeiten. Der DNS Fehler liegt daran, dass AdGuard nicht online war. Proxmox war ja nicht erreichbar :)
1651594841388.png
Ist das zufälligerweise eine Fritte mit 2.5G an Lan1?
Nope, 2x 1GB LAN. Bin jetzt mal mit beiden Kabeln auf Port #3 und #4 gegangen, die haben jeweils 100Mbit. Mal schauen ob es was bringt.

Laufen denn um 0:00 Uhr irgendwelche lastintensiven Sachen über das Netzwerk?
Jup. Da synct sich die Synology mit meinem OneDrive Konto und holt sich neue Dokumente/Bilder. Ist aber eigentlich nicht viel Traffic. Sollte in 1-2 min erledigt sein. Vllt. 50-100 MB.

Ergänzend: Der Crash ist nicht auf eine spezifische Uhrzeit oder Traffic eingrenzbar. Ich habe mit der VM die Tage davor rund 30 Gig via JDownloader über mehrere Stunden direkt auf das NAS geladen. Lief problemos ...
 
Last edited:
Hm… interessant wäre, ob der PVE wieder erreichbar ist, wenn Du nur das Patchkabel ziehst und wieder einsteckst bei einem Freeze, also ohne reset.

Spuckt die Synology denn noch etwas Informatives aus (Protokolle)?
 
Hm… interessant wäre, ob der PVE wieder erreichbar ist, wenn Du nur das Patchkabel ziehst und wieder einsteckst bei einem Freeze, also ohne reset.
Das ist eine gute Überlegung. Werde ich beim nächsten Crash ausprobieren. Dankeschön!

Spuckt die Synology denn noch etwas Informatives aus (Protokolle)?
Absolut nichts Auffälliges. Die Synology hat mEn nicht gemerkt, dass sie nicht erreichbar ist.
 
Last edited:
Ich hatte ein ähnliches Problem vergangenes Jahr: Bei mir war meine CPU defekt (obwohl Neuware). Da konnte ich leider nur nach dem Ausschlussverfahren durchtesten.

Meine Probleme waren jedoch ident wie die deinigen: Kommentarloser Crash + anschließender Reboot.
 
Da konnte ich leider nur nach dem Ausschlussverfahren durchtesten.
Und nach welchem Verfahren hast du die CPU getestet? Ich habe via Shell s-tui (https://github.com/amanusk/s-tui) geladen und laufen lassen. Ist das der richtige Weg um fundiert einen CPU Test zu machen? Hab das Ding dann einfach ca. 60min laufen lassen und im 15min-Takt an den Optionen irgendwas (ja, hab nämlich keine Ahnung :-D) rumgefummelt ....
 
Und nach welchem Verfahren hast du die CPU getestet? Ich habe via Shell s-tui (https://github.com/amanusk/s-tui) geladen und laufen lassen. Ist das der richtige Weg um fundiert einen CPU Test zu machen? Hab das Ding dann einfach ca. 60min laufen lassen und im 15min-Takt an den Optionen irgendwas (ja, hab nämlich keine Ahnung :-D) rumgefummelt ....
Prinzipiell ganz simpel: Ich habe mir eine 2. CPU gekauft und eingebaut.
Danach lief alles problemlos.

Die defekte CPU habe ich mir dann refundieren lassen.
 
Ok, auf die Idee bin ich noch gar nicht gekommen :D Danke, kommt auf meine weitere Liste an Dingen welche ich ausprobiere. Muss nur noch schauen, dass das toDo "Kiste gegen die Wand schmeißen" weit unten in der Liste bleibt ;)
 
Praktisch wäre es natürlich, wenn du ein 2. Hardware Setup hast, wo du die einzelnen Komponenten testen könntest.
 
Wenn nur der PVE nicht erreichbar wäre, aber es „zieht“ ja auch die NAS runter bzw. deren Konnektivität. Wobei man Hardwarefehler natürlich nicht ausschließen kann.
 
Du könntest hier testweise mal ein Linux Live OS booten - zB Debian, Ubuntu, you name it und dort mal so einen Download auf das NAS nachstellen.
Evtl hilft dir das etwas?
 
Hast du die Probleme lösen können? Ich habe auch Homeassistant als VM Laufen mit Google Coral und Zigbee und ständig Abstürze teilweise nur die VM teilweise ist Proxmox komplett nicht erreichbar. Es steht nix im LOG.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!