Ich habe hier mal alle Daten, die ich bisher habe, zusammengesammelt und hochgeladen:
Nextcloud-Link
Darin befinden sich alle bisherigen Syslogs, Dumps und was ich sonst noch habe. Die Dump-Dateien sollte ich sammeln, aber ich weiß nicht, was ich damit anfangen soll. Vielleicht kann jemand von euch weiterhelfen und mit den Dumps den Fehler finden?
Die Fragen, die ich noch nicht beantwortet hatte:Bei den Logs habe ich zumindest nichts gesehen, was interessant sein könnte.
Der Kernel ist aktuell:
Linux prox-host 6.5.13-5-pve #1 SMP PREEMPT_DYNA
MIC PMX 6.5.13-5 (2024-04-05T11:03Z) x86_64 GNU/Linux
Aber das Problem trat auch bei Kernel 6.8 auf. Ich sollte den Downgrade auf 6.5 versuchen, um Bugs auszuschließen.
Ich hole nochmal etwas aus, da die Vermutung besteht, dass es an den VMs bzw. der Auslastung der CPU liegt - daher eine etwas längere Geschichte.
Der ASRock dient(e) mir jetzt seit ein paar Jahren als Proxmox Server. Irgendwann im August/September 2023 ist mir aufgefallen, dass der ASRock hin und wieder abstürzt. Zu diesem Zeitpunkt hatte ich es auf die NVMe geschoben. Diese hatte anscheinend defekte Sektoren, so haben es mir zumindest ein paar Testprogramme auf meinem Computer gezeigt, und auch, dass die NVMe anscheinend SMART-Fehler hatte. Die Daten darauf waren auch nicht mehr vollständig auszulesen.
Daraufhin habe ich mir eine neue NVMe (die Samsung) zugelegt und alles mehr oder weniger wieder im ASRock eingebaut. Da die Abstürze weiterhin auftraten und teilweise innerhalb von Minuten zum Absturz führten, habe ich mich um einen "alten" Ersatz bemüht und die VMs alle auf den leistungsschwächeren Ersatz geschoben. Der alte Rechner hat nur sechs Kerne (inklusive Threads).
Dann gab es vor einiger Zeit einen anderen Ryzen im Angebot - ich habe ihn mir geholt und wollte den neuen Ryzen wieder zu meinem Haupt-Proxmox-Server machen. Aber auch bei dem neuen habe ich dann irgendwann gemerkt, dass er gelegentlich einfriert.
Die VMs, die auf dem ASRock liefen, sind dieselben VMs, die jetzt auf dem alten Rechner laufen. Der ASRock werkelt aktuell in einem eigenen VLAN, wo nichts anderes mehr ist, und ich nutze nur noch die VMs, die auf dem alten Rechner laufen. Der alte Rechner ist allerdings gut am Schuften, da hier die Auslastung bei konstant >70% CPU-Leistung liegt, und er läuft stabil.
Da der ASRock und der neue Ryzen die Freezes aufweisen, während der alte Rechner mit deutlich mehr VMs und Auslastung (wie gesagt, Zoneminder und mein Minecraft-Server sind nicht mehr drauf) stabil läuft, dürfte es meiner Meinung nach kein Problem der VMs sein. Ich vermute eher einen Softwarefehler, da auch der neue Ryzen Abstürze hatte und daraufhin zurückging - ich dachte, die Hardware wäre ebenfalls defekt.
Aber dass zwei Rechner unabhängig voneinander einfrieren, kann ich mir im Nachhinein nicht vorstellen. Daher dieser Beitrag, um dem Fehler auf die Spur zu kommen.
Ach so, eins noch: Der neue Ryzen hatte seinen eigenen RAM und alles mitgebracht. Es wurde also nur die Software und die VMs geklont.
Ich bin der Meinung, der Fehler trat ende 2023 auf, nachdem ich ein apt update / apt upgrade gemacht hatte. Ich kann das jedoch nicht bestätigen und es könnte nur subjektiv sein, da der Fehler möglicherweise mit der defekten NVMe einherging. Zu diesem Zeitpunkt werkelte auch noch Btrfs auf dem Rechner, wovon mir dringend abgeraten wurde.