Verwunderlicher Systemabsturz

kangaroo72

Member
Sep 4, 2024
43
3
8
Guten Abend zusammen.
Hin und wieder (ca. 1x im Monat, manchmal auch alle 1,5-2 Monate) raucht mir mein Server ab....
Ich versuche es mal darzustellen.

Mein System: AMD Ryzen 3400G + ASUS Prime B450 Plus (Bios 3810) Board + 64GB RAM

Eigentlich läuft alles sehr gut, bis es denn wieder Mal zu so einem Moment kommt....

Die LXC's antworten dann nicht mehr, Nextcloud, Jellyfin, Traefik, was auch immer.
Das System ist anpingbar, SSH geht auch nicht mehr

Der Server ist im 19"-Schrank im Keller und hat einen Bildschirm dran. Da hab ich zuletzt dann mal gemerkt, dass ich in diesem Zustand keinen einizigen Befehl mehr eingeben kann.
Jeder Befehl wird mit "Input/Output"-Error quittiert.

Dann blieb mir nur ein beherzter Druck auf die Reset-Taste. Gesagt getan. Das System hat einen Reset gemacht - aber nur bis zum ASUS-Logo.
Danach begrüßte man mich mit der Meldung, ich solle ein Boot-Device angeben.
Ab hier kam ich dann so langsam ins Schwitzen - also nochmal Reset... Gleiches Spiel.

Nächste Idee: Ich hab' die Kiste ausgeschaltet und wieder eingeschaltet. Seitdem ist mal wieder alles normal...

Es bleibt ein mulmiges Gefühl....

Habt ihr 'ne Idee??

LG,

k72

Update: Letzter Neustart am 02.04.2025 - ich warte jetzt mal wieder....
 
Last edited:
Dann blieb mir nur ein beherzter Druck auf die Reset-Taste. Gesagt getan. Das System hat einen Reset gemacht - aber nur bis zum ASUS-Logo.
Dann ist Zeit, die 3-2-1 Backupstrategie zu überpüfen und ein Restore zu testen ("Schrödingers Backup"...)

Dann:
  • memtest86 über Nacht laufen lassen - Speicher (ohne ECC) fällt manchmal tatsächlich aus
  • smartctrl -A <dev> - einen Blick auf die Smart-Daten werfen
  • smartctrl -t long <dev> - einen vollständigen Test veranlassen
Falls die Festplatten (bis runter zur Boot-Ebene, aber insbesondere auch der Speicher für die VMs) bisher nicht redundant sind: über einen Umstieg auf ZFS nachdenken. (Mir persönlich sind am Wochenende zwei SSDs (in je einem Rechner) ausgestiegen. Beide Nodes liefen einfach ohne Einschränkung weiter...)
 
In Ergänzung zu UdoB, empfehle ich auch an das Netzteil mal zu denken und zu überprüfen, wie alt es ist, ob es entsprechende Geruchsbildung gibt und wenn man ein Netzteiltester hat, die sind auch zu verwenden. Vorsorglich würde ich einfach ein neues Gold ATX Netzteil einbauen.
 
  • Like
Reactions: UdoB
Noch eine Frage: bestehen die Möglichkeit, dass du deine Hardware genau beschreibst? Da gibt es doch einige Tools unter Linux.
 
probier mal die c-states im bios zu deaktvieren, hat bei einigen usern mit amd cpu geholfen
 
was für Hardware also SSD oder HDD ist da verbaut auf der das System installiert ist?
mal die smart Werte geprüft ?
da ja input output error kommen
 
Ich werde das ganze mal weiter beobachten, da ich sowieso eine Umstellung auf Intel plane.
Die Vergangenheit zeigte mir immer wieder mal irgendwelche Kompatibilitätsprobleme, die ich mit Intel nie erlebt habe.
Will da keinem auf's Füßchen treten, aber Intel ist einfach Intel.....
Netzteil habe ich vor kurzem erst getauscht, was aber auch schon komisch war - evtl. ist ja auch irgenwas mit dem Board, was dann mit dem Intel-System einfach ausgemerzt wäre....

LG
 
  • Like
Reactions: IsThisThingOn
Ich werde das ganze mal weiter beobachten, da ich sowieso eine Umstellung auf Intel plane.
Die Vergangenheit zeigte mir immer wieder mal irgendwelche Kompatibilitätsprobleme, die ich mit Intel nie erlebt habe.
Will da keinem auf's Füßchen treten, aber Intel ist einfach Intel.....
Netzteil habe ich vor kurzem erst getauscht, was aber auch schon komisch war - evtl. ist ja auch irgenwas mit dem Board, was dann mit dem Intel-System einfach ausgemerzt wäre....

LG
Ja Intel hat auch seine Problemchen. Ich empfehle dir keine CPU mit E+P Cores, sondern lieber eine mit einheitlichen Coretypen.
 
  • Like
Reactions: IsThisThingOn
Update: BIOS war ziemlich veraltet. Bin jetzt beim Board von 3810 auf 4622 - wer weiß, vllt. bring's was.
Außerdem hab' ich noch Global C-States auf "disabled" gesetzt.
 
Es empfiehlt sich (auch wenn das automatisch passieren sollte), nochmal das BIOS von Hand zu resetten und komplett neu einzustellen. Fastboot und Logoeinblendung habe ich beides immer deaktiviert, damit sich möglichst nichts beim Bootvorgang verbergen kann.
Ist der CPU-Lüfter zugestaubt? Chipsatzlüfter (der kleine flache unterm Plastik)? Hast du dem Memtraining nach einem Reset genügend Zeit gegeben? RAM nicht übertaktet laufen lassen, solange die Fehlerquelle nicht gefunden wurde (also ohne DOCP).
 
Ich bin sehr dankbar für eure ganzen Tipps.
Sauber ist die Kiste. Nachdem ich das BIOS aktualisiert hatte, musste ich Settings wieder anpassen.
C-States sind deaktiviert.
Ein Freund vom Übertakten war ich noch nie.
Ich zähle ab heute dann mal wieder die Uptime.
Drückt mir die Daumen.
- Bis zum nächsten Crash -
Viele Grüße,
k72