Proxmox machte einfach Neustart

Fantasenf

New Member
Oct 24, 2023
28
4
3
Hey,

ich hatte vorhin ein sehr komisches Verhalten meines Proxmoxes...
Ohne meines Zutuns startete der Proxmox einfach neu.
Ich habe mal den System Log angehängt. Vlt. seht ihr ja wieso.

Es sind alle Updates installiert.
 

Attachments

(host gmail-smtp-in.l.google.com[108.177.119.27] said: 550-5.7.26 Your email has been blocked because the sender is unauthenticated.
Das hat nicht zum Absturz geführt, aber das wäre ein Configfehler und ich nehme mal an, dass du von root@pve.spitney.deübers google-relay rausschicken wolltest. Da ist irgendwo ein Logikfehler drin. Direkt funktioniert es mit dynamischer IP sowieso nicht, das vorweg.

/dev/sda [SAT], SMART Prefailure Attribute
Der Absturz kommt möglicherweise davon, dass /dev/sda defekt ist und wenn die Warnmail nie durchkam, hattest du davon auch keine Kenntnis.
 
Hey,

aber wenn ich die HDD anschaue unter Disk, steht dass Smart Passed ist und er zeigt auch in den Smart Werten keine Fehler an.
Das problem mit der Mail werde ich mir dann auch noch anschauen, hatte ich bislang nicht die Muse.
 
Disk, steht dass Smart Passed ist und er zeigt auch in den Smart Werten keine Fehler an
Also meist ist SMART korrekt, aber ich hatte schon wenige Fälle, wo SMART versagte. Bzw. alles "passed" meldete, obwohl die disk schon scheintot war, aber auch der umgekehrte Weg...SMART sagt disk ist kurz vorm Sterben, aber sie lief noch munter weiter ohne dass man was bemerkte.

Mehr als Problem mit /dev/sda gibt das log aber auch nicht her. :(
 
ich hatte den fehler nun noch ein paar mal, aber da war kein Neustart.
Ich beobachte das einfach mal, auf der HDD liegen keine wichtigen Daten.
Danke dir schon mal :)
 
Wennsd mogst, kannst du noch die Ausgabe von smartctl -x -q noserial /dev/sdain eine .txt-Datei anhängen, dann kann man mal drüberschauen.

Wennsd mogst2, kannst du einen ausführlichen Selbsttest der disk anschmeißen smartctl -t long /dev/sda
Das beeinträchtigt nicht den Betrieb (wenn sie nicht defekt ist) und währenddessen kannst du beliebig oft erneut mit smartctl -x -q noserial /dev/sda nach dem Fortschritt schauen (irgendwo läuft dann da eine %-Zahl und nein, auch das stört den Betrieb nicht oder bricht den Test ab ;) )

Wenns mogst3, wäre die Ausgabe vor/nach dem Test vielleicht aufschlußreich, ob da was verbogen ist.
 
Der Test läuft, er dauert 13h :D
Anbei ist schonmal "mogst ohne Zahl :D"

Ich werd jetzt erstmal schauen, wie ich wieder emails empfangen kann...
 

Attachments

Code:
  4 Start_Stop_Count        -O--C-   092   092   000    -    35103
12 Power_Cycle_Count       -O--CK   092   092   000    -    34998
192 Power-Off_Retract_Count -O--CK   071   071   000    -    35130
193 Load_Cycle_Count        -O--C-   071   071   000    -    35130

Die sind verdächtig hoch und ähnlich, passen allerdings nicht zu einer Laufzeit von 4522 Stunden. Manche HGSTs fangen nach unterschiedlicher Laufzeit (55000 oder 65000) wieder bei 0 an und das ist hier auch erfolgt, lese ich von 0x01 0x018 6 22849624912 --- Logical Sectors Written ab.

Das heißt so für sich zunächst mal nichts, jedoch sind diese Kopfparkvorgänge auch begrenzt und sind Verschleiß. Muss man dann mal gucken, wie stark das in der Zeit ansteigt bis zum anderen log.
 
Dies ist eine externe HDD, die in den sleep modus geht, wenn sie nicht genutzt wird.

Code:
# 1  Extended offline    Aborted by host               90%      4522         -
Jup...9 Stunden vorher ging sie in den sleep und deswegen hat es den Test abgebrochen.

Ansonsten:
Power_Cycle_Count Differenz nach ~13h: 85
Load_Cycle_Count Differenz nach ~13h: auch 85

Das ist brutal viel und geht aufs Material. HGST SAS sagen oft, dass sie 50.000x Power_Cycle_Count wegstecken können "sollen" und bei der Load_Cycle_Count 600.000, je nachdem was zuerst kommt.

Es sagt auch, dass eine Proxmox-Systemplatte nie nicht genutzt wird...vielleicht war das der Absturzgrund, dieses dauernde sleep/wieder anfahren, das geht lange gut, aber geht aufs Material und du hast nichts davon.

Wenn irgendwie möglich, würde ich da den sleep einfach deaktivieren und hoffen, dass die Platte dann noch ein Weilchen durchhält.
 
Code:
# 1  Extended offline    Aborted by host               90%      4522         -
Jup...9 Stunden vorher ging sie in den sleep und deswegen hat es den Test abgebrochen.

Ansonsten:
Power_Cycle_Count Differenz nach ~13h: 85
Load_Cycle_Count Differenz nach ~13h: auch 85

Das ist brutal viel und geht aufs Material. HGST SAS sagen oft, dass sie 50.000x Power_Cycle_Count wegstecken können "sollen" und bei der Load_Cycle_Count 600.000, je nachdem was zuerst kommt.

Es sagt auch, dass eine Proxmox-Systemplatte nie nicht genutzt wird...vielleicht war das der Absturzgrund, dieses dauernde sleep/wieder anfahren, das geht lange gut, aber geht aufs Material und du hast nichts davon.

Wenn irgendwie möglich, würde ich da den sleep einfach deaktivieren und hoffen, dass die Platte dann noch ein Weilchen durchhält.
Danke für die einschätzung :)
Och weißt du... Das ding ist erst 10 Monate alt.
Wenn das jetzt schon so probleme macht, schick ich das ding zurück und hol mir was besseres :)
Hab da auch schon was schönes rausgesucht :)
 
Das wird nicht an der Platte liegen, ich habe mehrheitlich HGST im Einsatz, die sind top (auch wenn ich noch keine habe, die bereits unter der WD-Flagge segelt). Oft macht das auch einfach der USB-Controller oder wie das angebunden ist, weil der Hersteller davon ausgeht, dass der Benutzer das nur als externen Speicher an einem Windows nutzt und da ist aggressives spindown/sleep unproblematisch.
Das steht natürlich nie in den specs, also möglicherweise stehst du bei Tausch vor dem gleichen Problem.
 
Das wird nicht an der Platte liegen, ich habe mehrheitlich HGST im Einsatz, die sind top (auch wenn ich noch keine habe, die bereits unter der WD-Flagge segelt). Oft macht das auch einfach der USB-Controller oder wie das angebunden ist, weil der Hersteller davon ausgeht, dass der Benutzer das nur als externen Speicher an einem Windows nutzt und da ist aggressives spindown/sleep unproblematisch.
Das steht natürlich nie in den specs, also möglicherweise stehst du bei Tausch vor dem gleichen Problem.
Ich würd halt auf so externe HDD Gehäuse gehen und eine NAS HDD reinklatschen. Wenn das Gehäuse da versagt, isses nicht ganz so schlimm...
 
externe HDD Gehäuse gehen und eine NAS HDD reinklatschen. Wenn das Gehäuse da versagt, isses nicht ganz so schlimm...
Wir reden da aneinander vorbei glaube ich. :) Der Controller im Gehäuse (egal welche Bauart), setzt bei den Festplatten (egal welche du reinpappst) dieses spindown/sleep flag (wenn er es setzt).
Es macht nicht jeder Controller, aber du kannst nicht danach suchen und das vorm Kauf rausfiltern, das ist ja das blöde.
Am besten wäre es, wenn man Gehäuse von drei verschiedenen Herstellen besorgt und dann schaut, ob die das flag (APM) setzen oder nicht. Die, die es machen dann zurückschicken.

On top kommt noch dazu, dass nicht jede Fesplatte das APM dauerhaft abspeichert (das ist dann in der firmware nicht zugelassen und resettet sich bei Kaltstart)
...
Also man kämpft da eigentlich gegen zwei Probleme.
Stell dir vor, du schließt eine neue Festplatte direkt mit SATA/AHCI an deinem Board an. Im eher ungünstigen Fall hat die Firmware der Platte APM von 128. Das heißt Kopfparken, aber zumindest kein spindown/deep sleep. Mit hdparm lässt sich das umstellen (APM254 heißt dauerhaft laufen und das will man im Serverbetrieb) und mit Glück auch abspeichern. Man testet das nun mittels Kaltstart und wenn das danach immer noch auf APM254 steht, hast du gewonnen und die Firmware erlaubt das Speichern.
Nichtsahnend baust du nun die korrekt eingestelle Festplatte in irgendein externes Gehäuse, weißt aber nicht, dass der Controller da drin ungefragt und ausschließlich APM64 oder gar noch aggressiver setzt...und das sind Dinge, die kann man dann nicht abdrehen.
 
Last edited:

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!