Proxmox machte einfach Neustart

Fantasenf · Saturday at 23:51

Hey,

ich hatte vorhin ein sehr komisches Verhalten meines Proxmoxes...
Ohne meines Zutuns startete der Proxmox einfach neu.
Ich habe mal den System Log angehängt. Vlt. seht ihr ja wieso.

Es sind alle Updates installiert.

mr44er · Sunday at 14:35

(host gmail-smtp-in.l.google.com[108.177.119.27] said: 550-5.7.26 Your email has been blocked because the sender is unauthenticated.

Das hat nicht zum Absturz geführt, aber das wäre ein Configfehler und ich nehme mal an, dass du von root@pve.spitney.deübers google-relay rausschicken wolltest. Da ist irgendwo ein Logikfehler drin. Direkt funktioniert es mit dynamischer IP sowieso nicht, das vorweg.

/dev/sda [SAT], SMART Prefailure Attribute

Der Absturz kommt möglicherweise davon, dass /dev/sda defekt ist und wenn die Warnmail nie durchkam, hattest du davon auch keine Kenntnis.

Fantasenf · Sunday at 17:33

Hey,

aber wenn ich die HDD anschaue unter Disk, steht dass Smart Passed ist und er zeigt auch in den Smart Werten keine Fehler an.
Das problem mit der Mail werde ich mir dann auch noch anschauen, hatte ich bislang nicht die Muse.

mr44er · Sunday at 17:47

Fantasenf said:
Disk, steht dass Smart Passed ist und er zeigt auch in den Smart Werten keine Fehler an

Also meist ist SMART korrekt, aber ich hatte schon wenige Fälle, wo SMART versagte. Bzw. alles "passed" meldete, obwohl die disk schon scheintot war, aber auch der umgekehrte Weg...SMART sagt disk ist kurz vorm Sterben, aber sie lief noch munter weiter ohne dass man was bemerkte.

Mehr als Problem mit /dev/sda gibt das log aber auch nicht her.

Fantasenf · Sunday at 19:48

ich hatte den fehler nun noch ein paar mal, aber da war kein Neustart.
Ich beobachte das einfach mal, auf der HDD liegen keine wichtigen Daten.
Danke dir schon mal

mr44er · Sunday at 20:11

Wennsd mogst, kannst du noch die Ausgabe von smartctl -x -q noserial /dev/sdain eine .txt-Datei anhängen, dann kann man mal drüberschauen.

Wennsd mogst2, kannst du einen ausführlichen Selbsttest der disk anschmeißen smartctl -t long /dev/sda
Das beeinträchtigt nicht den Betrieb (wenn sie nicht defekt ist) und währenddessen kannst du beliebig oft erneut mit smartctl -x -q noserial /dev/sda nach dem Fortschritt schauen (irgendwo läuft dann da eine %-Zahl und nein, auch das stört den Betrieb nicht oder bricht den Test ab

)

Wenns mogst3, wäre die Ausgabe vor/nach dem Test vielleicht aufschlußreich, ob da was verbogen ist.

Fantasenf · 2025-01-06T01:53:37+0100

Der Test läuft, er dauert 13h

Anbei ist schonmal "mogst ohne Zahl

"

Ich werd jetzt erstmal schauen, wie ich wieder emails empfangen kann...

mr44er · 2025-01-06T09:50:33+0100

Code:

  4 Start_Stop_Count        -O--C-   092   092   000    -    35103
12 Power_Cycle_Count       -O--CK   092   092   000    -    34998
192 Power-Off_Retract_Count -O--CK   071   071   000    -    35130
193 Load_Cycle_Count        -O--C-   071   071   000    -    35130

Die sind verdächtig hoch und ähnlich, passen allerdings nicht zu einer Laufzeit von 4522 Stunden. Manche HGSTs fangen nach unterschiedlicher Laufzeit (55000 oder 65000) wieder bei 0 an und das ist hier auch erfolgt, lese ich von 0x01 0x018 6 22849624912 --- Logical Sectors Written ab.

Das heißt so für sich zunächst mal nichts, jedoch sind diese Kopfparkvorgänge auch begrenzt und sind Verschleiß. Muss man dann mal gucken, wie stark das in der Zeit ansteigt bis zum anderen log.

Fantasenf · 2025-01-06T15:20:49+0100

So und hier der 2. Test.
Dies ist eine externe HDD, die in den sleep modus geht, wenn sie nicht genutzt wird.

mr44er · 2025-01-06T15:37:01+0100

Fantasenf said:
Dies ist eine externe HDD, die in den sleep modus geht, wenn sie nicht genutzt wird.

Code:

# 1  Extended offline    Aborted by host               90%      4522         -

Jup...9 Stunden vorher ging sie in den sleep und deswegen hat es den Test abgebrochen.

Ansonsten:
Power_Cycle_Count Differenz nach ~13h: 85
Load_Cycle_Count Differenz nach ~13h: auch 85

Das ist brutal viel und geht aufs Material. HGST SAS sagen oft, dass sie 50.000x Power_Cycle_Count wegstecken können "sollen" und bei der Load_Cycle_Count 600.000, je nachdem was zuerst kommt.

Es sagt auch, dass eine Proxmox-Systemplatte nie nicht genutzt wird...vielleicht war das der Absturzgrund, dieses dauernde sleep/wieder anfahren, das geht lange gut, aber geht aufs Material und du hast nichts davon.

Wenn irgendwie möglich, würde ich da den sleep einfach deaktivieren und hoffen, dass die Platte dann noch ein Weilchen durchhält.

Fantasenf · 2025-01-06T15:47:46+0100

mr44er said:
Code:

# 1 Extended offline Aborted by host 90% 4522 -

Jup...9 Stunden vorher ging sie in den sleep und deswegen hat es den Test abgebrochen.

Ansonsten:
Power_Cycle_Count Differenz nach ~13h: 85
Load_Cycle_Count Differenz nach ~13h: auch 85

Das ist brutal viel und geht aufs Material. HGST SAS sagen oft, dass sie 50.000x Power_Cycle_Count wegstecken können "sollen" und bei der Load_Cycle_Count 600.000, je nachdem was zuerst kommt.

Es sagt auch, dass eine Proxmox-Systemplatte nie nicht genutzt wird...vielleicht war das der Absturzgrund, dieses dauernde sleep/wieder anfahren, das geht lange gut, aber geht aufs Material und du hast nichts davon.

Wenn irgendwie möglich, würde ich da den sleep einfach deaktivieren und hoffen, dass die Platte dann noch ein Weilchen durchhält.

Danke für die einschätzung

Och weißt du... Das ding ist erst 10 Monate alt.
Wenn das jetzt schon so probleme macht, schick ich das ding zurück und hol mir was besseres

Hab da auch schon was schönes rausgesucht

mr44er · 2025-01-06T15:56:17+0100

Das wird nicht an der Platte liegen, ich habe mehrheitlich HGST im Einsatz, die sind top (auch wenn ich noch keine habe, die bereits unter der WD-Flagge segelt). Oft macht das auch einfach der USB-Controller oder wie das angebunden ist, weil der Hersteller davon ausgeht, dass der Benutzer das nur als externen Speicher an einem Windows nutzt und da ist aggressives spindown/sleep unproblematisch.
Das steht natürlich nie in den specs, also möglicherweise stehst du bei Tausch vor dem gleichen Problem.

Fantasenf · 2025-01-06T15:58:30+0100

mr44er said:
Das wird nicht an der Platte liegen, ich habe mehrheitlich HGST im Einsatz, die sind top (auch wenn ich noch keine habe, die bereits unter der WD-Flagge segelt). Oft macht das auch einfach der USB-Controller oder wie das angebunden ist, weil der Hersteller davon ausgeht, dass der Benutzer das nur als externen Speicher an einem Windows nutzt und da ist aggressives spindown/sleep unproblematisch.
Das steht natürlich nie in den specs, also möglicherweise stehst du bei Tausch vor dem gleichen Problem.

Ich würd halt auf so externe HDD Gehäuse gehen und eine NAS HDD reinklatschen. Wenn das Gehäuse da versagt, isses nicht ganz so schlimm...

mr44er · 2025-01-06T16:13:05+0100

Fantasenf said:
externe HDD Gehäuse gehen und eine NAS HDD reinklatschen. Wenn das Gehäuse da versagt, isses nicht ganz so schlimm...

Wir reden da aneinander vorbei glaube ich.

Der Controller im Gehäuse (egal welche Bauart), setzt bei den Festplatten (egal welche du reinpappst) dieses spindown/sleep flag (wenn er es setzt).
Es macht nicht jeder Controller, aber du kannst nicht danach suchen und das vorm Kauf rausfiltern, das ist ja das blöde.
Am besten wäre es, wenn man Gehäuse von drei verschiedenen Herstellen besorgt und dann schaut, ob die das flag (APM) setzen oder nicht. Die, die es machen dann zurückschicken.

On top kommt noch dazu, dass nicht jede Fesplatte das APM dauerhaft abspeichert (das ist dann in der firmware nicht zugelassen und resettet sich bei Kaltstart)
...
Also man kämpft da eigentlich gegen zwei Probleme.
Stell dir vor, du schließt eine neue Festplatte direkt mit SATA/AHCI an deinem Board an. Im eher ungünstigen Fall hat die Firmware der Platte APM von 128. Das heißt Kopfparken, aber zumindest kein spindown/deep sleep. Mit hdparm lässt sich das umstellen (APM254 heißt dauerhaft laufen und das will man im Serverbetrieb) und mit Glück auch abspeichern. Man testet das nun mittels Kaltstart und wenn das danach immer noch auf APM254 steht, hast du gewonnen und die Firmware erlaubt das Speichern.
Nichtsahnend baust du nun die korrekt eingestelle Festplatte in irgendein externes Gehäuse, weißt aber nicht, dass der Controller da drin ungefragt und ausschließlich APM64 oder gar noch aggressiver setzt...und das sind Dinge, die kann man dann nicht abdrehen.

Fantasenf · 2025-01-06T16:17:35+0100

Ok, vielen Dank für den Hinweis.
Ich schaue mal, ob ich was finde

Fantasenf · 2025-01-06T19:57:42+0100

Ich hab mir mal dieses Gehäuse bestellt und werde dann mal schauen wie die APM dabei ist

https://amzn.eu/d/9zAfHxc

Search

Search

Proxmox machte einfach Neustart

Fantasenf

New Member

Attachments

mr44er

Renowned Member

Fantasenf

New Member

mr44er

Renowned Member

Fantasenf

New Member

mr44er

Renowned Member

Fantasenf

New Member

Attachments

mr44er

Renowned Member

Fantasenf

New Member

Attachments

mr44er

Renowned Member

Fantasenf

New Member

mr44er

Renowned Member

Fantasenf

New Member

mr44er

Renowned Member

Fantasenf

New Member

Fantasenf

New Member