pve smartd verursacht hart-shutdown

Nasthran

New Member
Jul 11, 2017
9
0
1
37
Hallo Community,

wieder einmal muss ich mich hilfesuchend an euch wenden... denn, mein Server fährt unregelmäßig via Hart-Shutdown runter, meistens Nachts, den logfiles nach zu urteilen liegt es an der HDD (dev/sda), angeblich ist die Temperatur irgendwann auf 105°C und dann geht er aus.. darauf hin habe ich vor kurzem den Slot gewechsel um Abstand zur CPU zu gewinnen (abwärme) - zeitgleich habe ich zur "überwachung" dieser werte mal monitorix installiert. - seitdem war 3 tage gut. kein neustart, temperatur stets zwischen 39-41°C.

Heute morgen steh ich auf, server aus..
Laut log ist folgendes passiert:

Jul 16 01:31:48 pve smartd[1099]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 107 to 108

*Kurz drauf ging er aus und erst heute morgen, durch mein zutun wieder an...

was heißt er geht aus... ist so auch nicht richtig, "an" ist er die ganze zeit, reagiert allerdings auf nichts mehr, ist auch nicht anpingbar... da hilft nur POWER gedrückt zu halten und dann neu zu starten

jedenfalls sagt mir monitorix was völlig anderes:

disk01z.1day.png


Nirgendwo etwas von 107/108°C zu sehen...

habt ihr eventuell eine Ahnung was da los sein könnte?

PS: Mein "System" ist ein ausgemusterter ASUS GR6 (r049z) - i5 5200U - 16GB ram - SDA 1TB WD Red.



LG
 
Last edited:
Hallo Community,

...
was heißt er geht aus... ist so auch nicht richtig, "an" ist er die ganze zeit, reagiert allerdings auf nichts mehr, ist auch nicht anpingbar... da hilft nur POWER gedrückt zu halten und dann neu zu starten
...
Hi,
ich würde mich nicht so an der Festplattentemperatur stören. Der schräge Wert kommt vielleicht von einer falschen Umrechnung des RAW-Wertes (Firmware der HDD zu alt? Falsche Info in den Smartmontools?).

Meines Erachtens ist es "zufällig" der letzte Event, der noch erfolgreich auf die Platte geschrieben werden kann, bevor sich das System weghängt.

Für das Weghängen kann es viele Gründe geben. Selbst hatte ich sowas mit Systemen mit defekten Bios (war nach einem Bios-Update (Supermicro) behoben), oder auch mit einen augenscheinlich heilen Netzteil - trotz Servernetzteil und redundant und so... mit neuem Netzteil lief das System dann einwandfrei.

Es kann auch am RAM oder CPU liegen... wie gesagt, die Möglichkeiten sind vielfältig. Normalerweise kann beim Hängen das System nichts mehr loggen, d.h. die interessanten Meldungen bekommt man nicht. ggf. serielles Logging einrichten...

Udo
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!