Zufällige Neustarts ohne erkennbare Ursache

tomgrill · Mar 15, 2022

Proxmox Server startet ohne ersichtlichen Grund immer mal wieder neu. Mal nach wenigen Stunden, manchmal nach 5 Tagen....

Proxmox 7.1-10 ohne subscription - letztes update 14 .märz 2022

Hardware:

1 x Crucial ct250mx500ssd1 --- proxmox system
2 x SAMSUNG SSD 870 QVO 2TB -- 2 separate LVM mit a) debian vm b) windows server 2019 essentials
( die beiden SSD waren auch mal in einem ZFS pool raid, aber nach ständigen Abstürzen war der Pool DEGRADED und ich hab die Platten in LVM ohne RAID1 umgewandelt, weil ich wissen wollte ob ZFS die Ursache ist. )
2 x Seagate st2000dm008 -- ZFS pool raid1, für vm backups

40GB RAM: ECC fähig, keine Fehler beim RAM Test.

zfs limits angepasst, da der RAM ständig im 97% Bereich lag und SWAP genutzt wurde.

Code:

options zfs zfs_arc_min=4294967296 (4GB)
options zfs zfs_arc_max=12884901888 (12GB)

Das einzig auffällige ist:

a) dass vor dem Reboot immer `SMART Usage Attribute` Infos kommen bzgl Temparatur kommen, aber ich hab dann mal hoffentlich richtig recherchiert und es scheint alles im grünen Bereich zu liegen.

b) dass immer zuvor der `/etc/cron.hourly` zu laufen scheint, was auch immer das genau passiert. Das Verzeichnis /etc/cron.hourly ist aber leer.

syslog:

Code:

Mar 14 15:24:45 pve smartd[2351]: Device: /dev/sde [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 75 to 76
Mar 14 15:54:45 pve smartd[2351]: Device: /dev/sdd [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 70 to 71
Mar 14 15:54:45 pve smartd[2351]: Device: /dev/sdd [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 30 to 29
Mar 14 16:17:01 pve CRON[3922979]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Mar 14 16:17:01 pve CRON[3922980]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Mar 14 16:17:01 pve CRON[3922979]: pam_unix(cron:session): session closed for user root
Mar 14 16:24:45 pve smartd[2351]: Device: /dev/sdb [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 77 to 78
-- Reboot --


Mar 13 02:17:01 pve CRON[3028077]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Mar 13 02:17:01 pve CRON[3028078]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Mar 13 02:17:01 pve CRON[3028077]: pam_unix(cron:session): session closed for user root
Mar 13 02:31:30 pve smartd[1243]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 79 to 80
Mar 13 02:31:30 pve smartd[1243]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 82 to 100
Mar 13 02:31:30 pve smartd[1243]: Device: /dev/sdc [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 82 to 100
Mar 13 02:31:30 pve smartd[1243]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 80 to 100
Mar 13 02:31:30 pve smartd[1243]: Device: /dev/sdd [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 71 to 72
Mar 13 02:31:30 pve smartd[1243]: Device: /dev/sdd [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 29 to 28
Mar 13 02:31:30 pve smartd[1243]: Device: /dev/sdd [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 80 to 100
-- Reboot --

Mar 14 17:13:56 pve smartd[1234]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 76 to 73
Mar 14 17:17:01 pve CRON[6919]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Mar 14 17:17:01 pve CRON[6920]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Mar 14 17:17:01 pve CRON[6919]: pam_unix(cron:session): session closed for user root
Mar 14 17:43:56 pve smartd[1234]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 73 to 78
Mar 14 17:43:56 pve smartd[1234]: Device: /dev/sdb [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 77 to 78
Mar 14 18:13:56 pve smartd[1234]: Device: /dev/sdc [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 71 to 72
Mar 14 18:13:56 pve smartd[1234]: Device: /dev/sdc [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 29 to 28
Mar 14 18:17:01 pve CRON[16151]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Mar 14 18:17:01 pve CRON[16152]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Mar 14 18:17:01 pve CRON[16151]: pam_unix(cron:session): session closed for user root
-- Reboot --

Code:

smartctl -a /dev/sd(a/b/c/d/e) - meint keine Fehler:

SMART Error Log Version: 1
No Errors Logged

Ich bin jetzt gerade dabei die VMs abwechselnd auf 3 der 4 Platten zu verteilen, um ev. eine fehlerhaft Platte zu identifizieren. Leider ist es ein Produktivsystem, was das Experimentieren etwas einschränkt.

Jemand noch eine Idee?

Falk R. · Mar 15, 2022

tomgrill said:
Mar 13 02:31:30 pve smartd[1243]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 82 to 100

Mar 13 02:31:30 pve smartd[1243]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 80 to 100

Mar 13 02:31:30 pve smartd[1243]: Device: /dev/sdd [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 80 to 100

HI, das klingt für mich nach sterbenden Disks.
Zumindest wenn sich Read Errors häufen und nicht correctable sind häufen sich Abstürze.

Welche Disks sind denn sdc und sdd?

Gruß Falk

tomgrill · Mar 15, 2022

sdc/d Seagate st2000dm008
sda/b SAMSUNG SSD 870 QVO
sde Crucial ct250mx500ssd1

Ich hab die Werte mal gegoogelt und eigentlich nur "alles ok so" gefunden

Bspw:
https://debianforum.de/forum/viewtopic.php?t=176558
https://superuser.com/questions/151...both-increasing-and-decreasing-what-does-this

Wenn es konsequent immer wieder bei der selben Platte wäre, dann hätte ich da mehr bedenken, aber betrifft irgendwie alle und zufällig

Falk R. · Mar 15, 2022

Guck dir mal die Temperaturen an. Wenn das Grad Celsius sind, istd den SSDs garantiert zu warm, wenn das Fahrenheit ist, dann sind die ganz schön kühl. Ich habe ein paar HPE Server gesehen, die immer ausgegangen sind wenn der Raid Controller zu warm geworden ist, da hing eine warme PCI karte drüber und das mochten die nicht. Nur so als Tip zum weitersuchen.

Dunuin · Mar 16, 2022

SkyDiver79 said:
Guck dir mal die Temperaturen an. Wenn das Grad Celsius sind, istd den SSDs garantiert zu warm, wenn das Fahrenheit ist, dann sind die ganz schön kühl. Ich habe ein paar HPE Server gesehen, die immer ausgegangen sind wenn der Raid Controller zu warm geworden ist, da hing eine warme PCI karte drüber und das mochten die nicht. Nur so als Tip zum weitersuchen.

Die smartctl Werte in den Logs für Temperaturen sind üblicherwise die "VALUE" und nicht "RAW_VALUE". Das sind dann oft weder Grad Celsius, Fahrenheit noch Kelvin. Da kannst du mal smartctl -a /dev/sda laufen lassen und gucken was da in der Zeile "190 Airflow_Temperature_Cel" für "VALUE" und "RAW_VALUE" steht.

Bei mir sieht es z.B. so aus:

Code:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
190 Temperature_Case        0x0022   074   070   000    Old_age   Always       -       26 (Min/Max 16/30)

Und wenn smartctl in den Logs meckert, dass da "190 Temperature_Case" auf 74 angestiegen ist, dann meint das, dass da meine SSD auf 26 Grad C hoch ist. Sind dann bei mir 26 und nicht 74 Grad.

Falls du noch ein anderes Netzteil liegen hast würde ich mal die Netzteile tauschen. Wenn Abstürze nicht am RAM liegen dann meist an einer nicht stabilen Stromversorgung. Sowas kann dann z.B. auch erklären, warum da alle Disks irgendwie zufällig Fehler haben, wenn da systemweit z.B. mal die 12V Spannung für eine Millisekunde außerhalb der Toleranzbereiche fällt und die Geräte (CPU/RAM/Chipsatz/Disks/...) ins Brown-out kommen und dann nur noch Murks berechnen/auslesen.

tomgrill · Mar 16, 2022

Netzteil - guter Punkt! Werds mal versuchen.

Temperaturen sollten passen:

Log gerade die Celsius Temperaturen alle 5 Minuten:

sda/b zwischen 21-22

Code:

190 Airflow_Temperature_Cel 0x0032   079   059   000    Old_age   Always       -       21

sdc/d: zwischen 28 und 32

Code:

190 Airflow_Temperature_Cel 0x0022   070   057   040    Old_age   Always       -       30 (Min/Max 25/35)
194 Temperature_Celsius     0x0022   030   043   000    Old_age   Always       -       30 (0 6 0 0 0)

sde: genau 23

Code:

194 Temperature_Celsius     0x0022   077   066   000    Old_age   Always       -       23 (Min/Max 0/34)

Search

Search

Zufällige Neustarts ohne erkennbare Ursache

tomgrill

New Member

Falk R.

Distinguished Member

tomgrill

New Member

Falk R.

Distinguished Member

Dunuin

Distinguished Member

tomgrill

New Member

We value your privacy