Proxmox Server startet ohne ersichtlichen Grund immer mal wieder neu. Mal nach wenigen Stunden, manchmal nach 5 Tagen....
Proxmox 7.1-10 ohne subscription - letztes update 14 .märz 2022
Hardware:
1 x Crucial ct250mx500ssd1 --- proxmox system
2 x SAMSUNG SSD 870 QVO 2TB -- 2 separate LVM mit a) debian vm b) windows server 2019 essentials
( die beiden SSD waren auch mal in einem ZFS pool raid, aber nach ständigen Abstürzen war der Pool DEGRADED und ich hab die Platten in LVM ohne RAID1 umgewandelt, weil ich wissen wollte ob ZFS die Ursache ist. )
2 x Seagate st2000dm008 -- ZFS pool raid1, für vm backups
40GB RAM: ECC fähig, keine Fehler beim RAM Test.
zfs limits angepasst, da der RAM ständig im 97% Bereich lag und SWAP genutzt wurde.
Das einzig auffällige ist:
a) dass vor dem Reboot immer `SMART Usage Attribute` Infos kommen bzgl Temparatur kommen, aber ich hab dann mal hoffentlich richtig recherchiert und es scheint alles im grünen Bereich zu liegen.
b) dass immer zuvor der `/etc/cron.hourly` zu laufen scheint, was auch immer das genau passiert. Das Verzeichnis /etc/cron.hourly ist aber leer.
syslog:
Ich bin jetzt gerade dabei die VMs abwechselnd auf 3 der 4 Platten zu verteilen, um ev. eine fehlerhaft Platte zu identifizieren. Leider ist es ein Produktivsystem, was das Experimentieren etwas einschränkt.
Jemand noch eine Idee?
Proxmox 7.1-10 ohne subscription - letztes update 14 .märz 2022
Hardware:
1 x Crucial ct250mx500ssd1 --- proxmox system
2 x SAMSUNG SSD 870 QVO 2TB -- 2 separate LVM mit a) debian vm b) windows server 2019 essentials
( die beiden SSD waren auch mal in einem ZFS pool raid, aber nach ständigen Abstürzen war der Pool DEGRADED und ich hab die Platten in LVM ohne RAID1 umgewandelt, weil ich wissen wollte ob ZFS die Ursache ist. )
2 x Seagate st2000dm008 -- ZFS pool raid1, für vm backups
40GB RAM: ECC fähig, keine Fehler beim RAM Test.
zfs limits angepasst, da der RAM ständig im 97% Bereich lag und SWAP genutzt wurde.
Code:
options zfs zfs_arc_min=4294967296 (4GB)
options zfs zfs_arc_max=12884901888 (12GB)
Das einzig auffällige ist:
a) dass vor dem Reboot immer `SMART Usage Attribute` Infos kommen bzgl Temparatur kommen, aber ich hab dann mal hoffentlich richtig recherchiert und es scheint alles im grünen Bereich zu liegen.
b) dass immer zuvor der `/etc/cron.hourly` zu laufen scheint, was auch immer das genau passiert. Das Verzeichnis /etc/cron.hourly ist aber leer.
syslog:
Code:
Mar 14 15:24:45 pve smartd[2351]: Device: /dev/sde [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 75 to 76
Mar 14 15:54:45 pve smartd[2351]: Device: /dev/sdd [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 70 to 71
Mar 14 15:54:45 pve smartd[2351]: Device: /dev/sdd [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 30 to 29
Mar 14 16:17:01 pve CRON[3922979]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Mar 14 16:17:01 pve CRON[3922980]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly)
Mar 14 16:17:01 pve CRON[3922979]: pam_unix(cron:session): session closed for user root
Mar 14 16:24:45 pve smartd[2351]: Device: /dev/sdb [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 77 to 78
-- Reboot --
Mar 13 02:17:01 pve CRON[3028077]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Mar 13 02:17:01 pve CRON[3028078]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly)
Mar 13 02:17:01 pve CRON[3028077]: pam_unix(cron:session): session closed for user root
Mar 13 02:31:30 pve smartd[1243]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 79 to 80
Mar 13 02:31:30 pve smartd[1243]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 82 to 100
Mar 13 02:31:30 pve smartd[1243]: Device: /dev/sdc [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 82 to 100
Mar 13 02:31:30 pve smartd[1243]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 80 to 100
Mar 13 02:31:30 pve smartd[1243]: Device: /dev/sdd [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 71 to 72
Mar 13 02:31:30 pve smartd[1243]: Device: /dev/sdd [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 29 to 28
Mar 13 02:31:30 pve smartd[1243]: Device: /dev/sdd [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 80 to 100
-- Reboot --
Mar 14 17:13:56 pve smartd[1234]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 76 to 73
Mar 14 17:17:01 pve CRON[6919]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Mar 14 17:17:01 pve CRON[6920]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly)
Mar 14 17:17:01 pve CRON[6919]: pam_unix(cron:session): session closed for user root
Mar 14 17:43:56 pve smartd[1234]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 73 to 78
Mar 14 17:43:56 pve smartd[1234]: Device: /dev/sdb [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 77 to 78
Mar 14 18:13:56 pve smartd[1234]: Device: /dev/sdc [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 71 to 72
Mar 14 18:13:56 pve smartd[1234]: Device: /dev/sdc [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 29 to 28
Mar 14 18:17:01 pve CRON[16151]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Mar 14 18:17:01 pve CRON[16152]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly)
Mar 14 18:17:01 pve CRON[16151]: pam_unix(cron:session): session closed for user root
-- Reboot --
Code:
smartctl -a /dev/sd(a/b/c/d/e) - meint keine Fehler:
SMART Error Log Version: 1
No Errors Logged
Ich bin jetzt gerade dabei die VMs abwechselnd auf 3 der 4 Platten zu verteilen, um ev. eine fehlerhaft Platte zu identifizieren. Leider ist es ein Produktivsystem, was das Experimentieren etwas einschränkt.
Jemand noch eine Idee?
Last edited: