Tägliche Smart Error Mail obwohl Error nicht mehr besteht.

Fischje · Sep 17, 2022

Hallo,

ich bekomme täglich eine Mail eines Smart Error (Temperatur) meiner NVMEs. Das Problem bestand beim Zusammenbau des Servers, als die Kühlung noch nicht richtig installiert war. Natürlich sind die Nvmes mittlerweile gekühlt. Smart zeigt mir auch ständig eine Temperatur von 38-40 Grad an, was vollkommen in Ordnung für mich ist. Folgende E-Mail erhalte ich aber alle 24 Stunden:

Code:

This message was generated by the smartd daemon running on:

   host name:  pve
   DNS domain: xxxx.de

The following warning/error was logged by the smartd daemon:

Device: /dev/nvme0, Critical Warning (0x02): Temperature

Device info:
Samsung SSD 980 1TB, S/N:S649NL0T12345H, FW:2B4QFXO7, 1.00 TB

For details see host's SYSLOG.

You can also use the smartctl utility for further investigation.
The original message about this issue was sent at Tue Sep  6 12:25:29 2022 CEST Another message will be sent in 24 hours if the problem persists.

Wie man sehen kann ist der eigentlich Error vom 6. September. Kann ich den irgendwie quitieren oder sowas?

Reboots brachten nichts.

fireon · Sep 20, 2022

Kenne die Meldungen nur von HDD's, die gehen dann auch wieder weg wenns passt. NVME's nutzen das wohl ein wenig anders. Steuern lässt sich das mit dem Befehl:

NGINX:

nvme

Event. wirst du damit fündig. Da gibt es sehr viele Optionen und Möglichkeiten. Auch Fehlerlogs.

Fischje · Sep 21, 2022

Das hilft mir leider überhaupt nicht weiter. Sowohl smartctl als auch nvmectl sagen mir, dass die SSD 40 °C hat.

Code:

root@pve:~# nvme smart-log /dev/nvme1n1                                                                                                                                                                          
Smart Log for NVME device:nvme1n1 namespace-id:ffffffff                                                                                                                                                          
critical_warning                        : 0                                                                                                                                                                      
temperature                             : 40 C                                                                                                                                                                    
available_spare                         : 100%                                                                                                                                                                    
available_spare_threshold               : 10%                                                                                                                                                                    
percentage_used                         : 0%                                                                                                                                                                      
endurance group critical warning summary: 0                                                                                                                                                                      
data_units_read                         : 607,575                                                                                                                                                                
data_units_written                      : 3,565,469                                                                                                                                                              
host_read_commands                      : 26,005,770                                                                                                                                                              
host_write_commands                     : 41,761,676                                                                                                                                                              
controller_busy_time                    : 58                                                                                                                                                                      
power_cycles                            : 41                                                                                                                                                                      
power_on_hours                          : 48                                                                                                                                                                      
unsafe_shutdowns                        : 19                                                                                                                                                                      
media_errors                            : 0                                                                                                                                                                      
num_err_log_entries                     : 0                                                                                                                                                                      
Warning Temperature Time                : 7                                                                                                                                                                      
Critical Composite Temperature Time     : 0                                                                                                                                                                      
Temperature Sensor 1           : 40 C                                                                                                                                                                            
Temperature Sensor 2           : 43 C                                                                                                                                                                            
Thermal Management T1 Trans Count       : 0                                                                                                                                                                      
Thermal Management T2 Trans Count       : 2640                                                                                                                                                                    
Thermal Management T1 Total Time        : 0                                                                                                                                                                      
Thermal Management T2 Total Time        : 417

Das message-log sagt dazu:

Code:

Sep 21 10:38:23 pve smartd[3767]: Device: /dev/nvme1, Critical Warning (0x02): Temperature                                                                                                                         
Sep 21 10:38:23 pve smartd[3767]: Sending warning via /usr/share/smartmontools/smartd-runner to root ...                                                                                                           
Sep 21 10:38:23 pve smartd[3767]: Warning via /usr/share/smartmontools/smartd-runner to root: successful

fabian · Sep 21, 2022

was sagt denn smartctl --all /dev/nvme1

Fischje · Sep 21, 2022

Code:

root@pve:~# smartctl --all /dev/nvme1

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.53-1-pve] (local build)

Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org



=== START OF INFORMATION SECTION ===

Model Number:                       Samsung SSD 980 1TB

Serial Number:                      S649NL0TxxxxxM

Firmware Version:                   2B4QFXO7

PCI Vendor/Subsystem ID:            0x144d

IEEE OUI Identifier:                0x002538

Total NVM Capacity:                 1,000,204,886,016 [1.00 TB]

Unallocated NVM Capacity:           0

Controller ID:                      5

NVMe Version:                       1.4

Number of Namespaces:               1

Namespace 1 Size/Capacity:          1,000,204,886,016 [1.00 TB]

Namespace 1 Utilization:            620,286,279,680 [620 GB]

Namespace 1 Formatted LBA Size:     512

Namespace 1 IEEE EUI-64:            002538 d721a32737

Local Time is:                      Wed Sep 21 13:40:37 2022 CEST

Firmware Updates (0x16):            3 Slots, no Reset required

Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test

Optional NVM Commands (0x0055):     Comp DS_Mngmt Sav/Sel_Feat Timestmp

Log Page Attributes (0x0f):         S/H_per_NS Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg

Maximum Data Transfer Size:         512 Pages

Warning  Comp. Temp. Threshold:     82 Celsius

Critical Comp. Temp. Threshold:     85 Celsius

Namespace 1 Features (0x10):        NP_Fields



Supported Power States

St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat

0 +     5.24W       -        -    0  0  0  0        0       0

1 +     4.49W       -        -    1  1  1  1        0       0

2 +     2.19W       -        -    2  2  2  2        0     500

3 -   0.0500W       -        -    3  3  3  3      210    1200

4 -   0.0050W       -        -    4  4  4  4     1000    9000



Supported LBA Sizes (NSID 0x1)

Id Fmt  Data  Metadt  Rel_Perf

0 +     512       0         0



=== START OF SMART DATA SECTION ===

SMART overall-health self-assessment test result: PASSED



SMART/Health Information (NVMe Log 0x02)

Critical Warning:                   0x00

Temperature:                        39 Celsius

Available Spare:                    100%

Available Spare Threshold:          10%

Percentage Used:                    0%

Data Units Read:                    607,604 [311 GB]

Data Units Written:                 3,578,979 [1.83 TB]

Host Read Commands:                 26,006,614

Host Write Commands:                42,038,992

Controller Busy Time:               58

Power Cycles:                       41

Power On Hours:                     48

Unsafe Shutdowns:                   19

Media and Data Integrity Errors:    0

Error Information Log Entries:      0

Warning  Comp. Temperature Time:    7

Critical Comp. Temperature Time:    0

Temperature Sensor 1:               39 Celsius

Temperature Sensor 2:               37 Celsius

Thermal Temp. 2 Transition Count:   2654

Thermal Temp. 2 Total Time:         419



Error Information (NVMe Log 0x01, 16 of 64 entries)

No Errors Logged



root@pve:~# smartctl --all /dev/nvme0

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.53-1-pve] (local build)

Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org



=== START OF INFORMATION SECTION ===

Model Number:                       Samsung SSD 980 1TB

Serial Number:                      S649NL0TxxxxxH

Firmware Version:                   2B4QFXO7

PCI Vendor/Subsystem ID:            0x144d

IEEE OUI Identifier:                0x002538

Total NVM Capacity:                 1,000,204,886,016 [1.00 TB]

Unallocated NVM Capacity:           0

Controller ID:                      5

NVMe Version:                       1.4

Number of Namespaces:               1

Namespace 1 Size/Capacity:          1,000,204,886,016 [1.00 TB]

Namespace 1 Utilization:            620,287,963,136 [620 GB]

Namespace 1 Formatted LBA Size:     512

Namespace 1 IEEE EUI-64:            002538 d721a32736

Local Time is:                      Wed Sep 21 13:41:02 2022 CEST

Firmware Updates (0x16):            3 Slots, no Reset required

Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test

Optional NVM Commands (0x0055):     Comp DS_Mngmt Sav/Sel_Feat Timestmp

Log Page Attributes (0x0f):         S/H_per_NS Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg

Maximum Data Transfer Size:         512 Pages

Warning  Comp. Temp. Threshold:     82 Celsius

Critical Comp. Temp. Threshold:     85 Celsius

Namespace 1 Features (0x10):        NP_Fields



Supported Power States

St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat

0 +     5.24W       -        -    0  0  0  0        0       0

1 +     4.49W       -        -    1  1  1  1        0       0

2 +     2.19W       -        -    2  2  2  2        0     500

3 -   0.0500W       -        -    3  3  3  3      210    1200

4 -   0.0050W       -        -    4  4  4  4     1000    9000



Supported LBA Sizes (NSID 0x1)

Id Fmt  Data  Metadt  Rel_Perf

0 +     512       0         0



=== START OF SMART DATA SECTION ===

SMART overall-health self-assessment test result: PASSED



SMART/Health Information (NVMe Log 0x02)

Critical Warning:                   0x00

Temperature:                        39 Celsius

Available Spare:                    100%

Available Spare Threshold:          10%

Percentage Used:                    0%

Data Units Read:                    345,405 [176 GB]

Data Units Written:                 2,199,771 [1.12 TB]

Host Read Commands:                 16,299,828

Host Write Commands:                45,184,305

Controller Busy Time:               41

Power Cycles:                       27

Power On Hours:                     34

Unsafe Shutdowns:                   12

Media and Data Integrity Errors:    0

Error Information Log Entries:      0

Warning  Comp. Temperature Time:    8

Critical Comp. Temperature Time:    0

Temperature Sensor 1:               39 Celsius

Temperature Sensor 2:               39 Celsius

Thermal Temp. 2 Transition Count:   2668

Thermal Temp. 2 Total Time:         451



Error Information (NVMe Log 0x01, 16 of 64 entries)

No Errors Logged

das hier

fabian · Sep 21, 2022

da hilft dann vielleicht nur mehr smartd neustarten und/oder state file (/var/lib/smartmontools/...) loeschen..

fireon · Sep 21, 2022

fabian said:
state file (/var/lib/smartmontools/...) loeschen..

Fischje · Sep 24, 2022

Es bleibt bei unregelmäßigen smart errors. Die Temperatur ist aber wirklich nie höher als diese ungefähren 34 Grad.

Habe mal an diesen thread gedacht:
https://forum.proxmox.com/threads/smart-error-health-detected-on-host.109580/

Rich (BB code):

Setting the following to gurb eliminated the temperature spikes in all three clusters.
Code:
nvme_core.default_ps_max_latency_us=0

Wo gebe ich meinem Bootloader das denn mit? Bin mir nicht mal sicher ob grub noch genutzt wird.

Code:

efibootmgr -v
BootCurrent: 0003
Timeout: 1 seconds
BootOrder: 0003,0004,0002
Boot0002* UEFI: Built-in EFI Shell      VenMedia(5023b95c-db26-429b-a648-bd47664c8012)..BO
Boot0003* UEFI OS       HD(2,GPT,46aa539e-5aeb-4014-9856-d08c6801fd91,0x800,0x100000)/File(\EFI\BOOT\BOOTX64.EFI)..BO
Boot0004* UEFI OS       HD(2,GPT,efd21634-f271-4653-be45-220aef8090ad,0x800,0x100000)/File(\EFI\BOOT\BOOTX64.EFI)..BO

fabian · Sep 26, 2022

https://pve.proxmox.com/pve-docs/chapter-sysadmin.html#sysboot_determine_bootloader_used
https://pve.proxmox.com/pve-docs/chapter-sysadmin.html#sysboot_edit_kernel_cmdline

Fischje · Sep 27, 2022

Das hinzufügen hat leider nicht geholfen. Der Error taucht weiter auf. Nicht mehr täglich und auch nicht zur gleichen Zeit, aber sporadisch.

Z.b. gerade eben: E-Mail um 20:30, direkt im smart nachgeguckt 34 Grad.

1. Wie finde ich heraus wie die Temperatur denn nun wirklich zur Error Logzeit war?
2. Wenn die Temperatur dann wirklich nicht zu hoch war, was kann das sein, dass den Fehler produziert?

fabian · Sep 28, 2022

smartd sollte die werte eigentlich loggen (im journal), z.b. so:

Code:

$ journalctl -b -u smartmontools
...
Sep 20 11:12:46 nora smartd[9292]: Device: /dev/sdc [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 68 to 69

(output wird vermutlich etwas anders ausschauen weil das nicht von einer NVME disk ist

)

Fischje · Sep 28, 2022

Ich komm irgendwie nicht weiter:

Es gibt keine smart errors, kann die Nachricht sich irgendwie verschluckt haben und der "failed" status wurde nicht richtig zurückgesetzt oder sowas?

Beide nvmes:
Error Information (NVMe Log 0x01, 16 of 64 entries)
No Errors Logged

fabian · Sep 28, 2022

steht denn nun in der mail ein neueres datum oder immer noch das urspruengliche?

Fischje · Sep 28, 2022

Ein neueres, aber immer noch nicht aktuell:

Code:

This message was generated by the smartd daemon running on:

   host name:  pve
   DNS domain: fischje.de

The following warning/error was logged by the smartd daemon:

Device: /dev/nvme1, Critical Warning (0x02): Temperature

Device info:
Samsung SSD 980 1TB, S/N:S649NL0T12345M, FW:2B4QFXO7, 1.00 TB

For details see host's SYSLOG.

You can also use the smartctl utility for further investigation.
The original message about this issue was sent at Sat Sep 24 03:15:52 2022 CEST Another message will be sent in 24 hours if the problem persists.

fabian · Sep 29, 2022

diese email bezieht sich jetzt aber auf samstag, nicht dienstag als du nachgeschaut hast.. wirkt auf mich so als wuerde
- die NVME hin und wieder heisslaufen (oder kurz falsche werte liefern)
- smartd danach den state nicht wieder resetten

nachdem beim ersten mal das state files loeschen scheinbar temporaer geholfen hat:
- nach jeder solchen emails state files loeschen und smartd neustarten
- oder problematische nvme(s) vom monitoring ausnehmen

unabhaengig davon waere ein bug report upstream vielleicht hilfreich!

Fischje · Sep 30, 2022

Also das State Files löschen bewirkt nicht den gewünschten effekt. Heute Nacht im Idle des Servers wieder einmalig die Meldung. Leider gibt das Syslog eben keine Auskunft, was da genau passiert sein soll. Und smart sieht super aus, ohne error.

Code:

Sep 30 02:21:24 pve smartd[205708]: Device: /dev/nvme0, Critical Warning (0x02): Temperature                                                                                                                      
Sep 30 02:21:24 pve smartd[205708]: Sending warning via /usr/share/smartmontools/smartd-runner to root ...                                                                                                        
Sep 30 02:21:24 pve smartd[205708]: Warning via /usr/share/smartmontools/smartd-runner to root: successful

Mir bleibt wohl nichts übrig als die SSD ausschließen.

Dunuin · Oct 1, 2022

Du hast das gelesen? Samsung 980 (also wie deine) zeigen plötzlich hohe und falsche Temperatur-Spikes mit dem 5.15 kernel:
https://forum.proxmox.com/threads/smart-error-health-detected-on-host.109580/#post-475308

Kann also durchaus sein, dass da deine SSD gelegendlich mal für eine Sekunde von 30 auf 85 Grad oder so springt, dann SMART triggert, du dann aber nichts siehst, weil es danach gleich wieder auf 30 fällt.

Und ein Workaround gibts wohl auch:
https://us.community.samsung.com/t5...-84-C-183-F/m-p/2290158/highlight/true#M11015

Fischje · Oct 5, 2022

Ja das hatte ich gelesen, aber der Workaround funktioniert bei mir nicht, da ich nicht über grub boote. Ich muss mich mit diesem EFI Thema mal mehr beschäftigen...

EDIT 10.10.
Jetzt ist die Mail mit dem Error seit dem 30.09. nicht mehr aufgetaucht. Sehr seltsam.

Tägliche Smart Error Mail obwohl Error nicht mehr besteht.

Fischje

Renowned Member

fireon

Distinguished Member

Fischje

Renowned Member

fabian

Proxmox Staff Member

Fischje

Renowned Member

fabian

Proxmox Staff Member

fireon

Distinguished Member

Fischje

Renowned Member

fabian

Proxmox Staff Member

Fischje

Renowned Member

fabian

Proxmox Staff Member

Fischje

Renowned Member

fabian

Proxmox Staff Member

Fischje

Renowned Member

fabian

Proxmox Staff Member

Fischje

Renowned Member

Dunuin

Distinguished Member

Fischje

Renowned Member

We value your privacy