Tägliche Smart Error Mail obwohl Error nicht mehr besteht.

Fischje

Renowned Member
Sep 25, 2014
64
1
73
Mönchengladbach/GER
Hallo,

ich bekomme täglich eine Mail eines Smart Error (Temperatur) meiner NVMEs. Das Problem bestand beim Zusammenbau des Servers, als die Kühlung noch nicht richtig installiert war. Natürlich sind die Nvmes mittlerweile gekühlt. Smart zeigt mir auch ständig eine Temperatur von 38-40 Grad an, was vollkommen in Ordnung für mich ist. Folgende E-Mail erhalte ich aber alle 24 Stunden:
Code:
This message was generated by the smartd daemon running on:

   host name:  pve
   DNS domain: xxxx.de

The following warning/error was logged by the smartd daemon:

Device: /dev/nvme0, Critical Warning (0x02): Temperature

Device info:
Samsung SSD 980 1TB, S/N:S649NL0T12345H, FW:2B4QFXO7, 1.00 TB

For details see host's SYSLOG.

You can also use the smartctl utility for further investigation.
The original message about this issue was sent at Tue Sep  6 12:25:29 2022 CEST Another message will be sent in 24 hours if the problem persists.

Wie man sehen kann ist der eigentlich Error vom 6. September. Kann ich den irgendwie quitieren oder sowas?

Reboots brachten nichts.
 
Kenne die Meldungen nur von HDD's, die gehen dann auch wieder weg wenns passt. NVME's nutzen das wohl ein wenig anders. Steuern lässt sich das mit dem Befehl:
NGINX:
nvme
Event. wirst du damit fündig. Da gibt es sehr viele Optionen und Möglichkeiten. Auch Fehlerlogs.
 
Das hilft mir leider überhaupt nicht weiter. Sowohl smartctl als auch nvmectl sagen mir, dass die SSD 40 °C hat.

Code:
root@pve:~# nvme smart-log /dev/nvme1n1                                                                                                                                                                          
Smart Log for NVME device:nvme1n1 namespace-id:ffffffff                                                                                                                                                          
critical_warning                        : 0                                                                                                                                                                      
temperature                             : 40 C                                                                                                                                                                    
available_spare                         : 100%                                                                                                                                                                    
available_spare_threshold               : 10%                                                                                                                                                                    
percentage_used                         : 0%                                                                                                                                                                      
endurance group critical warning summary: 0                                                                                                                                                                      
data_units_read                         : 607,575                                                                                                                                                                
data_units_written                      : 3,565,469                                                                                                                                                              
host_read_commands                      : 26,005,770                                                                                                                                                              
host_write_commands                     : 41,761,676                                                                                                                                                              
controller_busy_time                    : 58                                                                                                                                                                      
power_cycles                            : 41                                                                                                                                                                      
power_on_hours                          : 48                                                                                                                                                                      
unsafe_shutdowns                        : 19                                                                                                                                                                      
media_errors                            : 0                                                                                                                                                                      
num_err_log_entries                     : 0                                                                                                                                                                      
Warning Temperature Time                : 7                                                                                                                                                                      
Critical Composite Temperature Time     : 0                                                                                                                                                                      
Temperature Sensor 1           : 40 C                                                                                                                                                                            
Temperature Sensor 2           : 43 C                                                                                                                                                                            
Thermal Management T1 Trans Count       : 0                                                                                                                                                                      
Thermal Management T2 Trans Count       : 2640                                                                                                                                                                    
Thermal Management T1 Total Time        : 0                                                                                                                                                                      
Thermal Management T2 Total Time        : 417

Das message-log sagt dazu:

Code:
Sep 21 10:38:23 pve smartd[3767]: Device: /dev/nvme1, Critical Warning (0x02): Temperature                                                                                                                         
Sep 21 10:38:23 pve smartd[3767]: Sending warning via /usr/share/smartmontools/smartd-runner to root ...                                                                                                           
Sep 21 10:38:23 pve smartd[3767]: Warning via /usr/share/smartmontools/smartd-runner to root: successful
 
Last edited:
was sagt denn smartctl --all /dev/nvme1
 
Code:
root@pve:~# smartctl --all /dev/nvme1

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.53-1-pve] (local build)

Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org



=== START OF INFORMATION SECTION ===

Model Number:                       Samsung SSD 980 1TB

Serial Number:                      S649NL0TxxxxxM

Firmware Version:                   2B4QFXO7

PCI Vendor/Subsystem ID:            0x144d

IEEE OUI Identifier:                0x002538

Total NVM Capacity:                 1,000,204,886,016 [1.00 TB]

Unallocated NVM Capacity:           0

Controller ID:                      5

NVMe Version:                       1.4

Number of Namespaces:               1

Namespace 1 Size/Capacity:          1,000,204,886,016 [1.00 TB]

Namespace 1 Utilization:            620,286,279,680 [620 GB]

Namespace 1 Formatted LBA Size:     512

Namespace 1 IEEE EUI-64:            002538 d721a32737

Local Time is:                      Wed Sep 21 13:40:37 2022 CEST

Firmware Updates (0x16):            3 Slots, no Reset required

Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test

Optional NVM Commands (0x0055):     Comp DS_Mngmt Sav/Sel_Feat Timestmp

Log Page Attributes (0x0f):         S/H_per_NS Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg

Maximum Data Transfer Size:         512 Pages

Warning  Comp. Temp. Threshold:     82 Celsius

Critical Comp. Temp. Threshold:     85 Celsius

Namespace 1 Features (0x10):        NP_Fields



Supported Power States

St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat

0 +     5.24W       -        -    0  0  0  0        0       0

1 +     4.49W       -        -    1  1  1  1        0       0

2 +     2.19W       -        -    2  2  2  2        0     500

3 -   0.0500W       -        -    3  3  3  3      210    1200

4 -   0.0050W       -        -    4  4  4  4     1000    9000



Supported LBA Sizes (NSID 0x1)

Id Fmt  Data  Metadt  Rel_Perf

0 +     512       0         0



=== START OF SMART DATA SECTION ===

SMART overall-health self-assessment test result: PASSED



SMART/Health Information (NVMe Log 0x02)

Critical Warning:                   0x00

Temperature:                        39 Celsius

Available Spare:                    100%

Available Spare Threshold:          10%

Percentage Used:                    0%

Data Units Read:                    607,604 [311 GB]

Data Units Written:                 3,578,979 [1.83 TB]

Host Read Commands:                 26,006,614

Host Write Commands:                42,038,992

Controller Busy Time:               58

Power Cycles:                       41

Power On Hours:                     48

Unsafe Shutdowns:                   19

Media and Data Integrity Errors:    0

Error Information Log Entries:      0

Warning  Comp. Temperature Time:    7

Critical Comp. Temperature Time:    0

Temperature Sensor 1:               39 Celsius

Temperature Sensor 2:               37 Celsius

Thermal Temp. 2 Transition Count:   2654

Thermal Temp. 2 Total Time:         419



Error Information (NVMe Log 0x01, 16 of 64 entries)

No Errors Logged



root@pve:~# smartctl --all /dev/nvme0

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.53-1-pve] (local build)

Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org



=== START OF INFORMATION SECTION ===

Model Number:                       Samsung SSD 980 1TB

Serial Number:                      S649NL0TxxxxxH

Firmware Version:                   2B4QFXO7

PCI Vendor/Subsystem ID:            0x144d

IEEE OUI Identifier:                0x002538

Total NVM Capacity:                 1,000,204,886,016 [1.00 TB]

Unallocated NVM Capacity:           0

Controller ID:                      5

NVMe Version:                       1.4

Number of Namespaces:               1

Namespace 1 Size/Capacity:          1,000,204,886,016 [1.00 TB]

Namespace 1 Utilization:            620,287,963,136 [620 GB]

Namespace 1 Formatted LBA Size:     512

Namespace 1 IEEE EUI-64:            002538 d721a32736

Local Time is:                      Wed Sep 21 13:41:02 2022 CEST

Firmware Updates (0x16):            3 Slots, no Reset required

Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test

Optional NVM Commands (0x0055):     Comp DS_Mngmt Sav/Sel_Feat Timestmp

Log Page Attributes (0x0f):         S/H_per_NS Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg

Maximum Data Transfer Size:         512 Pages

Warning  Comp. Temp. Threshold:     82 Celsius

Critical Comp. Temp. Threshold:     85 Celsius

Namespace 1 Features (0x10):        NP_Fields



Supported Power States

St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat

0 +     5.24W       -        -    0  0  0  0        0       0

1 +     4.49W       -        -    1  1  1  1        0       0

2 +     2.19W       -        -    2  2  2  2        0     500

3 -   0.0500W       -        -    3  3  3  3      210    1200

4 -   0.0050W       -        -    4  4  4  4     1000    9000



Supported LBA Sizes (NSID 0x1)

Id Fmt  Data  Metadt  Rel_Perf

0 +     512       0         0



=== START OF SMART DATA SECTION ===

SMART overall-health self-assessment test result: PASSED



SMART/Health Information (NVMe Log 0x02)

Critical Warning:                   0x00

Temperature:                        39 Celsius

Available Spare:                    100%

Available Spare Threshold:          10%

Percentage Used:                    0%

Data Units Read:                    345,405 [176 GB]

Data Units Written:                 2,199,771 [1.12 TB]

Host Read Commands:                 16,299,828

Host Write Commands:                45,184,305

Controller Busy Time:               41

Power Cycles:                       27

Power On Hours:                     34

Unsafe Shutdowns:                   12

Media and Data Integrity Errors:    0

Error Information Log Entries:      0

Warning  Comp. Temperature Time:    8

Critical Comp. Temperature Time:    0

Temperature Sensor 1:               39 Celsius

Temperature Sensor 2:               39 Celsius

Thermal Temp. 2 Transition Count:   2668

Thermal Temp. 2 Total Time:         451



Error Information (NVMe Log 0x01, 16 of 64 entries)

No Errors Logged

das hier
 
da hilft dann vielleicht nur mehr smartd neustarten und/oder state file (/var/lib/smartmontools/...) loeschen..
 
Es bleibt bei unregelmäßigen smart errors. Die Temperatur ist aber wirklich nie höher als diese ungefähren 34 Grad.

Habe mal an diesen thread gedacht:
https://forum.proxmox.com/threads/smart-error-health-detected-on-host.109580/

Rich (BB code):
Setting the following to gurb eliminated the temperature spikes in all three clusters.
Code:
nvme_core.default_ps_max_latency_us=0

Wo gebe ich meinem Bootloader das denn mit? Bin mir nicht mal sicher ob grub noch genutzt wird.
Code:
efibootmgr -v
BootCurrent: 0003
Timeout: 1 seconds
BootOrder: 0003,0004,0002
Boot0002* UEFI: Built-in EFI Shell      VenMedia(5023b95c-db26-429b-a648-bd47664c8012)..BO
Boot0003* UEFI OS       HD(2,GPT,46aa539e-5aeb-4014-9856-d08c6801fd91,0x800,0x100000)/File(\EFI\BOOT\BOOTX64.EFI)..BO
Boot0004* UEFI OS       HD(2,GPT,efd21634-f271-4653-be45-220aef8090ad,0x800,0x100000)/File(\EFI\BOOT\BOOTX64.EFI)..BO
 
Das hinzufügen hat leider nicht geholfen. Der Error taucht weiter auf. Nicht mehr täglich und auch nicht zur gleichen Zeit, aber sporadisch.

Z.b. gerade eben: E-Mail um 20:30, direkt im smart nachgeguckt 34 Grad.

1. Wie finde ich heraus wie die Temperatur denn nun wirklich zur Error Logzeit war?
2. Wenn die Temperatur dann wirklich nicht zu hoch war, was kann das sein, dass den Fehler produziert?
 
smartd sollte die werte eigentlich loggen (im journal), z.b. so:

Code:
$ journalctl -b -u smartmontools
...
Sep 20 11:12:46 nora smartd[9292]: Device: /dev/sdc [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 68 to 69

(output wird vermutlich etwas anders ausschauen weil das nicht von einer NVME disk ist ;))
 
Ich komm irgendwie nicht weiter:

Es gibt keine smart errors, kann die Nachricht sich irgendwie verschluckt haben und der "failed" status wurde nicht richtig zurückgesetzt oder sowas?

Beide nvmes:
Error Information (NVMe Log 0x01, 16 of 64 entries)
No Errors Logged
 
steht denn nun in der mail ein neueres datum oder immer noch das urspruengliche?
 
Ein neueres, aber immer noch nicht aktuell:
Code:
This message was generated by the smartd daemon running on:

   host name:  pve
   DNS domain: fischje.de

The following warning/error was logged by the smartd daemon:

Device: /dev/nvme1, Critical Warning (0x02): Temperature

Device info:
Samsung SSD 980 1TB, S/N:S649NL0T12345M, FW:2B4QFXO7, 1.00 TB

For details see host's SYSLOG.

You can also use the smartctl utility for further investigation.
The original message about this issue was sent at Sat Sep 24 03:15:52 2022 CEST Another message will be sent in 24 hours if the problem persists.
 
diese email bezieht sich jetzt aber auf samstag, nicht dienstag als du nachgeschaut hast.. wirkt auf mich so als wuerde
- die NVME hin und wieder heisslaufen (oder kurz falsche werte liefern)
- smartd danach den state nicht wieder resetten

nachdem beim ersten mal das state files loeschen scheinbar temporaer geholfen hat:
- nach jeder solchen emails state files loeschen und smartd neustarten
- oder problematische nvme(s) vom monitoring ausnehmen

unabhaengig davon waere ein bug report upstream vielleicht hilfreich!
 
  • Like
Reactions: Stoiko Ivanov
Also das State Files löschen bewirkt nicht den gewünschten effekt. Heute Nacht im Idle des Servers wieder einmalig die Meldung. Leider gibt das Syslog eben keine Auskunft, was da genau passiert sein soll. Und smart sieht super aus, ohne error.
Code:
Sep 30 02:21:24 pve smartd[205708]: Device: /dev/nvme0, Critical Warning (0x02): Temperature                                                                                                                      
Sep 30 02:21:24 pve smartd[205708]: Sending warning via /usr/share/smartmontools/smartd-runner to root ...                                                                                                        
Sep 30 02:21:24 pve smartd[205708]: Warning via /usr/share/smartmontools/smartd-runner to root: successful

Mir bleibt wohl nichts übrig als die SSD ausschließen.
 
Du hast das gelesen? Samsung 980 (also wie deine) zeigen plötzlich hohe und falsche Temperatur-Spikes mit dem 5.15 kernel:
https://forum.proxmox.com/threads/smart-error-health-detected-on-host.109580/#post-475308

Kann also durchaus sein, dass da deine SSD gelegendlich mal für eine Sekunde von 30 auf 85 Grad oder so springt, dann SMART triggert, du dann aber nichts siehst, weil es danach gleich wieder auf 30 fällt.

Und ein Workaround gibts wohl auch:
https://us.community.samsung.com/t5...-84-C-183-F/m-p/2290158/highlight/true#M11015
 
Last edited:
  • Like
Reactions: fabian
Ja das hatte ich gelesen, aber der Workaround funktioniert bei mir nicht, da ich nicht über grub boote. Ich muss mich mit diesem EFI Thema mal mehr beschäftigen...

EDIT 10.10.
Jetzt ist die Mail mit dem Error seit dem 30.09. nicht mehr aufgetaucht. Sehr seltsam.
 
Last edited:

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!