Sind meine Platten kaputt? Oder was ist hier los??

FoxXxHater

New Member
Feb 9, 2022
18
0
1
Germany
foxco-network.de
Hallo zusammen,

ich habe mal eine Frage. Ich habe mir einen neuen Serverschrank gekauft und meinen Server in diesen eingebaut. Seit dem dieser jedoch dort steht geht der Server jedoch nach einiger (ungleicher) Zeit offline. Er wird nicht mehr in der FritzBox angezeigt oder in einem LAN Scan. Es hilft immer nur ein Hard Reboot. Wenn dieser dann wieder hochgefahren ist habe ich mal in das Syslog geschaut und das (Bild unten gefunden) kann mir jemand erläutern was wir hier sehen?!

Ich interpretiere das so das z.B. die SATA Stecker einen Wackelkontakt. Also das eine Festplatte immer On und Offline geht und das System freezt.

Das ganze Log ist damit voll und wiederholt sich nach einigen Sekunden wieder.
Ich habe auch mal in das Log von vor ein paar Tagen geschaut, da steht so etwas nicht drin.

Die SMART anzeige sagt auch das alle PASSED sind.

Kann mir da jemand helfen?
 

Attachments

  • Bildschirmfoto 2022-11-19 um 18.53.14.png
    Bildschirmfoto 2022-11-19 um 18.53.14.png
    304.9 KB · Views: 27
  • Bildschirmfoto 2022-11-19 um 18.48.08.png
    Bildschirmfoto 2022-11-19 um 18.48.08.png
    404.9 KB · Views: 27
  • Bildschirmfoto 2022-11-19 um 18.50.38.png
    Bildschirmfoto 2022-11-19 um 18.50.38.png
    182 KB · Views: 25
Wie man oben bereits auch sieht ist die IO Auslastung ziemlich hoch.
Warum? Ich meine hier in dem Bild habe ich einen Wireguard Container gestartet und die Auslastung ging auf 31% hoch
 

Attachments

  • 1668888935354.png
    1668888935354.png
    30.6 KB · Views: 5
IO delay ist die Zeit, welche die CPU verschwendet, weil sie auf Daten von den Disks warten muss. Wird wohl an den Diskproblemen liegen.
 
Last edited:
Naja, wechselnde Werte in den Logs von "Hardware_ECC_Recovered" und "Offline Uncorrectible Sectors" klingt nicht sehr gesund.
Außerdem solltest du mal gucken, was "smartctl -a" dir als echte Temperaturen für die Disks ausgibt. Zu heiße HDDs/SSDs können auch für Fehler sorgen und du sagtest ja du hast die Server in einen neuen Serverschrank eingebaut. Vielleicht staut sich da jetzt einfach die Hitze.
Ansonsten auch mal die Backplane überprüfen und ggf. den HBA überprüfen, wenn da plötzlich alle Disks gleichzeitig Fehler haben.
 
Ich interpretiere das so das z.B. die SATA Stecker einen Wackelkontakt.

Hast du denn den korrekten Sitz aller Stecker entsprechend mal überprüft? Backplane? Controller?

Ja und wie finde ich heraus welche Disk das Problem ist?

In den gezeigten Logs taucht mindestens die: /dev/sdd -> ST3300831AS mit Fehlern auf.
Würde aber über alle mal einen langen SMART-Test: smartctl -t long /dev/sdX (X = a bis d) laufen lassen.
 
Okay. Danke für die Antworten.

Der Server ist jetzt seit heute früh um 3 wieder offline gegangen. (Kein Ping)

Ich habe ihn also mal wieder hart aus gemacht und die letzte hinzugefügte Platte abgesteckt. (sdd) Nur fährt er jetzt gar nicht mehr hoch anscheinend. XD

Ich denke ich baue die SSD (mit System drauf) mal aus und hänge sie an windows mit Crystaldisk und schaue mal.

Hast du denn den korrekten Sitz aller Stecker entsprechend mal überprüft? Backplane? Controller?

Die Stecker sitzen alle.
mal gucken, was "smartctl -a" dir als echte Temperaturen für die Disks ausgibt.
einen langen SMART-Test: smartctl -t long /dev/sdX (X = a bis d) laufen lassen.

Würde ich ja gerne machen, wenn er wieder online kommt XD
 
So schlimm sieht das ganze mit der ssd ja nicht aus, Nur ist die definitiv nicht 75° heiß. XD
Du musst auch zwischen Rohwert und Wert unterscheiden. Rohwert gibt die Temperatur in Grad an.

Und das PVE nicht bootet, wenn du eine Disk entfernst, ist ja nicht verwunderlich. Da müsstest du schon die fstab anpassen und entsprechende Zeile für die entfernte Disk auskommentieren.
Sowas könnte man z.B. über ein Live-Linux vom USB-Stick machen oder über die PVE ISO im Rescue Mode.
 
Last edited:
Irgendwie ist das aber immer noch nicht ganz richtig.
Ich habe einfach mal das SATA Kabel der SSD getauscht und eventuell auch die anderen Platten an einen anderen SATA Port gesteckt.

Auch gerne im Anhang das ganze Log nach dem Hochfahren bis jetzt
 

Attachments

  • log.txt
    172.4 KB · Views: 3
  • 1668956725385.png
    1668956725385.png
    72 KB · Views: 3
Ich meine bei Windows geht es ja auch wenn ich eine Platte entferne
Linux ist kein Windows. Wenn du da Plate XYZ in der eingetragen fstab hast und Linux die beim Boot nicht finden kann, dann wird halt gestoppt und darauf gewartet, dass du die Platten wieder hinzufügst oder entsprechende Einträge aus der fstab entfernst.
 
Linux ist kein Windows. Wenn du da Plate XYZ in der eingetragen fstab hast und Linux die beim Boot nicht finden kann, dann wird halt gestoppt und darauf gewartet, dass du die Platten wieder hinzufügst oder entsprechende Einträge aus der fstab entfernst.

Aaha, okay

Ergebnisse anschauen kannst du (später) mit: smartctl -a /dev/sdX oder: smartctl -l selftest /dev/sdX [1]

Habe mich auch mal um Google bemüht. Danke.

1668965265916.png
Der Server läuft jetzt die ganze Zeit im Idle und macht max. die smartclt Sache... Die IO Auslastung scheint sich etwas gebessert zu haben.

Edit: Ich nehme es zurück... ich habe meinen Wireguard Container wieder gestartet und die Auslastung ging auf 37% hoch...
1668966165017.png
____________________________________________

Ich denke ich habe auch eventuell die Ursache gefunden warum eine der Festplatten eventuell kaputt ist... ich habe in meinem Schrank zur Schall Dämmung Bitum Platten geklebt. Eine ist aber runtergekommen. Ich denke der Aufprall hat die Platte- (n) beschädigt.
 
Last edited:
Hier auch mal die (vorzeitigen) Ergebnisse des smartctl
Ich denke wir sind uns alle einig das sdb nicht besonders gut aussieht... Aber die anderen sehen auch nicht gerade Weltklasse aus. Außer a
 

Attachments

  • smartctl_sda.txt
    5.5 KB · Views: 5
  • smartctl_sdb.txt
    12.6 KB · Views: 3
  • smartctl_sdc.txt
    9.5 KB · Views: 4
  • smartctl_sdd.txt
    5.6 KB · Views: 3

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!