Proxmox Server friert sporadisch ein - Hilfe benötigt

Ich habe die BIOS-Defaults geladen, Deep Sleep deaktiviert, eingestellt, dass der Rechner sich einschaltet, sobald er Strom bekommt, und "Suspend to RAM" deaktiviert.

Die CPU stand schon auf Normal Mode, also den Performance Mode hatte ich bereits bei einem früheren Test deaktiviert.

Für den RAM habe ich keine Tuning-Einstellungen im BIOS und kann hier keine Einstellungen machen.

Nach über einer Stunde Stresstest und maximaler CPU-Auslastung liegt die CPU-Temperatur konstant bei 94 Grad mit geschlossenem Gehäuse. Idle ~58Grad.

Ich habe es auch mit offenem Gehäuse getestet, jedoch macht das keinen Unterschied, da die CPU auf der anderen Seite ist. Auch mit einem zusätzlichen Lüfter, der die Platine anpustet, gab es keinen Temperaturunterschied.

Die Crucial SATA SSD ist kühler als meine Hand. Ich habe sie angefasst und fand die Festplatte kühler als die Umgebung. Daher zweifle ich die 70 Grad stark an und vermute, dass Linux einfach nur einen falschen Sensor sieht und daher falsche Messwerte bekommt.

Ich habe jetzt Wärmeleitpaste bestellt, die aber sehr wahrscheinlich erst morgen Nachmittag ankommt. Dann werde ich einmal den Kühler abnehmen und neue Paste auftrage, um auch diese Möglichkeit ausschließen zu können.
 
Danke für den Report, die Temperaturwerte sollten von den Smartwerten abstammen, deshalb traue ich diesen Werten.

Bash:
smartctl -a /dev/sda

Siehe Parameter Temperature_Celsius
 
Lass doch die Kiste mal mit einem vom USB Stick gebooteten Linux Live-System laufen (Mint / Debian Oder Ubuntu). Und teste mal die Smartwerte.
Wenn es dann auch einfriert würde ich auf die Hardware CPU / Board / BIOS tippen.
Welche Hardware hatte den das Alt-System?
 
Hallo zusammen,
ich möchte euch an dieser Stelle ein umfassendes Update zu meinem aktuellen Problem geben:

Status des Systems:
Der Computer wurde mit einem Live-System gestartet und einem Stresstest unterzogen. Der Rechner lief problemlos 28 Stunden lang, bis ich ihn bewusst heruntergefahren habe.

BIOS-Einstellungen:
- IOMMU = disabled

Grub-Einstellungen:
- ACPI = off

Festplattenwechsel:
Die Festplatte, die in dmesg immer wieder Temperaturprobleme gemeldet hat, wurde gegen eine andere SSD ausgetauscht. Das System wurde mithilfe von rsync von der alten auf die neue Festplatte übertragen, um auch diesen Punkt auszuschließen.

Kühlung:
Die CPU und der Kühler haben neue Wärmeleitpaste erhalten. Temperatur unverändert unter Volllast 94°C.

Sonstiges:
Ich möchte auch noch einmal daran erinnern, dass ich ein komplett neues System gekauft hatte, das die gleichen Fehler aufwies. Das neue System bestand aus gänzlich anderer Hardware (statt einem Ryzen 4800 war es ein 5700), und auch dieses System hatte dieselben sporadischen Abstürze. Daher halte ich Hardwarefehler für unwahrscheinlich, da ein neues System die gleichen Symptome zeigte.

Altes System (für Proxmox):
Das alte System, auf dem gerade mein Proxmox läuft, ist ein ASROCK Mars (Details) mit einem AMD Ryzen 5 4500U und 64 GB RAM. Auch dieses System wurde mittels rsync installiert und läuft daher mit derselben Grundinstallation.

Ich hoffe, diese Informationen helfen weiter, und ich freue mich auf eure Ratschläge und Ideen!

Vielen Dank im Voraus für eure Unterstützung!
 
  • Like
Reactions: ThoSo
Hast Du mal die Stress-Tools direkt in der Proxmox-Installation (ohne laufende VMs) gemacht? Stuerzt der Rechner dann auch ab?
Wenn Du so keine Abstuerze reproduzieren kannst, wuerde ich mal einen Schritt weiter gehen und ein VM auf EINER Disk laufen lassen. Eventuell die zusaetzliche SSD sogar abhaengen. Am besten mit einem Minimalsystem aus System und einer Datenpartition fuer die VMs. Theoretisch koennte es auch die NVMe sein. Also das ganze noch nur mit der SSD ohne NVMe testen.
Du erwaehnst, dass Du gleiche Probleme bei einem anderem System mit "gaenzlich anderer Hardware" hattest. Hast Du im neuen System dennoch Hardware, die Du uebernommen hast? Oder wurde gar kein Bauteil uebernommen?
 
Hi, die Temperatur ist einfach etwa shoch, aber das muss nicht die Ursache sein.
Wenn du das System geclont hast und die Fehler weiterhin auftreten, hast du mal eine frische Installation getestet?
Ich habe bei meinen Ryzen immer Temperaturen um 45 Grad un bei Vollast geht die CPU bis maximal 60 Grad. Das wärmste Gerät bei mir, ist die 40GBit Netzwerkkarte mit ca. 80Grad, aber bei denen ist das Normal.

Ich habe bei meinen Kunden eine größere 2 Stellige Anzahl von PVE Nodes installiert und da macht kein einziger Zicken, Also am PVE allgemein liegt das nicht.
 
  • Like
Reactions: news
Also ich habe so 8 - 10 Proxmox VE und Proxmox BS am laufen auf PC Hardware mit Intel 4., 10., 11. und 12. Generation und AMD Ryzen 1000,, 2000, 3000 und 5000 er am laufen. Keiner der Rechner zeigt deine Symptome oder hat jemals seinen Dienst verweigert.
Da habe ich jetzt keine Idee. Außer der Temperatur der CPU und der hohen Temp. bei den SSD - das ist in meinen Augen zu hoch für den Flashspeicher.
Die SSD wurde gegen eine 512 GB SSD ausgetauscht, die ich hier noch liegen hatte.
Auf der SSD ist nur das Betriebssystem installiert, alles andere – wie die VM-Images – liegen auf der NVME.

Hast Du mal die Stress-Tools direkt in der Proxmox-Installation (ohne laufende VMs) gemacht? Stuerzt der Rechner dann auch ab?
Wenn Du so keine Abstuerze reproduzieren kannst, wuerde ich mal einen Schritt weiter gehen und ein VM auf EINER Disk laufen lassen. Eventuell die zusaetzliche SSD sogar abhaengen. Am besten mit einem Minimalsystem aus System und einer Datenpartition fuer die VMs. Theoretisch koennte es auch die NVMe sein. Also das ganze noch nur mit der SSD ohne NVMe testen.
Du erwaehnst, dass Du gleiche Probleme bei einem anderem System mit "gaenzlich anderer Hardware" hattest. Hast Du im neuen System dennoch Hardware, die Du uebernommen hast? Oder wurde gar kein Bauteil uebernommen?
Der Stresstest wurde direkt auf dem Proxmox-Host ausgeführt, nicht in einer VM.

Auf die Frage, ob die Hardware übernommen wurde: Leider ja. Die Samsung NVME und die 2 TB SSD wurden übernommen, wobei ich jetzt eine 512 GB SSD angeschlossen habe.

Hi, die Temperatur ist einfach etwa shoch, aber das muss nicht die Ursache sein.
Wenn du das System geclont hast und die Fehler weiterhin auftreten, hast du mal eine frische Installation getestet?
Ich habe bei meinen Ryzen immer Temperaturen um 45 Grad un bei Vollast geht die CPU bis maximal 60 Grad. Das wärmste Gerät bei mir, ist die 40GBit Netzwerkkarte mit ca. 80Grad, aber bei denen ist das Normal.

Ich habe bei meinen Kunden eine größere 2 Stellige Anzahl von PVE Nodes installiert und da macht kein einziger Zicken, Also am PVE allgemein liegt das nicht.
Ich denke, die Temperatur liegt an der Bauform.

Auch auf dem ASROCK Mars habe ich bei 19% CPU-Auslastung eine Temperatur von 78°C. Diese Geräte sind ja auch nicht für dauerhafte CPU-Höchstleistung konzipiert. Aktuell liegt die Temperatur mit ACPI off und dadurch bedingt nur einem CPU-Kern und 100% Auslastung bei 72/73°C.

Mit der Neuinstallation: Ich hatte das System neu installiert, weil ich die Abstürze hatte. Daraufhin habe ich Debian neu installiert, aber die Abstürze sind geblieben. Danach habe ich alles auf den ASROCK Mars umgezogen, und es lief darauf, aber bei maximaler CPU-Auslastung, wenn alle VMs laufen.

Dann habe ich den neuen Rechner geholt und bemerkt, dass auch dieser abstürzt. Klar, ich kann das System jetzt nochmal aufsetzen, aber es war ja gerade erst ein neues System. Das System, das jahrelang lief, bis plötzlich die Abstürze kamen, existiert schon nicht mehr. Außerdem hatte ich von Btrfs auf Ext4 umgestellt.

Meine nächsten Testschritte:
Ich werde das System jetzt einmal mit ACPI off laufen lassen, um zu sehen, ob es zu einem Absturz kommt. Bisher war es die Regel, dass innerhalb von 24 Stunden irgendwann etwas abstürzt oder einfriert.

Danach werde ich versuchen, so viele VMs wie möglich auf die SSD umzuziehen und das System einmal ohne die NVME testen.

Oder gibt es andere Ideen, wie / in welcher Reihenfolge ich weiter vorgehen könnte?
 
Mal den Host mit ein paar laufenden VMs auf der neuen SSD und mit ausgebauter NVMe testen klingt fuer mich nach einem guten Plan.
Am besten gleich mit neu installiertem PVE.
 
So wie du das schreibst, hast du Board und Co. gewechselt. Wie sieht es mit Gehäuse und Netzteil aus?
Auch ein Netzteil was keine Stabilen Spannungen liefert, kann zu Ausfällen führen. Gerade wenn die in die Jahre kommen.
 
Er hat die neue gekaufte Kiste doch komplett getauscht, von daher kann man auch von einem anderen Netzteil ausgehen. (siehe Seite 1).
bei der Zeit und dem Geld was hier schon verbrannt wurde, wäre die Investition in einen kleinen Server (Xeon - bsp. Terra G4/G5) mit ServerSSDs sicherlich die vernünftigste Lösung. Ich habe mir letztes Jahr einen G5 produktiv gekauft und für Testzwecke bei eBay einen alten G3 erstanden. Absolut null Probleme!
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!