4Node Cluster, einer bootet unregelmäßig neu

swoop

Member
Mar 25, 2021
92
5
13
Hallo Leute,

ich habe ein 4 Node Cluster mit Intel NUCs i7 der 10 Generation am Laufen. Es laufen 16VMs und zwischen 1 und 5 LXCs. Natürlich verteilt auf die 4 Nodes. :)
Seit ca. 2 Wochen bootet einer dieser Knoten (Node2) zwischendurch mal unmotiviert neu. Kann auch mehrere Male pro Tag vorkommen.
Ich finde dazu keine Ursache. Ich denke aber es könnte ein thermisches Problem sein.

Gibt’s ein Tool oder so mit dem ich das eingrenzen kann? Im Syslog finde ich nichts Außergewöhnliches. Keine Fehler oder Warnungen die direkt (bis etwa zwei Minuten) vor dem Neustart auftreten.

Ach ja, da fällt mir noch ein. Alle paar Tage der zuletzt hinzugefügte Knoten (Node4), das Problem, dass er sich nicht aut die anderen Knoten verbinden kann weil die Zertifikate usw. nicht stimmen oder so. Dann führe ich pvecm updatecerts aus, dann ist alles wieder Gut.
Ich denke zwar nicht, dass das was mit dem oberen Problem zu tun hat, da es unterschiedliche Nodes sind.
 
ich lass bei meinem Server die CPU Temp per Influx und Grafana aufzeichnen vielleicht wäre das ne Option um zu sehen ob er besonders warm wird
 
Hallo,

leider scheint die Wärem nicht das Problem zu sein.

Kann mir jemand sagen, wie ich noch herausfinden könnte, warum der Node neustartet?
Ich sehe in der Übersicht des Nodes nur, dass die IO-Verzögerung bei etwa 20-25% und die SWAP-Auslastung bei zwieschen 50 und 100% liegt. CPU-Auslastung ist bei etwa 10-15% im Normalbetrieb. Kurz vor den Neustarts ist die IO-Verzögerung bei normalwerten von 2-5%. Danach steigt sie wieder.
Aber warum swappt er wenn noch mehr als 50% RAM frei ist?
Die anderen Nodes haben so zwischen 2-7% IO-Verzögerung.

ich hoffe ihr könnt mir einen Tipp geben.

Danke
 
Last edited:
Hallo nochmal,

ich hab ein paar neue Infos.
Und zwar habe ich herausgefunden, dass ein Docker-Container in einer LXC den hohen IO-Wait verursacht hat. Es war Elasticsearch. Der IOWait ist jetzt wider im Normalbereich, zumindest die letzten 15 Minuten.
Jetzt lasse ich das ganze System mal laufen und hoffe, dass die Neustarts wieder weg sind. Bevor er heute wieder sechs mal neugestartet hat, war 2 Tage Ruhe.
Aber trotzdem, warum hat er neugestartet? Wie finde ich das heraus?

Danke für eure Hilfe.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!