4Node Cluster, einer bootet unregelmäßig neu

swoop

Active Member
Mar 25, 2021
93
5
28
Hallo Leute,

ich habe ein 4 Node Cluster mit Intel NUCs i7 der 10 Generation am Laufen. Es laufen 16VMs und zwischen 1 und 5 LXCs. Natürlich verteilt auf die 4 Nodes. :)
Seit ca. 2 Wochen bootet einer dieser Knoten (Node2) zwischendurch mal unmotiviert neu. Kann auch mehrere Male pro Tag vorkommen.
Ich finde dazu keine Ursache. Ich denke aber es könnte ein thermisches Problem sein.

Gibt’s ein Tool oder so mit dem ich das eingrenzen kann? Im Syslog finde ich nichts Außergewöhnliches. Keine Fehler oder Warnungen die direkt (bis etwa zwei Minuten) vor dem Neustart auftreten.

Ach ja, da fällt mir noch ein. Alle paar Tage der zuletzt hinzugefügte Knoten (Node4), das Problem, dass er sich nicht aut die anderen Knoten verbinden kann weil die Zertifikate usw. nicht stimmen oder so. Dann führe ich pvecm updatecerts aus, dann ist alles wieder Gut.
Ich denke zwar nicht, dass das was mit dem oberen Problem zu tun hat, da es unterschiedliche Nodes sind.
 
ich lass bei meinem Server die CPU Temp per Influx und Grafana aufzeichnen vielleicht wäre das ne Option um zu sehen ob er besonders warm wird
 
Hallo,

leider scheint die Wärem nicht das Problem zu sein.

Kann mir jemand sagen, wie ich noch herausfinden könnte, warum der Node neustartet?
Ich sehe in der Übersicht des Nodes nur, dass die IO-Verzögerung bei etwa 20-25% und die SWAP-Auslastung bei zwieschen 50 und 100% liegt. CPU-Auslastung ist bei etwa 10-15% im Normalbetrieb. Kurz vor den Neustarts ist die IO-Verzögerung bei normalwerten von 2-5%. Danach steigt sie wieder.
Aber warum swappt er wenn noch mehr als 50% RAM frei ist?
Die anderen Nodes haben so zwischen 2-7% IO-Verzögerung.

ich hoffe ihr könnt mir einen Tipp geben.

Danke
 
Last edited:
Hallo nochmal,

ich hab ein paar neue Infos.
Und zwar habe ich herausgefunden, dass ein Docker-Container in einer LXC den hohen IO-Wait verursacht hat. Es war Elasticsearch. Der IOWait ist jetzt wider im Normalbereich, zumindest die letzten 15 Minuten.
Jetzt lasse ich das ganze System mal laufen und hoffe, dass die Neustarts wieder weg sind. Bevor er heute wieder sechs mal neugestartet hat, war 2 Tage Ruhe.
Aber trotzdem, warum hat er neugestartet? Wie finde ich das heraus?

Danke für eure Hilfe.