Cluster mit ? und grau aber CPU RAM Anzeige in Übersicht funzt jedoch kein Graph

informant

Renowned Member
Jan 31, 2012
821
11
83
Hallo zusammen, nach einer Zeit kommt es bei mir immer wieder vor, dass nur der Cluster plötzlich ? bekommt und alles grau ist, er zeigt keinerlei Graphen mehr an. Aber CPU, RAM Live-Balken etc. in der Übersicht laufen und sind aktuell. An was kann das liegen, ich muss hier immer entweder den Cluster neu starten oder den Services (pvedaemon). Wie kann ich es beheben, so dass er dauerhaft online dargestellt wird? Alle Nodes sind grün und auch die Storages sind grün. Es ist immer nur der Cluster. Hat jmd. eine Idee?
 
Last edited:
Cluster-Kommunikation gestört. Möglicherweise läuft die Uhrzeit der einzelnen Knoten hier zu weit auseinander.
 
Nochmal es ist der Clsuter Server, dh wenn ich mich dort einwähle, sollte der ja nicht grau sein. Der Fehler kam erst mit 7to8. Datum zeit auf die Sekunde aktuell da Timeserverabgleich. Storages etc. alles ist erreichbar auch auf dem grauen Cluster. Lediglich ? kommen und grau und die Graphen sind weg. Alle Werte sind aktuell und Zugriffe funktionieren ebenfalls normal. Alle Nodes sind grün. Ich habe auch 2 Netze, einmal öffentlich einmal int. getrennt. Beide laufen sauber und ohne Verluste <= 0,5ms.
 
Nochmal es ist der Clsuter Server, dh wenn ich mich dort einwähle, sollte der ja nicht grau sein. Der Fehler kam erst mit 7to8. Datum zeit auf die Sekunde aktuell da Timeserverabgleich. Storages etc. alles ist erreichbar auch auf dem grauen Cluster. Lediglich ? kommen und grau und die Graphen sind weg. Alle Werte sind aktuell und Zugriffe funktionieren ebenfalls normal. Alle Nodes sind grün. Ich habe auch 2 Netze, einmal öffentlich einmal int. getrennt. Beide laufen sauber und ohne Verluste <= 0,5ms.

Was meinst Du mit "Cluster Server". Es gibt nicht den "Cluster Server". Mit einwählen meinst Du sicher einloggen. Bei den Time-Deltas im Cluster sprechen wir von Millisekunden, nicht von Sekunden.

Was meinst Du mit "grauem Cluster". Wieviele Cluster hast Du denn? Weißt Du was ein Cluster ist? Deine Fehlerbeschreibung ergibt für mich leider noch keinen Sinn.
 
  • Like
Reactions: Johannes S
Cluster = Hauptserver. Meines wissen nach ist ms = MIllisekunden... Ja den Server wo man sich einwählt und welcher alles Nodes verwaltet. Es gibt einen Cluster mit vielen Nodes darauf, wo der Fehler auftritt. Es können nicht mehrere Hauptserver (Cluster) in einem Login existieren, sondern nur einer. Alles andere sind Nodes.
 
Cluster = Hauptserver. Meines wissen nach ist ms = MIllisekunden... Ja den Server wo man sich einwählt und welcher alles Nodes verwaltet. Es gibt einen Cluster mit vielen Nodes darauf, wo der Fehler auftritt. Es können nicht mehrere Hauptserver (Cluster) in einem Login existieren, sondern nur einer. Alles andere sind Nodes.

Du verwechselt hier viele Dinge und nutzt Begrifflichkeiten, welche überhaupt keinen Sinn ergeben, aber ich löse das gerne mal für Dich auf.
  • Ein Cluster ist kein Hauptserver, ein Cluster ist der Zusammenschluss aus mehreren Rechnern zu einem Rechnerverbund.
  • In einem Cluster gibt es nicht den einen Server welcher alle verwaltet. Ein Cluster nutzt ein sogenanntes Quorum, eine Mehrheitsentscheidung
  • Auf einem Cluster können keine Nodes "drauf sein", ein Cluster besteht aus mehreren (2+n) Nodes. Ein Node ist ein Teil/Rechner eines Clusters
  • In einem Cluster gibt es (nach deiner Definition) nur "Hauptserver", denn jeder Node in einem Cluster hat das gleiche Recht und die gleiche Stimmen-Gewichtung
Wenn jetzt also ein Knoten deines Clusters (Verbund von Rechnern) grau ist, dann stimmt etwas mit der Kommunikation mit den anderen Knoten (Nodes) nicht. Du kannst Dich im Cluster immer auf _jedem_ Knoten "einwählen" (einloggen), da jeder Node den gleichen Zustand des Clusters kennt (oder kennen sollte).

Um das Problem zu debuggen brauchen wir erst einmal alle Logs aus dem Journal (journalctl) um zu schauen, was da los ist. Gerne nur für den corosync Prozess (journalctl -u corosync --since="2 days ago")
 
Last edited:
  • Like
Reactions: Johannes S
corosync hat eben keinen Fehler, daher hab ich den Eintrag hier verfasst. Sobald der Fehler wieder auftritt, werde ich gern corosync Log posten.
 
Last edited: