Haben Sie mal 3 Minuten? Fehlende Daten in den Graphen

devaux · Jun 9, 2024

Hallo,
Ich mache momentan diverse Tests mit Proxmox. Heute ist mir ein komisches Phaenomen aufgefallen. Ich habe 2 Cluster mit je zwei Nodes im Testbetrieb. 3 davon hatten zur gleichen Uhrzeit einen Unterbruch in allen Graphen - einer nicht.
Diese sind alle im gleichen Netz und identisch am gleichen Switch angeschlossen. Hat jemand eine Idee wieso dies passiert ist oder wo ich am besten nachgucke, ob es sich hier um ein Problem oder einen "Glitch" handelt?

news · Jun 9, 2024

Das nennt sich logfile(s) und die liegen im /var/log/.. Verzeichnis.
P.S. Graphen des Proxmox VE interessieren mich nicht und ich schaue nicht darauf.
Das ist ein Server, den ich im eine SSH Konsolensitzung administriere.

devaux · Jun 9, 2024

Wenn ich was in den Logfiles oder im systemd-Log sehen/finden wuerde, wuerde ich hier nicht fragen.
Graphen empfinde ich noch relativ wichtig um Engpaesse oder irgendwelche Unstimmigkeiten praeventiv abfedern zu koennen. Das koennen natuerlich alle handhaben wie sie moechten.

UdoB · Jun 9, 2024

devaux said:
Ich habe 2 Cluster mit je zwei Nodes

Dass das nicht gut ist, ist vermutlich klar? Naheliegend wäre jeweils ein Container im anderen Cluster als "Quorum-Device"

"Kein Quorum" kann verschiedene Ursachen (Netzlast?) und verschiedene Auswirkungen haben. Zunächst wird "/etc/pve" read-only. Ob das Einfluss auf die Statistik-Erfassung hat, kann ich nicht sagen. Aber gerade im Testbetrieb spart man manchmal "Dinge" ein, weil man meint, dass man sie nicht braucht - mit "komischen" Effekten...

devaux said:
einen Unterbruch in allen Graphen

Ich hatte das auch schon. Einmal lag es an einem verstorbenen "pve-statd". Ein anderes mal bilde ich mir ein (nicht wirklich verifiziert), dass es schlicht an der zu hohen Systemlast lag. Genauer: hohe "iowait"-Werte aufgrund langsamer Massenspeicher.

Den genauen Grund konnte ich in meinem Fall nicht klären, das Problem verschwand "von selbst"...

Viele Grüße

devaux · Jun 9, 2024

UdoB said:
Dass das nicht gut ist, ist vermutlich klar? Naheliegend wäre jeweils ein Container im anderen Cluster als "Quorum-Device"

"Kein Quorum" kann verschiedene Ursachen (Netzlast?) und verschiedene Auswirkungen haben. Zunächst wird "/etc/pve" read-only. Ob das Einfluss auf die Statistik-Erfassung hat, kann ich nicht sagen. Aber gerade im Testbetrieb spart man manchmal "Dinge" ein, weil man meint, dass man sie nicht braucht - mit "komischen" Effekten...

Ich hatte das auch schon. Einmal lag es an einem verstorbenen "pve-statd". Ein anderes mal bilde ich mir ein (nicht wirklich verifiziert), dass es schlicht an der zu hohen Systemlast lag. Genauer: hohe "iowait"-Werte aufgrund langsamer Massenspeicher.

Den genauen Grund konnte ich in meinem Fall nicht klären, das Problem verschwand "von selbst"...

Viele Grüße

Ja, das mit den 2 Nodes ist mir bewusst

Ist nur ein Testbetrieb ohne HA und nichts.
Aber Du hast natuerlich Recht. Ich werde wohl da noch nachbessern.

Das mit dem "langsamen Massenspeicher" klingt aber interessant. Alle 4 Hosts haben den selben PBS eingebunden - Ein Test-Testsystem

Koennte es sein, dass der Zugriff auf diesen Test-PBS zu dieser Zeit gerade "gestoert" war und die fehlende Protokollierung hervorgerufen hat?
Das waere eine Erklaerung... Aber nicht sehr toll, da waehrend dieser Zeit alle Graphen den Ausfall aufweisen.
Wieso dann aber nur 3 von 4 Hosts?

Falk R. · Jun 9, 2024

devaux said:
Ja, das mit den 2 Nodes ist mir bewusst Ist nur ein Testbetrieb ohne HA und nichts.
Aber Du hast natuerlich Recht. Ich werde wohl da noch nachbessern.

Das mit dem "langsamen Massenspeicher" klingt aber interessant. Alle 4 Hosts haben den selben PBS eingebunden - Ein Test-Testsystem
Koennte es sein, dass der Zugriff auf diesen Test-PBS zu dieser Zeit gerade "gestoert" war und die fehlende Protokollierung hervorgerufen hat?
Das waere eine Erklaerung... Aber nicht sehr toll, da waehrend dieser Zeit alle Graphen den Ausfall aufweisen.
Wieso dann aber nur 3 von 4 Hosts?

Ja, das könnte die Ursache sein. WEnn du einen 2 Node Cluster ohne Quorum betreibst, macht er auch ohne HA alle VMs aus, wenn der zweite mal neu bootet. Das ist ein klassischer Corosync Cluster (funktioniert genauso wie ein Microsoft Failovercluster) und dem ist es egal ob due HA oder andere Features nutzt.

devaux · Jun 9, 2024

Hmnein, waren eigentlich alle 4 Nodes online. Auch haben die VMs nicht neugestartet. Die Konstellation hatte ich schon oefter, dass eine von den beiden Nodes ausgeschaltet waren und da hat keine VM irgendwas selber gemacht - was ich sehr zu schaetzen weiss
Es ist ja auch so, dass die 3 PVE waehrend dieser 3 Minuten bei KEINEM Graphen etwas gezeichnet haben.
Habe jetzt einen Quorum-Host eingerichtet. Mal schauen, ob der "Glitch" wieder auftritt.

Falk R. · Jun 9, 2024

Solche Aussetzer im Grafen hast du öfters mal, wenn du einen Node neu startest, Netzwerklast oder Latenzen hast. Natürlich auch wenn DIenste neustarten, wie z.B. bei Updates.

Search

Search

Haben Sie mal 3 Minuten? Fehlende Daten in den Graphen

devaux

Active Member

news

Active Member

devaux

Active Member

UdoB

Distinguished Member

devaux

Active Member

Falk R.

Distinguished Member

devaux

Active Member

Falk R.

Distinguished Member