Haben Sie mal 3 Minuten? Fehlende Daten in den Graphen

devaux

Active Member
Feb 3, 2024
172
40
28
Hallo,
Ich mache momentan diverse Tests mit Proxmox. Heute ist mir ein komisches Phaenomen aufgefallen. Ich habe 2 Cluster mit je zwei Nodes im Testbetrieb. 3 davon hatten zur gleichen Uhrzeit einen Unterbruch in allen Graphen - einer nicht.
Diese sind alle im gleichen Netz und identisch am gleichen Switch angeschlossen. Hat jemand eine Idee wieso dies passiert ist oder wo ich am besten nachgucke, ob es sich hier um ein Problem oder einen "Glitch" handelt?

1717929680721.png
 
Das nennt sich logfile(s) und die liegen im /var/log/.. Verzeichnis.
P.S. Graphen des Proxmox VE interessieren mich nicht und ich schaue nicht darauf.
Das ist ein Server, den ich im eine SSH Konsolensitzung administriere.
 
Wenn ich was in den Logfiles oder im systemd-Log sehen/finden wuerde, wuerde ich hier nicht fragen.
Graphen empfinde ich noch relativ wichtig um Engpaesse oder irgendwelche Unstimmigkeiten praeventiv abfedern zu koennen. Das koennen natuerlich alle handhaben wie sie moechten.
 
Ich habe 2 Cluster mit je zwei Nodes
Dass das nicht gut ist, ist vermutlich klar? Naheliegend wäre jeweils ein Container im anderen Cluster als "Quorum-Device" :)

"Kein Quorum" kann verschiedene Ursachen (Netzlast?) und verschiedene Auswirkungen haben. Zunächst wird "/etc/pve" read-only. Ob das Einfluss auf die Statistik-Erfassung hat, kann ich nicht sagen. Aber gerade im Testbetrieb spart man manchmal "Dinge" ein, weil man meint, dass man sie nicht braucht - mit "komischen" Effekten...

einen Unterbruch in allen Graphen
Ich hatte das auch schon. Einmal lag es an einem verstorbenen "pve-statd". Ein anderes mal bilde ich mir ein (nicht wirklich verifiziert), dass es schlicht an der zu hohen Systemlast lag. Genauer: hohe "iowait"-Werte aufgrund langsamer Massenspeicher.

Den genauen Grund konnte ich in meinem Fall nicht klären, das Problem verschwand "von selbst"...

Viele Grüße
 
Dass das nicht gut ist, ist vermutlich klar? Naheliegend wäre jeweils ein Container im anderen Cluster als "Quorum-Device" :)

"Kein Quorum" kann verschiedene Ursachen (Netzlast?) und verschiedene Auswirkungen haben. Zunächst wird "/etc/pve" read-only. Ob das Einfluss auf die Statistik-Erfassung hat, kann ich nicht sagen. Aber gerade im Testbetrieb spart man manchmal "Dinge" ein, weil man meint, dass man sie nicht braucht - mit "komischen" Effekten...


Ich hatte das auch schon. Einmal lag es an einem verstorbenen "pve-statd". Ein anderes mal bilde ich mir ein (nicht wirklich verifiziert), dass es schlicht an der zu hohen Systemlast lag. Genauer: hohe "iowait"-Werte aufgrund langsamer Massenspeicher.

Den genauen Grund konnte ich in meinem Fall nicht klären, das Problem verschwand "von selbst"...

Viele Grüße
Ja, das mit den 2 Nodes ist mir bewusst ;) Ist nur ein Testbetrieb ohne HA und nichts.
Aber Du hast natuerlich Recht. Ich werde wohl da noch nachbessern.

Das mit dem "langsamen Massenspeicher" klingt aber interessant. Alle 4 Hosts haben den selben PBS eingebunden - Ein Test-Testsystem ;)
Koennte es sein, dass der Zugriff auf diesen Test-PBS zu dieser Zeit gerade "gestoert" war und die fehlende Protokollierung hervorgerufen hat?
Das waere eine Erklaerung... Aber nicht sehr toll, da waehrend dieser Zeit alle Graphen den Ausfall aufweisen.
Wieso dann aber nur 3 von 4 Hosts?
 
Last edited:
Ja, das mit den 2 Nodes ist mir bewusst ;) Ist nur ein Testbetrieb ohne HA und nichts.
Aber Du hast natuerlich Recht. Ich werde wohl da noch nachbessern.

Das mit dem "langsamen Massenspeicher" klingt aber interessant. Alle 4 Hosts haben den selben PBS eingebunden - Ein Test-Testsystem ;)
Koennte es sein, dass der Zugriff auf diesen Test-PBS zu dieser Zeit gerade "gestoert" war und die fehlende Protokollierung hervorgerufen hat?
Das waere eine Erklaerung... Aber nicht sehr toll, da waehrend dieser Zeit alle Graphen den Ausfall aufweisen.
Wieso dann aber nur 3 von 4 Hosts?
Ja, das könnte die Ursache sein. WEnn du einen 2 Node Cluster ohne Quorum betreibst, macht er auch ohne HA alle VMs aus, wenn der zweite mal neu bootet. Das ist ein klassischer Corosync Cluster (funktioniert genauso wie ein Microsoft Failovercluster) und dem ist es egal ob due HA oder andere Features nutzt.
 
Hmnein, waren eigentlich alle 4 Nodes online. Auch haben die VMs nicht neugestartet. Die Konstellation hatte ich schon oefter, dass eine von den beiden Nodes ausgeschaltet waren und da hat keine VM irgendwas selber gemacht - was ich sehr zu schaetzen weiss
Es ist ja auch so, dass die 3 PVE waehrend dieser 3 Minuten bei KEINEM Graphen etwas gezeichnet haben.
Habe jetzt einen Quorum-Host eingerichtet. Mal schauen, ob der "Glitch" wieder auftritt.
 
Solche Aussetzer im Grafen hast du öfters mal, wenn du einen Node neu startest, Netzwerklast oder Latenzen hast. Natürlich auch wenn DIenste neustarten, wie z.B. bei Updates.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!