Hoi Chris ( Super Name ;-) ),
danke für das Feedback, dann habe ich aber das wirklich hässliche Jason Format. Das Default "Text" Format ist ja eigentlich schon echt hübsch, aber das kann er einfach nicht sinnvoll darstellen.
Gruß
Chris
Hoi zusammen,
wir haben mehrere Cluster und wollen eine Übersicht bauen wo welcher Container läuft.
Theoretisch macht "pvesh get /cluster/resources --type vm" seinen Zweck pro Cluster.
Würde gerne die Info Richtung Confluence posten, irgendwer einen Tipp wie ich das Lesbar in Confluence...
Das kann man sicherlich noch verbessern. Das ist aber derzeit gar nicht unser Problem, das Problem ist / war, das bei einem Boot von einem Node, das ganze Netz hing. Und das ist uns leider schon 2 mal passiert bei komplett unterschiedlichen Nodes. Aus unterschiedlichen Clustern. Wir haben nur...
Hi Benedikt,
danke für deine Antwort.
Genau, das vmbr0 ist für den Corosync als auch für die Kommunikation der VMs.
bond1/bond2 sind für das Ceph direkt Verbindungen zu den jeweils anderen 2 Nodes. Also auch ein Physikalisch getrenntes Netzwerk,
Grüße
Chris
Ich führe das mal ein wenig aus.
Wir haben derzeit 5 Cluster im Einsatz.
Bis jetzt ist uns zwei mal passiert das wenn wir einen Node rebooten auf einmal das ganze Netz auf allen Clustern hingen.
Das ganze ist jetzt auf zwei verschiedenen Nodes in Verschiedenen Clustern passiert.
Da wir...
Hoi Fabian,
letzte Woche ist es wieder passiert auf einem der Nodes im Cluster.
Anbei mal die ps Liste. Hier sieht man auf jedenfall gut das es sehr sehr viele pve-ha-lrm Prozesse gibt.
Gruß
Chris
Wir haben keine custom Skripte für den checkmk laufen die irgendwelche Ha-manager Kommandos triggern.
Sehe in der Übersicht das per Default der checkmk nur abfragt ob es dem cluster perse gut geht. Also den pve-cluster state. Möglich das dies ein Api Kommando ist. Werde das ps mal im 5 Minuten...
Hi Fabian,
nachdem wir die filehandlings pro Prozess verzehnfacht haben ist ein Server heute wieder gestorben.
Anbei mal das Log, jedoch scheint da nicht so viel drin zu stehen.
Gruß
Chris
Das kann ich leider nicht sagen, wir hatten nicht den Tree weggeschrieben sondern nur die einzelnen Prozesse.
Was halt aufgefallen ist, das vor einem crash die Open Files von ca. 500k auf ca. 700k drastisch angestiegen sind und er dann in den reboot ging, bei der suche der Ursache warum, ist...
Nachdem wir uns lsof mal weggeschrieben haben regelmäßig, ist uns aufgefallen das der :
pve-ha-lrm ca. 994 mal spawned.
Jeder von diesen hat:
3230993 pve-ha-lrm TOTAL 256
3231039 pve-ha-lrm TOTAL 257
3231095 pve-ha-lrm TOTAL 251
3231217 pve-ha-lrm TOTAL 249
3234524...
Ich werde mal ein monitoring implementieren was mir die Verbindungen vom CheckMK zu den Cluster wegschreibt, würde ja dann sehen wenn die Anzahl der Verbindungen steigt. - Danke!
Hallo zusammen,
wir haben folgendes Problem das derzeit ständig ein Proxmox in Cluster stirbt mit der Meldung "too many open files"
Wir haben das Problem schon ein wenig eingrenzen können:
Wir haben etliche inotify meldungen:
Nov 18 12:30:43 proxmoxsm37 pve-ha-lrm[853150]: got unexpected...
Hoi Fabian,
ich hatte heute die Möglichkeit den Server nochmal mit einem harten PowerOff abstürzen zu lassen, jedoch ist diesmal der Cluster nicht neu gebootet.
Also bekomme den Fall nicht wirklich reproduziert.
This site uses cookies to help personalise content, tailor your experience and to keep you logged in if you register.
By continuing to use this site, you are consenting to our use of cookies.