VM Name und Statistic Daten zeitweise nicht verfügbar

vmwombat

Member
Feb 15, 2024
8
0
6
Hallo zusammen, wir haben hier einen 3-Node Cluster mit CEPH. Alle Nodes sind auf der aktuellen PVE Version pve-manager/8.4.16. Alle Nodes wurden heute nochmal aktualisiert und neugestartet. Trotzdem bleib folgendes Problem.

Seit gestern ca. 15:00 Uhr sehe ich wechselnd bei verschiedensten VMs folgendes:

* VM Name in der GUI ist weg und das Symbol hat ein Fragezeichen (siehe auch Screenshots)
* Die Statistiken der VM haben fehlende Daten über längere Zeiträume
* Der beschriebene Zustand ändert sich ständig und zieht sich über alle drei Knoten hinweg und trifft quasi immer mal andere VMs egal ob die auf CEPH-Storage oder auf FC-SAN liegen
* die Konsole ist zugreifbar
* IP-Adresse via guest-agent wird in der GUI angezeigt
* Es gibt keine Gemeinsamkeiten der betroffenen VMs.
* die VMs selbst laufen zuverlässig
* CLuster und Corosync sind stabil soweit ich das sehe. Wir haben einen redundanten Corosync Ring über zwei versch. Netzwerke.

Ich vermute dass aus irgendeinem Grund die Kommunikation zwischen QEMU und dem pveproxy (der GUI) gestört ist. Ich betreibe den Cluster schon über ein Jahr und hatte diese selstsamen Effekte bisher noch nie. Das Update auf PVE 8.4.16 hatte ich am Freitag gemacht.

Wo kann ich suchen?

Danke!

1772034318111.png

1772034373958.png
1772034691891.png
 
Hallo @vmwombat,

das Fragezeichen und fehlende VM-Namen deuten darauf hin, dass pvestatd zeitweise die VM-Konfigurationen nicht lesen kann. Das läuft über pmxcfs (/etc/pve).

Bitte auf allen drei Nodes prüfen:

Code:
# pvestatd Status und Logs
systemctl status pvestatd
journalctl -u pvestatd --since "2025-02-24 14:00" | tail -100

# pmxcfs / pve-cluster Logs (das ist meist der eigentliche Übeltäter)
journalctl -u pve-cluster --since "2025-02-24 14:00" | tail -100

# Prüfen ob /etc/pve responsiv ist (wenn langsam = pmxcfs-Problem)
time ls /etc/pve/nodes/

# Corosync-Status
pvecm status

# Allgemeine Systemlast zum Zeitpunkt der Probleme
dmesg | grep -i -E "oom|blocked|hung"

Wenn ls /etc/pve/nodes/ zeitweise hängt oder langsam ist, liegt das Problem bei pmxcfs/Corosync und nicht bei QEMU ↔ pveproxy.

Poste bitte die relevanten Log-Auszüge, dann kann man das eingrenzen.