[SOLVED] Status der Cluster nodes wird im WebUI als unknown angezeigt

ViennaTux · Oct 14, 2019

Hallo ans Forum,

in meinem internen Cluster (PVE 6.0-7) habe ich eine relativ alte Maschine (Dell Power Tower) und eine ganz neue (NOVARION Quanton). Die neue soll die alte demnächst ablösen.
So lange beide auf PVE 5.x liefen, gab es keine Probleme.
Seit dem Update auf PVE6 verlieren die Maschinen im WebUI immer wieder ihren Status, siehe Screenshot. Die VMs und Container laufen, zeigen aber keine Stati an...

pvecm zeigt auf beiden Maschinen sauberes Quorum an.
Nach einem Neustart ist alles wieder in Ordnung, bis zum nächsten Mal.
Ursprünglich dachte ich es hängt mit den nächtlichen Backups auf RDX zusammen, diese Jobs sind allerdings bereits mehrere Tage deaktiviert und dennoch passiert es intermittierend.
Ich kann nicht andauernd die internen Maschinen durchstarten.

Irgendjemand eine Idee?

tim · Oct 14, 2019

Bitte /var/log/syslog auf Fehler überprüfen und eventuell hier posten (sensible Daten bitte logischerweise entfernen)

ViennaTux · Oct 14, 2019

Leider keinerlei Fehler zu finden.
Die VMs und Container laufen auch alle brav weiter...
Ich habe die Server neu gestartet, um einen definitiven Bezug zu haben, und beobachte das, vermutlich wird es demnächst wieder passieren...

wolfgang · Oct 15, 2019

Hallo,

wenn es wieder auftritt bitte mal schauen was der pvestatd macht.
am besten mit ps schauen ob er im D state ist.
wenn ja muss man ihr neu starten. Wahrscheinlich auf beiden Knoten.
Es kommt manchmal vor das ein Storage blockiert.

ViennaTux · Oct 16, 2019

Guten Morgen,
gerade wieder passiert.

ps auxw | grep pvestatd zeigt:

root 2141 0.2 0.1 315716 83056 ? Ss Oct14 6:22 pvestatd
root 1532798 0.0 0.0 6176 892 pts/0 S+ 09:38 0:00 grep pvestatd

auf beiden Maschinen.
Ein Neustart des pvestatd bringt nichts, nur ein kompletter neustart aller Knoten ändert etwas am Status.

In der Nacht sind keine Jobs gelaufen.
Ich hab echt keinen Plan mehr.
Wenn mir das auf Kundenmaschinen passiert hab ich echt ein Problem...

ViennaTux · Oct 16, 2019

Update:
Beim Shutdown bleibt pvestatd hängen, der Stop Job läuft ewig (die Laufzeit verlängert sich ständig), es bleibt nichts anderes übrig als einen hard reset zu machen...

wolfgang · Oct 16, 2019

Wenn es nochmal auf tritt schau mal nach welche(r) Prozess(e) im D state ist.
Was für Storages hast du am dem Cluster?

streamservice · Oct 16, 2019

Ich habe das selbe Problem habe gestern das Update von 6.0.7 auf 6.0.8 eingespielt.

Seltsamerweise habe ich noch ein genau identisches System mit selben Update Stand und da tritt es aktuell noch nicht auf.
Da ist nur der CPU Typ etwas anders statt 2630v3 sind 2620v4 verbaut.

Ich habe kein Cluster Setup sondern Einzelnodes diese haben 2x Sata und 2 SSDs mit Hardware Raid Controler. Dazu werden via CIFS noch 2 externe Backup Storages geladen.

# ps auxw | grep pvestatd
root 1365 0.9 0.0 307812 97300 ? Ss Sep17 388:03 pvestatd
root 2678 0.0 0.0 307812 74172 ? D 09:49 0:00 pvestatd
root 13993 0.0 0.0 6544 892 pts/1 S+ 18:41 0:00 grep pvestatd

wolfgang · Oct 17, 2019

Bei CIFS mit SMB V 3.1 gibt es anscheiden momentan ein Problem [1].
Bin leider selber noch nicht dazu gekommen es zu testen.

https://forum.proxmox.com/threads/pvestatd-locks-up-if-network-share-missbehaves.58537/#post-270273

ViennaTux · Oct 17, 2019

wolfgang said:
Wenn es nochmal auf tritt schau mal nach welche(r) Prozess(e) im D state ist.
Was für Storages hast du am dem Cluster?

eine Maschine (denobula) hat eine lokale 3TB Platte als Verzeichnis eingehängt, die andere (qonos) 3 6TB Platten als ZFS.

wolfgang · Oct 17, 2019

@Wolfgang Leithner
schau mal bitte ob du am qonos einen ZFS kernel message in syslog siehst.

ViennaTux · Oct 17, 2019

Außer beim Restart

Oct 16 09:38:55 qonos systemd[1]: Stopped target ZFS startup target.
Oct 16 09:38:55 qonos systemd[1]: zfs-share.service: Succeeded.
Oct 16 09:38:55 qonos systemd[1]: Stopped ZFS file system shares.

Oct 16 09:48:00 qonos systemd-modules-load[672]: Inserted module 'zfs'

ist nichts zu finden, auch und besonders nicht rund um den jeweiligen Ausfall...

wolfgang · Oct 17, 2019

Was für Proxmox Versionen laufen detailliert auf den Maschinen?

Code:

pveversion -v

ViennaTux · Oct 17, 2019

proxmox-ve: 6.0-2 (running kernel: 5.0.21-2-pve)
pve-manager: 6.0-7 (running version: 6.0-7/28984024)
pve-kernel-5.0: 6.0-8
pve-kernel-helper: 6.0-8
pve-kernel-5.0.21-2-pve: 5.0.21-6
pve-kernel-5.0.21-1-pve: 5.0.21-2
pve-kernel-5.0.15-1-pve: 5.0.15-1
ceph: 14.2.4-pve1
ceph-fuse: 14.2.4-pve1
corosync: 3.0.2-pve2
criu: 3.11-3
glusterfs-client: 5.5-3
ksm-control-daemon: 1.3-1
libjs-extjs: 6.0.1-10
libknet1: 1.12-pve1
libpve-access-control: 6.0-2
libpve-apiclient-perl: 3.0-2
libpve-common-perl: 6.0-5
libpve-guest-common-perl: 3.0-1
libpve-http-server-perl: 3.0-2
libpve-storage-perl: 6.0-9
libqb0: 1.0.5-1
lvm2: 2.03.02-pve3
lxc-pve: 3.1.0-65
lxcfs: 3.0.3-pve60
novnc-pve: 1.1.0-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.0-7
pve-cluster: 6.0-7
pve-container: 3.0-7
pve-docs: 6.0-4
pve-edk2-firmware: 2.20190614-1
pve-firewall: 4.0-7
pve-firmware: 3.0-2
pve-ha-manager: 3.0-2
pve-i18n: 2.0-3
pve-qemu-kvm: 4.0.0-5
pve-xtermjs: 3.13.2-1
qemu-server: 6.0-7
smartmontools: 7.0-pve2
spiceterm: 3.1-1
vncterm: 1.6-1
zfsutils-linux: 0.8.1-pve2

wolfgang · Oct 17, 2019

Bitte update mal das System,
du hast einen Kernel laufen der einen ZFS Bug hat
Diese kann hängen von Datensets verursacht.
Und reboot nicht vergessen damit der Kernel geladen wird.

ViennaTux · Oct 17, 2019

Sowohl proxmox UI als auch apt sagen, dass das System aktuell ist...

apt update
Hit:1 http://ftp.at.debian.org/debian buster InRelease
Hit:2 http://ftp.at.debian.org/debian buster-updates InRelease
Hit:4 http://download.proxmox.com/debian/ceph-luminous buster InRelease
Hit:5 http://download.proxmox.com/debian/corosync-3 stretch InRelease
Hit:3 http://security-cdn.debian.org buster/updates InRelease
Hit:6 https://enterprise.proxmox.com/debian/pve buster InRelease
Reading package lists... Done
Building dependency tree
Reading state information... Done
All packages are up to date.

wolfgang · Oct 17, 2019

Dann nur rebooten die Anzeige von pveversion -v sagt das du noch den alten Kernel verwendest.

Wolfgang Leithner said:
proxmox-ve: 6.0-2 (running kernel: 5.0.21-2-pve)

ViennaTux · Oct 17, 2019

Gerade neu gestartet, gleiches Ergebnis:

proxmox-ve: 6.0-2 (running kernel: 5.0.21-2-pve)

apt update
Hit:1 http://ftp.at.debian.org/debian buster InRelease
Hit:3 http://ftp.at.debian.org/debian buster-updates InRelease
Hit:2 http://security-cdn.debian.org buster/updates InRelease
Hit:4 https://enterprise.proxmox.com/debian/pve buster InRelease
Hit:5 http://download.proxmox.com/debian/ceph-luminous buster InRelease
Hit:6 http://download.proxmox.com/debian/corosync-3 stretch InRelease
Reading package lists... Done
Building dependency tree
Reading state information... Done
All packages are up to date.

wolfgang · Oct 17, 2019

Sorry ich bin vorher in der Zeile verrutscht, du warst schon am richtigen Kernel.
Wenn das Problem nochmal auftaucht müssen wir schauen was da genau hängt.

streamservice · Oct 17, 2019

Bei mir ist der Fehler seit dem gestrigen Update wieder weg.
Auch die Millionen Logeinträge wegen CIFS sind erstmal nicht mehr da

[SOLVED] Status der Cluster nodes wird im WebUI als unknown angezeigt

Well-Known Member

Proxmox Staff Member

Well-Known Member

Proxmox Retired Staff

Well-Known Member

Well-Known Member

Proxmox Retired Staff

Member

Proxmox Retired Staff

Well-Known Member

Proxmox Retired Staff

Well-Known Member

Proxmox Retired Staff

Well-Known Member

Proxmox Retired Staff

Well-Known Member

Proxmox Retired Staff

Well-Known Member

Proxmox Retired Staff

Member