[SOLVED] Status der Cluster nodes wird im WebUI als unknown angezeigt

ViennaTux

Well-Known Member
Sep 11, 2017
61
11
48
55
Wien
www.pinguin-systeme.at
Hallo ans Forum,

in meinem internen Cluster (PVE 6.0-7) habe ich eine relativ alte Maschine (Dell Power Tower) und eine ganz neue (NOVARION Quanton). Die neue soll die alte demnächst ablösen.
So lange beide auf PVE 5.x liefen, gab es keine Probleme.
Seit dem Update auf PVE6 verlieren die Maschinen im WebUI immer wieder ihren Status, siehe Screenshot. Die VMs und Container laufen, zeigen aber keine Stati an...Screenshot_20191014_101431.png
pvecm zeigt auf beiden Maschinen sauberes Quorum an.
Nach einem Neustart ist alles wieder in Ordnung, bis zum nächsten Mal.
Ursprünglich dachte ich es hängt mit den nächtlichen Backups auf RDX zusammen, diese Jobs sind allerdings bereits mehrere Tage deaktiviert und dennoch passiert es intermittierend.
Ich kann nicht andauernd die internen Maschinen durchstarten.

Irgendjemand eine Idee?
 
Bitte /var/log/syslog auf Fehler überprüfen und eventuell hier posten (sensible Daten bitte logischerweise entfernen)
 
Leider keinerlei Fehler zu finden.
Die VMs und Container laufen auch alle brav weiter...
Ich habe die Server neu gestartet, um einen definitiven Bezug zu haben, und beobachte das, vermutlich wird es demnächst wieder passieren...
 
Hallo,

wenn es wieder auftritt bitte mal schauen was der pvestatd macht.
am besten mit ps schauen ob er im D state ist.
wenn ja muss man ihr neu starten. Wahrscheinlich auf beiden Knoten.
Es kommt manchmal vor das ein Storage blockiert.
 
Guten Morgen,
gerade wieder passiert.

ps auxw | grep pvestatd zeigt:

root 2141 0.2 0.1 315716 83056 ? Ss Oct14 6:22 pvestatd
root 1532798 0.0 0.0 6176 892 pts/0 S+ 09:38 0:00 grep pvestatd


auf beiden Maschinen.
Ein Neustart des pvestatd bringt nichts, nur ein kompletter neustart aller Knoten ändert etwas am Status.

In der Nacht sind keine Jobs gelaufen.
Ich hab echt keinen Plan mehr.
Wenn mir das auf Kundenmaschinen passiert hab ich echt ein Problem...
 
Update:
Beim Shutdown bleibt pvestatd hängen, der Stop Job läuft ewig (die Laufzeit verlängert sich ständig), es bleibt nichts anderes übrig als einen hard reset zu machen...
 
Wenn es nochmal auf tritt schau mal nach welche(r) Prozess(e) im D state ist.
Was für Storages hast du am dem Cluster?
 
Ich habe das selbe Problem habe gestern das Update von 6.0.7 auf 6.0.8 eingespielt.

proxmox.jpg
Seltsamerweise habe ich noch ein genau identisches System mit selben Update Stand und da tritt es aktuell noch nicht auf.
Da ist nur der CPU Typ etwas anders statt 2630v3 sind 2620v4 verbaut.

Ich habe kein Cluster Setup sondern Einzelnodes diese haben 2x Sata und 2 SSDs mit Hardware Raid Controler. Dazu werden via CIFS noch 2 externe Backup Storages geladen.


# ps auxw | grep pvestatd
root 1365 0.9 0.0 307812 97300 ? Ss Sep17 388:03 pvestatd
root 2678 0.0 0.0 307812 74172 ? D 09:49 0:00 pvestatd
root 13993 0.0 0.0 6544 892 pts/1 S+ 18:41 0:00 grep pvestatd
 
Last edited:
Wenn es nochmal auf tritt schau mal nach welche(r) Prozess(e) im D state ist.
Was für Storages hast du am dem Cluster?
eine Maschine (denobula) hat eine lokale 3TB Platte als Verzeichnis eingehängt, die andere (qonos) 3 6TB Platten als ZFS.
 
Außer beim Restart

Oct 16 09:38:55 qonos systemd[1]: Stopped target ZFS startup target.
Oct 16 09:38:55 qonos systemd[1]: zfs-share.service: Succeeded.
Oct 16 09:38:55 qonos systemd[1]: Stopped ZFS file system shares.

Oct 16 09:48:00 qonos systemd-modules-load[672]: Inserted module 'zfs
'

ist nichts zu finden, auch und besonders nicht rund um den jeweiligen Ausfall...
 
Was für Proxmox Versionen laufen detailliert auf den Maschinen?
Code:
pveversion -v
 
proxmox-ve: 6.0-2 (running kernel: 5.0.21-2-pve)
pve-manager: 6.0-7 (running version: 6.0-7/28984024)
pve-kernel-5.0: 6.0-8
pve-kernel-helper: 6.0-8
pve-kernel-5.0.21-2-pve: 5.0.21-6
pve-kernel-5.0.21-1-pve: 5.0.21-2
pve-kernel-5.0.15-1-pve: 5.0.15-1
ceph: 14.2.4-pve1
ceph-fuse: 14.2.4-pve1
corosync: 3.0.2-pve2
criu: 3.11-3
glusterfs-client: 5.5-3
ksm-control-daemon: 1.3-1
libjs-extjs: 6.0.1-10
libknet1: 1.12-pve1
libpve-access-control: 6.0-2
libpve-apiclient-perl: 3.0-2
libpve-common-perl: 6.0-5
libpve-guest-common-perl: 3.0-1
libpve-http-server-perl: 3.0-2
libpve-storage-perl: 6.0-9
libqb0: 1.0.5-1
lvm2: 2.03.02-pve3
lxc-pve: 3.1.0-65
lxcfs: 3.0.3-pve60
novnc-pve: 1.1.0-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.0-7
pve-cluster: 6.0-7
pve-container: 3.0-7
pve-docs: 6.0-4
pve-edk2-firmware: 2.20190614-1
pve-firewall: 4.0-7
pve-firmware: 3.0-2
pve-ha-manager: 3.0-2
pve-i18n: 2.0-3
pve-qemu-kvm: 4.0.0-5
pve-xtermjs: 3.13.2-1
qemu-server: 6.0-7
smartmontools: 7.0-pve2
spiceterm: 3.1-1
vncterm: 1.6-1
zfsutils-linux: 0.8.1-pve2
 
Bitte update mal das System,
du hast einen Kernel laufen der einen ZFS Bug hat
Diese kann hängen von Datensets verursacht.
Und reboot nicht vergessen damit der Kernel geladen wird.
 
Sowohl proxmox UI als auch apt sagen, dass das System aktuell ist...

apt update
Hit:1 http://ftp.at.debian.org/debian buster InRelease
Hit:2 http://ftp.at.debian.org/debian buster-updates InRelease
Hit:4 http://download.proxmox.com/debian/ceph-luminous buster InRelease
Hit:5 http://download.proxmox.com/debian/corosync-3 stretch InRelease
Hit:3 http://security-cdn.debian.org buster/updates InRelease
Hit:6 https://enterprise.proxmox.com/debian/pve buster InRelease
Reading package lists... Done
Building dependency tree
Reading state information... Done
All packages are up to date.


1571304151404.png
 
Last edited:
Gerade neu gestartet, gleiches Ergebnis:

proxmox-ve: 6.0-2 (running kernel: 5.0.21-2-pve)

apt update
Hit:1 http://ftp.at.debian.org/debian buster InRelease
Hit:3 http://ftp.at.debian.org/debian buster-updates InRelease
Hit:2 http://security-cdn.debian.org buster/updates InRelease
Hit:4 https://enterprise.proxmox.com/debian/pve buster InRelease
Hit:5 http://download.proxmox.com/debian/ceph-luminous buster InRelease
Hit:6 http://download.proxmox.com/debian/corosync-3 stretch InRelease
Reading package lists... Done
Building dependency tree
Reading state information... Done
All packages are up to date.
 
Sorry ich bin vorher in der Zeile verrutscht, du warst schon am richtigen Kernel.
Wenn das Problem nochmal auftaucht müssen wir schauen was da genau hängt.
 
Bei mir ist der Fehler seit dem gestrigen Update wieder weg.
Auch die Millionen Logeinträge wegen CIFS sind erstmal nicht mehr da
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!