[SOLVED] Nach Update auf letzte 6.4 Probleme mit Webinterface und Backup

Ralf Petry

New Member
Jul 28, 2022
7
0
1
Hallo,
seit dem letzten Update / Patch in der 6.4 habe ich Probleme mit meinem 3-Knoten-Cluster. Das Webinterface zeigt mir die Knoten nur mit Fragezeichen, keine Details, Backupjobs schlagen fehl (no Permission auf <VMID>.conf.tmp.* in /etc/pve/node/Knotenname/qemu-server).
Anfangs hatte ich eine einzelne VM im Verdacht, die sich auch nicht starten lassen wollte und in journalctl entsprechende Auffälligkeiten zeigte, weshalb ich sie weggeworfen hatte, sobald ich die Kontrolle über den entsprechenden Knoten erlangt hatte.
Dann gab es auch noch ssh-Zertifikatsunstimmigkeiten, die ich behoben habe.
Nun laufen alle drei Knoten wieder im Quorum, aber das Webinterface zickt immer noch und die Backupjobs werden vermutlich wieder fehlschlagen.

Mir gehen leider langsam die Ideen aus, wo könnte ich denn noch nachsehen, ob bzw. wo was hängt? Ich würde die Knoten ungern rebooten.

Vielen Dank schon mal.
 
Was steht denn im journalctl?
Was sagt pvecm status?
pveversion -v
Was waren die Zertifikatsprobleme, und wie hast du sie behoben?
 
Vielen Dank. Erst die Ausgabe von pveversion -v, dann pvecm status. Kann ich journalctl auf ein bestimmtes Modul filtern (bspw. -u corosync -u pve-cluster?
pveversion -v:

proxmox-ve: 6.4-1 (running kernel: 5.4.195-1-pve)
pve-manager: 6.4-15 (running version: 6.4-15/af7986e6)
pve-kernel-5.4: 6.4-19
pve-kernel-helper: 6.4-19
pve-kernel-5.4.195-1-pve: 5.4.195-1
pve-kernel-5.4.189-1-pve: 5.4.189-1
pve-kernel-5.4.34-1-pve: 5.4.34-2
ceph-fuse: 12.2.11+dfsg1-2.1+b1
corosync: 3.1.5-pve2~bpo10+1
criu: 3.11-3
glusterfs-client: 5.5-3
ifupdown: 0.8.35+pve1
ksm-control-daemon: 1.3-1
libjs-extjs: 6.0.1-10
libknet1: 1.22-pve2~bpo10+1
libproxmox-acme-perl: 1.1.0
libproxmox-backup-qemu0: 1.1.0-1
libpve-access-control: 6.4-3
libpve-apiclient-perl: 3.1-3
libpve-common-perl: 6.4-5
libpve-guest-common-perl: 3.1-5
libpve-http-server-perl: 3.2-5
libpve-storage-perl: 6.4-1
libqb0: 1.0.5-1
libspice-server1: 0.14.2-4~pve6+1
lvm2: 2.03.02-pve4
lxc-pve: 4.0.6-2
lxcfs: 4.0.6-pve1
novnc-pve: 1.1.0-1
proxmox-backup-client: 1.1.14-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.6-2
pve-cluster: 6.4-1
pve-container: 3.3-6
pve-docs: 6.4-2
pve-edk2-firmware: 2.20200531-1
pve-firewall: 4.1-4
pve-firmware: 3.3-2
pve-ha-manager: 3.1-1
pve-i18n: 2.3-1
pve-qemu-kvm: 5.2.0-8
pve-xtermjs: 4.7.0-3
qemu-server: 6.4-2
smartmontools: 7.2-pve2
spiceterm: 3.1-1
vncterm: 1.6-2
zfsutils-linux: 2.0.7-pve1

pvecm status:
Cluster information
-------------------
Name: pveXXXXXX
Config Version: 6
Transport: knet
Secure auth: on

Quorum information
------------------
Date: Thu Jul 28 11:23:07 2022
Quorum provider: corosync_votequorum
Nodes: 3
Node ID: 0x00000001
Ring ID: 1.a5cca
Quorate: Yes

Votequorum information
----------------------
Expected votes: 3
Highest expected: 3
Total votes: 3
Quorum: 2
Flags: Quorate

Membership information
----------------------
Nodeid Votes Name
0x00000001 1 192.168.1.52 (local)
0x00000002 1 192.168.1.47
0x00000003 1 192.168.1.40

Die Werte sind auf allen Knoten gleich mit Ausnahme der Anzeige, welcher Server local ist. Erstaunlich finde ich Transport: knet, ich hatte da was ausprobiert, könnte aber schwören, die knet-Informationen aus der corosync.conf wieder entfernt zu haben (muss ich gleich mal nachsehen)...

Danke schon mal.
 
Kann ich journalctl auf ein bestimmtes Modul filtern (bspw. -u corosync -u pve-cluster?
Ja, das und die letzten paar Einträge sollten ausreichend sein.
 
pve-cluster, letzte 20 Zeilen, Knoten 1:
Jul 28 12:01:43 pvegeo40 pmxcfs[41785]: [status] notice: received sync request (epoch 1/41785/0000002E)
Jul 28 12:01:43 pvegeo40 pmxcfs[41785]: [dcdb] notice: received all states
Jul 28 12:01:43 pvegeo40 pmxcfs[41785]: [dcdb] notice: leader is 1/41785
Jul 28 12:01:43 pvegeo40 pmxcfs[41785]: [dcdb] notice: synced members: 1/41785, 2/23582
Jul 28 12:01:43 pvegeo40 pmxcfs[41785]: [dcdb] notice: start sending inode updates
Jul 28 12:01:43 pvegeo40 pmxcfs[41785]: [dcdb] notice: sent all (14) updates
Jul 28 12:01:43 pvegeo40 pmxcfs[41785]: [dcdb] notice: all data is up to date
Jul 28 12:01:43 pvegeo40 pmxcfs[41785]: [status] notice: received all states
Jul 28 12:01:43 pvegeo40 pmxcfs[41785]: [status] notice: all data is up to date
Jul 28 12:04:19 pvegeo40 pmxcfs[41785]: [dcdb] notice: members: 1/41785, 2/23582
Jul 28 12:04:19 pvegeo40 pmxcfs[41785]: [dcdb] notice: starting data syncronisation
Jul 28 12:04:19 pvegeo40 pmxcfs[41785]: [dcdb] notice: cpg_send_message retried 1 times
Jul 28 12:04:19 pvegeo40 pmxcfs[41785]: [status] notice: members: 1/41785, 2/23582
Jul 28 12:04:19 pvegeo40 pmxcfs[41785]: [status] notice: starting data syncronisation
Jul 28 12:04:19 pvegeo40 pmxcfs[41785]: [dcdb] notice: members: 1/41785, 2/23582, 3/20542
Jul 28 12:04:19 pvegeo40 pmxcfs[41785]: [status] notice: members: 1/41785, 2/23582, 3/20542
Jul 28 12:04:19 pvegeo40 pmxcfs[41785]: [dcdb] notice: received sync request (epoch 1/41785/0000002F)
Jul 28 12:04:19 pvegeo40 pmxcfs[41785]: [status] notice: received sync request (epoch 1/41785/0000002F)
Jul 28 12:04:19 pvegeo40 pmxcfs[41785]: [dcdb] notice: received sync request (epoch 1/41785/00000030)
Jul 28 12:04:19 pvegeo40 pmxcfs[41785]: [status] notice: received sync request (epoch 1/41785/00000030)

corosync, letzte 20 Zeilen, Knoten1:
Jul 28 12:21:12 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:13 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:13 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:14 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:15 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:15 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:16 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:17 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:18 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:18 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:19 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:20 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:20 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:21 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:22 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:22 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:23 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:24 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:24 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b
Jul 28 12:21:25 pvegeo40 corosync[41790]: [TOTEM ] Retransmit List: 11 12 14 15 17 18 1a 1b

corosync auf Knoten 2, letzte 20 Zeilen (pve-cluster sieht im Prinzip analog zu Knoten 1 aus):
Jul 28 12:01:43 Geo39 corosync[23588]: [QUORUM] Sync joined[1]: 3
Jul 28 12:01:43 Geo39 corosync[23588]: [TOTEM ] A new membership (1.a5d02) was
Jul 28 12:01:43 Geo39 corosync[23588]: [QUORUM] Members[3]: 1 2 3
Jul 28 12:01:43 Geo39 corosync[23588]: [MAIN ] Completed service synchronizat
Jul 28 12:01:43 Geo39 corosync[23588]: [TOTEM ] Retransmit List: 14 16
Jul 28 12:04:19 Geo39 corosync[23588]: [QUORUM] Sync members[2]: 1 2
Jul 28 12:04:19 Geo39 corosync[23588]: [QUORUM] Sync left[1]: 3
Jul 28 12:04:19 Geo39 corosync[23588]: [TOTEM ] A new membership (1.a5d06) was
Jul 28 12:04:19 Geo39 corosync[23588]: [TOTEM ] Failed to receive the leave me
Jul 28 12:04:19 Geo39 corosync[23588]: [QUORUM] Members[2]: 1 2
Jul 28 12:04:19 Geo39 corosync[23588]: [MAIN ] Completed service synchronizat
Jul 28 12:04:19 Geo39 corosync[23588]: [QUORUM] Sync members[3]: 1 2 3
Jul 28 12:04:19 Geo39 corosync[23588]: [QUORUM] Sync joined[1]: 3
Jul 28 12:04:19 Geo39 corosync[23588]: [TOTEM ] A new membership (1.a5d0a) was
Jul 28 12:04:19 Geo39 corosync[23588]: [QUORUM] Members[3]: 1 2 3
Jul 28 12:04:19 Geo39 corosync[23588]: [MAIN ] Completed service synchronizat
Jul 28 12:04:19 Geo39 corosync[23588]: [TOTEM ] Retransmit List: 15 16 17 18 1
Jul 28 12:04:19 Geo39 corosync[23588]: [TOTEM ] Retransmit List: 16 17 18 19
Jul 28 12:04:19 Geo39 corosync[23588]: [TOTEM ] Retransmit List: 18 19
Jul 28 12:04:19 Geo39 corosync[23588]: [TOTEM ] Retransmit List: 19

pve-cluster auf Knoten 3:
Jul 28 12:01:43 Geo38 pmxcfs[20542]: [status] notice: starting data syncronisati
Jul 28 12:01:43 Geo38 pmxcfs[20542]: [status] notice: node has quorum
Jul 28 12:01:43 Geo38 pmxcfs[20542]: [dcdb] notice: received sync request (epoch
Jul 28 12:01:43 Geo38 pmxcfs[20542]: [dcdb] notice: received sync request (epoch
Jul 28 12:01:43 Geo38 pmxcfs[20542]: [status] notice: received sync request (epo
Jul 28 12:01:43 Geo38 pmxcfs[20542]: [status] notice: received sync request (epo
Jul 28 12:04:19 Geo38 pmxcfs[20542]: [dcdb] notice: members: 3/20542
Jul 28 12:04:19 Geo38 pmxcfs[20542]: [dcdb] notice: all data is up to date
Jul 28 12:04:19 Geo38 pmxcfs[20542]: [dcdb] notice: dfsm_deliver_queue: queue le
Jul 28 12:04:19 Geo38 pmxcfs[20542]: [dcdb] notice: cpg_send_message retried 1 t
Jul 28 12:04:19 Geo38 pmxcfs[20542]: [status] notice: node lost quorum
Jul 28 12:04:19 Geo38 pmxcfs[20542]: [status] notice: node has quorum
Jul 28 12:04:19 Geo38 pmxcfs[20542]: [status] notice: members: 3/20542
Jul 28 12:04:19 Geo38 pmxcfs[20542]: [status] notice: all data is up to date
Jul 28 12:04:19 Geo38 pmxcfs[20542]: [dcdb] notice: members: 1/41785, 2/23582, 3
Jul 28 12:04:19 Geo38 pmxcfs[20542]: [dcdb] notice: starting data syncronisation
Jul 28 12:04:19 Geo38 pmxcfs[20542]: [dcdb] notice: received sync request (epoch
Jul 28 12:04:19 Geo38 pmxcfs[20542]: [status] notice: members: 1/41785, 2/23582,
Jul 28 12:04:19 Geo38 pmxcfs[20542]: [status] notice: starting data syncronisati
Jul 28 12:04:19 Geo38 pmxcfs[20542]: [status] notice: received sync request (epo

corosync auf Knoten 3, letzte 20:
Jul 28 12:04:08 Geo38 corosync[20547]: [TOTEM ] Retransmit List: e3
Jul 28 12:04:13 Geo38 corosync[20547]: [TOTEM ] Retransmit List: e9
Jul 28 12:04:18 Geo38 corosync[20547]: [TOTEM ] Retransmit List: ef
Jul 28 12:04:19 Geo38 corosync[20547]: [TOTEM ] FAILED TO RECEIVE
Jul 28 12:04:19 Geo38 corosync[20547]: [QUORUM] Sync members[1]: 3
Jul 28 12:04:19 Geo38 corosync[20547]: [QUORUM] Sync left[2]: 1 2
Jul 28 12:04:19 Geo38 corosync[20547]: [TOTEM ] A new membership (3.a5d06) was
Jul 28 12:04:19 Geo38 corosync[20547]: [TOTEM ] Failed to receive the leave me
Jul 28 12:04:19 Geo38 corosync[20547]: [QUORUM] This node is within the non-pr
Jul 28 12:04:19 Geo38 corosync[20547]: [QUORUM] Members[1]: 3
Jul 28 12:04:19 Geo38 corosync[20547]: [MAIN ] Completed service synchronizat
Jul 28 12:04:19 Geo38 corosync[20547]: [QUORUM] Sync members[3]: 1 2 3
Jul 28 12:04:19 Geo38 corosync[20547]: [QUORUM] Sync joined[2]: 1 2
Jul 28 12:04:19 Geo38 corosync[20547]: [TOTEM ] A new membership (1.a5d0a) was
Jul 28 12:04:19 Geo38 corosync[20547]: [QUORUM] This node is within the primar
Jul 28 12:04:19 Geo38 corosync[20547]: [QUORUM] Members[3]: 1 2 3
Jul 28 12:04:19 Geo38 corosync[20547]: [MAIN ] Completed service synchronizat
Jul 28 12:04:19 Geo38 corosync[20547]: [TOTEM ] Retransmit List: 12 13
Jul 28 12:04:19 Geo38 corosync[20547]: [TOTEM ] Retransmit List: 13 1b 1c
Jul 28 12:04:19 Geo38 corosync[20547]: [TOTEM ] Retransmit List: 1c

Vielen Dank.
 
Die TOTEM Retransmit list und der quorum loss kommen mir etwas seltsam vor, auf die Schnelle fällt mir aber keine Lösung ein. Eventuell such mal im Forum, ob jemand ein ähnliches Problem hatte.

Hast du schon probiert die Dienste neuzustarten?
 
Was waren die Zertifikatsprobleme, und wie hast du sie behoben?
ssh von einer Maschine auf die andere, Warnung wegen offending keys in known_hosts erhalten, entsprechenden Eintrag rausgelöst, neues ssh, key akzeptiert. von jeder Maschine auf jede Maschine solange ssh, bis die keys wieder gepasst haben. (es waren eigentlich nur die gegenseitigen Keys von Knoten 2 und 3.
 
Update: auf keinem der drei Knoten läuft pvestatd, habe aber noch nicht herausgefunden, warum. Lässt sich auch nicht starten, erhält immer wieder timeout.
 
Update: systemctl restart pvestatd brachte dann die Lösung (allerdings hatte ich geraume Zeit vorher bereits irgendwelche .tmp.conf Dateien in den Orkus entsorgt gehabt).

Wie auch immer, danke für die Unterstützung.

ah, Käse, zu früh gefreut
 
Last edited:

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!