qmp command 'query-proxmox-support' failed

CSakel · Mar 8, 2021

Hallo zusammen,

seitdem ich auf die neuste Proxmox Version geupgraded habe, habe ich das Problem das ein Hostsystem von mir Probleme macht.

Fehlermeldung:
8 21:18:22 grey pvestatd[1491]: VM 1415 qmp command failed - VM 1415 qmp command 'query-proxmox-support' failed - unable to connect to VM 1415 qmp socket - timeout after 31 retries

pveversion -v
proxmox-ve: 6.3-1 (running kernel: 5.4.101-1-pve)
pve-manager: 6.3-4 (running version: 6.3-4/0a38c56f)
pve-kernel-5.4: 6.3-6
pve-kernel-helper: 6.3-6
pve-kernel-5.4.101-1-pve: 5.4.101-1
pve-kernel-5.4.78-2-pve: 5.4.78-2
pve-kernel-5.4.73-1-pve: 5.4.73-1
ceph: 15.2.8-pve2
ceph-fuse: 15.2.8-pve2
corosync: 3.1.0-pve1
criu: 3.11-3
glusterfs-client: 5.5-3
ifupdown: residual config
ifupdown2: 3.0.0-1+pve3
ksmtuned: 4.20150325+b1
libjs-extjs: 6.0.1-10
libknet1: 1.20-pve1
libproxmox-acme-perl: 1.0.7
libproxmox-backup-qemu0: 1.0.3-1
libpve-access-control: 6.1-3
libpve-apiclient-perl: 3.1-3
libpve-common-perl: 6.3-4
libpve-guest-common-perl: 3.1-5
libpve-http-server-perl: 3.1-1
libpve-storage-perl: 6.3-7
libqb0: 1.0.5-1
libspice-server1: 0.14.2-4~pve6+1
lvm2: 2.03.02-pve4
lxc-pve: 4.0.6-2
lxcfs: 4.0.6-pve1
novnc-pve: 1.1.0-1
proxmox-backup-client: 1.0.8-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.4-5
pve-cluster: 6.2-1
pve-container: 3.3-4
pve-docs: 6.3-1
pve-edk2-firmware: 2.20200531-1
pve-firewall: 4.1-3
pve-firmware: 3.2-2
pve-ha-manager: 3.1-1
pve-i18n: 2.2-2
pve-qemu-kvm: 5.2.0-2
pve-xtermjs: 4.7.0-3
qemu-server: 6.3-5
smartmontools: 7.1-pve2
spiceterm: 3.1-1
vncterm: 1.6-2
zfsutils-linux: 2.0.3-pve2

service pveproxy status
● pveproxy.service - PVE API Proxy Server
Loaded: loaded (/lib/systemd/system/pveproxy.service; enabled; vendor preset: enabled)
Active: active (running) since Mon 2021-03-08 21:13:03 CET; 6min ago
Process: 221859 ExecStartPre=/usr/bin/pvecm updatecerts --silent (code=exited, status=0/SUCCESS)
Process: 221874 ExecStart=/usr/bin/pveproxy start (code=exited, status=0/SUCCESS)
Main PID: 221893 (pveproxy)
Tasks: 4 (limit: 6143)
Memory: 160.0M
CGroup: /system.slice/pveproxy.service
├─221893 pveproxy
├─221894 pveproxy worker
├─221895 pveproxy worker
└─221896 pveproxy worker

Mär 08 21:13:01 grey systemd[1]: Starting PVE API Proxy Server...
Mär 08 21:13:03 grey pveproxy[221874]: Using '/etc/pve/local/pveproxy-ssl.pem' as certificate for the web interface.
Mär 08 21:13:03 grey pveproxy[221893]: starting server
Mär 08 21:13:03 grey pveproxy[221893]: starting 3 worker(s)
Mär 08 21:13:03 grey pveproxy[221893]: worker 221894 started
Mär 08 21:13:03 grey pveproxy[221893]: worker 221895 started
Mär 08 21:13:03 grey pveproxy[221893]: worker 221896 started
Mär 08 21:13:03 grey systemd[1]: Started PVE API Proxy Server.

service pve-cluster status
● pve-cluster.service - The Proxmox VE cluster filesystem
Loaded: loaded (/lib/systemd/system/pve-cluster.service; enabled; vendor preset: enabled)
Active: active (running) since Mon 2021-03-08 14:14:41 CET; 7h ago
Process: 1413 ExecStart=/usr/bin/pmxcfs (code=exited, status=0/SUCCESS)
Main PID: 1416 (pmxcfs)
Tasks: 10 (limit: 6143)
Memory: 76.0M
CGroup: /system.slice/pve-cluster.service
└─1416 /usr/bin/pmxcfs

Mär 08 21:20:12 grey pmxcfs[1416]: [status] notice: received log
Mär 08 21:20:12 grey pmxcfs[1416]: [status] notice: received log
Mär 08 21:20:15 grey pmxcfs[1416]: [status] notice: received log
Mär 08 21:20:16 grey pmxcfs[1416]: [status] notice: received log
Mär 08 21:20:16 grey pmxcfs[1416]: [status] notice: received log
Mär 08 21:20:18 grey pmxcfs[1416]: [status] notice: received log
Mär 08 21:20:18 grey pmxcfs[1416]: [status] notice: received log
Mär 08 21:20:25 grey pmxcfs[1416]: [status] notice: received log
Mär 08 21:20:25 grey pmxcfs[1416]: [status] notice: received log
Mär 08 21:20:25 grey pmxcfs[1416]: [status] notice: received log

service corosync status
● corosync.service - Corosync Cluster Engine
Loaded: loaded (/lib/systemd/system/corosync.service; enabled; vendor preset: enabled)
Active: active (running) since Mon 2021-03-08 14:14:42 CET; 7h ago
Docs: man:corosync
man:corosync.conf
man:corosync_overview
Main PID: 1427 (corosync)
Tasks: 9 (limit: 6143)
Memory: 154.6M
CGroup: /system.slice/corosync.service
└─1427 /usr/sbin/corosync -f

Mär 08 18:36:01 grey corosync[1427]: [TOTEM ] Retransmit List: 18ae4
Mär 08 18:36:01 grey corosync[1427]: [TOTEM ] Retransmit List: 18ae6
Mär 08 18:36:01 grey corosync[1427]: [TOTEM ] Retransmit List: 18ae8
Mär 08 18:36:01 grey corosync[1427]: [TOTEM ] Retransmit List: 18aec
Mär 08 18:36:02 grey corosync[1427]: [TOTEM ] Retransmit List: 18af8
Mär 08 18:36:02 grey corosync[1427]: [TOTEM ] Retransmit List: 18afa
Mär 08 18:36:02 grey corosync[1427]: [TOTEM ] Retransmit List: 18afd
Mär 08 18:36:02 grey corosync[1427]: [TOTEM ] Retransmit List: 18b00
Mär 08 18:36:02 grey corosync[1427]: [TOTEM ] Retransmit List: 18b02
Mär 08 19:26:18 grey corosync[1427]: [TOTEM ] Retransmit List: 2232b

MG_100 · Mar 10, 2021

Hey,
Ich hab das selbe Problem

t.lamprecht · Mar 10, 2021

Kannst du bitte eine VM config posten, qm config VMID.

Passiert es immer, oder nur nach/bei backups, o.ä.?

MG_100 · Mar 10, 2021

VM Config:

Code:

agent: 1
boot: cda
bootdisk: scsi0
cores: 4
cpu: kvm64
cpulimit: 4
memory: 8192
name: mail01
net0: virtio=2E:32:77:CA:F6:CB,bridge=vmbr0
numa: 0
onboot: 1
ostype: l26
scsi0: local:102/vm-102-disk-0.qcow2,cache=none,iops=0,mbps_rd=0,mbps_wr=0
scsihw: virtio-scsi-pci
smbios1: uuid=bb9951bc-054f-4a77-baef-fd6d8ff9d83b
sockets: 1
vmgenid: 06f2ff83-f8b9-4434-8430-36939ba8f8ad

Das Problem tritt bei mir jetzt nicht direkt nach einem Backup, einseitig tritt es einfach nach einer Zeit auf ca. 1 Tag oder es wird ein Backup gemacht.

Mattthias WW · Mar 12, 2021

Habe genau das gleiche Problem. Meine Servermaschine hängt sich dann in der Regel auf und kann nur noch über [Stop] wieder gestartet werden. Passiert nur auf einem host.

MG_100 · Mar 12, 2021

Mattthias WW said:
Habe genau das gleiche Problem. Meine Servermaschine hängt sich dann in der Regel auf und kann nur noch über [Stop] wieder gestartet werden. Passiert nur auf einem host.

Bei mir war das Problem ebenfalls nur einem Host, gestern waren Proxmox Updates verfügbar nach der Installation ist mir das Problem nicht mehr aufgetreten. Installier am besten mal die neusten Updates.

Mattthias WW · Mar 14, 2021

Habe auf den neuesten Stand geupdatet. Mal schauen, ob es jetzt funktioniert. Danke für den Tip!

CSakel · Mar 14, 2021

t.lamprecht said:
Kannst du bitte eine VM config posten, qm config VMID.

Passiert es immer, oder nur nach/bei backups, o.ä.?

qm config 100
agent: 1
boot: order=scsi0;ide2;net0
cores: 1
memory: 2048
name: pve-gateway
net0: virtio=22:A4:05:75:1A:2F,bridge=vmbr0,firewall=1
net1: virtio=E2:F9:3B:90:74:36,bridge=vmbr1,firewall=1
numa: 0
onboot: 1
ostype: l26
scsi0: ssd-rep-3:vm-100-disk-0,cache=unsafe,discard=on,size=40G
scsihw: virtio-scsi-pci
smbios1: uuid=ae0c4624-0efa-4183-a610-eda41d75d340
sockets: 1
vmgenid: f9c675ec-5c60-4931-8b01-9f1cf96a5e04

Der Fehler tritt einfach so Random auf. Diesen Fehler hatte ich jetzt auf 4 Hostsystemen mit 2x E5 2680 v2 gehabt. Mit einem Downgrade(apt install pve-qemu-kvm=5.1.0-8 libproxmox-backup-qemu0=1.0.2-1) und einem anschließenden Reboot konnte ich den Fehler beheben. Auf meinen AMD EPYC 7402P Systemen läuft die neue Version ohne Probleme.

MG_100 · Mar 18, 2021

Leider wurde anscheinend das Problem nicht durch das letzte Update behoben ist heute erneut aufgetreten. Das ist heute mittlerweile bei ca. 10 VM's aufgetreten.

Mar 18 07:38:54 vhost06 pvestatd[2034]: VM 1192 qmp command failed - VM 1192 qmp command 'query-proxmox-support' failed - unable to connect to VM 1192 qmp socket - timeout after 31 retries

Mattthias WW · Mar 24, 2021

Bei mir leider das gleiche. Nach dem Update lief es ein paar Tage. Jetzt habe ich das Problem wieder, allerdings bei einer anderen VM. Allerdings auf einem anderen Host. Alles Xeon Prozessoren.

Dunuin · Mar 24, 2021

Klingt nach dem gleichen Bug wie bei mir. Hier ist eine Lösung die bei mir funktionierte. Müsst ihr mal versuchen "pve-qemu-kvm 5.2.0-4" aus dem Test-Repo zu installieren.

Mattthias WW · Mar 24, 2021

Habe ich gerade installiert. Mal schauen, ob das Abhilfe bringt.

CSakel · Mar 24, 2021

Vielen Dank für den Tipp Dunuin!
Es wäre Nett wenn Ihr beide mir Feedback in ein paar Tagen geben könntet

Mattthias WW · Mar 25, 2021

Leider habe ich immer noch die gleichen Probleme. Das Update hat keine Abhilfe gebracht. Ich habe jetzt die Datensicherung auf den PBS ausgesetzt. Die Datensicherung auf externes NFS läuft noch und hat bisher immer gut funktioniert.

t.lamprecht · Mar 25, 2021

Mattthias WW said:
Leider habe ich immer noch die gleichen Probleme. Das Update hat keine Abhilfe gebracht. Ich habe jetzt die Datensicherung auf den PBS ausgesetzt. Die Datensicherung auf externes NFS läuft noch und hat bisher immer gut funktioniert.

Den folgenden Hinweis hast' eh beachtet?

t.lamprecht said:
Remember, you always need to either fully restart the VM after the upgrade or migrate it to an upgraded PVE node, else the VM is still running the older QEMU version, and you won't have the fix active.

Also VMs komplett neugestartet oder zu einem Host migriert welcher schon auf die neue QEMU Version upgedatet wurde.

Mattthias WW · Mar 26, 2021

t.lamprecht said:
Den folgenden Hinweis hast' eh beachtet?

Also VMs komplett neugestartet oder zu einem Host migriert welcher schon auf die neue QEMU Version upgedatet wurde.

ja, habe ich gemacht. Heute morgen liefen alle VMs. Ich hatte wie gesagt die Datensicherung auf den PBS gestern abgeschaltet.

CSakel · Mar 30, 2021

Mattthias WW said:
ja, habe ich gemacht. Heute morgen liefen alle VMs. Ich hatte wie gesagt die Datensicherung auf den PBS gestern abgeschaltet.

Läuft es bei dir nun ohne den PBS Stabil?

Mattthias WW · Mar 30, 2021

Jetzt läuft es seit Freitag ohne Probleme. Es scheint mit dem PBS zusammenzuhängen. Probleme gibt es wohl mit der Snapshot-Datensicherung. Ich habe zwei Suspend-Sicherungen ausprobiert. Die liefen ohne Probleme. Ich werde auf das nächste Update warten, bevor ich PBS wieder einsetze.

t.lamprecht · Mar 30, 2021

Mattthias WW said:
Jetzt läuft es seit Freitag ohne Probleme. Es scheint mit dem PBS zusammenzuhängen. Probleme gibt es wohl mit der Snapshot-Datensicherung. Ich habe zwei Suspend-Sicherungen ausprobiert. Die liefen ohne Probleme. Ich werde auf das nächste Update warten, bevor ich PBS wieder einsetze.

FYI: Wo das Problem initial in Forum gemeldet wurde habe ich zu den anderen Tests extra noch eine alte/lahme core2duo Kiste genommen, ein Paar VMs drauf gemacht und im Minutentakt für mehrere Tage auf ein externes PBS Instanz gesichert.
Waren über 10 Tausend einzelne Backups nur von dem Server, ohne dass eine der VMs hing, ein Backup fehlgeschlagen ist o.ä. Fehler, ein Grundproblem kann man hier also ausschließen.

Es wäre also Interessant zu wissen welcher Teil deines Setups so ein verhalten provozieren kann.
Welchen Storage verwenden die VMs, welchen die PBS Instanz?
Welche CPUs sind im einsatz, wie viel Last ist auf den Systemen, ...?

Mattthias WW · Mar 30, 2021

Betroffen waren folgende VM-Storages:

qcow2 auf NFS (Freenas) und Raw auf ISCSI (Freenas)

Auf dem PBS:

ZFS lokal

CPUs Hosts: Xeon E5-2420 und E5-2407

CPU PBS: Core i3-2100

Auf dem PBS sind recht hohe Systemlasten, Speicher und CPU bei Sicherung jeweils > 75 %.

Auf den Hosts sind die Lasten gering, auch bei Sicherung CPU < 30% und Speicher je nach eingeschalteten VMs

qmp command 'query-proxmox-support' failed

Member

Active Member

Proxmox Staff Member

Active Member

Member

Active Member

Member

Member

Active Member

Member

Distinguished Member

Member

Member

Member

Proxmox Staff Member

Member

Member

Member

Proxmox Staff Member

Member

We value your privacy