qmp command 'query-proxmox-support' failed

CSakel

Member
Aug 4, 2020
10
2
8
22
prepaid-host.com
Hallo zusammen,

seitdem ich auf die neuste Proxmox Version geupgraded habe, habe ich das Problem das ein Hostsystem von mir Probleme macht.

Fehlermeldung:
8 21:18:22 grey pvestatd[1491]: VM 1415 qmp command failed - VM 1415 qmp command 'query-proxmox-support' failed - unable to connect to VM 1415 qmp socket - timeout after 31 retries


pveversion -v

proxmox-ve: 6.3-1 (running kernel: 5.4.101-1-pve)
pve-manager: 6.3-4 (running version: 6.3-4/0a38c56f)
pve-kernel-5.4: 6.3-6
pve-kernel-helper: 6.3-6
pve-kernel-5.4.101-1-pve: 5.4.101-1
pve-kernel-5.4.78-2-pve: 5.4.78-2
pve-kernel-5.4.73-1-pve: 5.4.73-1
ceph: 15.2.8-pve2
ceph-fuse: 15.2.8-pve2
corosync: 3.1.0-pve1
criu: 3.11-3
glusterfs-client: 5.5-3
ifupdown: residual config
ifupdown2: 3.0.0-1+pve3
ksmtuned: 4.20150325+b1
libjs-extjs: 6.0.1-10
libknet1: 1.20-pve1
libproxmox-acme-perl: 1.0.7
libproxmox-backup-qemu0: 1.0.3-1
libpve-access-control: 6.1-3
libpve-apiclient-perl: 3.1-3
libpve-common-perl: 6.3-4
libpve-guest-common-perl: 3.1-5
libpve-http-server-perl: 3.1-1
libpve-storage-perl: 6.3-7
libqb0: 1.0.5-1
libspice-server1: 0.14.2-4~pve6+1
lvm2: 2.03.02-pve4
lxc-pve: 4.0.6-2
lxcfs: 4.0.6-pve1
novnc-pve: 1.1.0-1
proxmox-backup-client: 1.0.8-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.4-5
pve-cluster: 6.2-1
pve-container: 3.3-4
pve-docs: 6.3-1
pve-edk2-firmware: 2.20200531-1
pve-firewall: 4.1-3
pve-firmware: 3.2-2
pve-ha-manager: 3.1-1
pve-i18n: 2.2-2
pve-qemu-kvm: 5.2.0-2
pve-xtermjs: 4.7.0-3
qemu-server: 6.3-5
smartmontools: 7.1-pve2
spiceterm: 3.1-1
vncterm: 1.6-2
zfsutils-linux: 2.0.3-pve2

service pveproxy status
● pveproxy.service - PVE API Proxy Server
Loaded: loaded (/lib/systemd/system/pveproxy.service; enabled; vendor preset: enabled)
Active: active (running) since Mon 2021-03-08 21:13:03 CET; 6min ago
Process: 221859 ExecStartPre=/usr/bin/pvecm updatecerts --silent (code=exited, status=0/SUCCESS)
Process: 221874 ExecStart=/usr/bin/pveproxy start (code=exited, status=0/SUCCESS)
Main PID: 221893 (pveproxy)
Tasks: 4 (limit: 6143)
Memory: 160.0M
CGroup: /system.slice/pveproxy.service
├─221893 pveproxy
├─221894 pveproxy worker
├─221895 pveproxy worker
└─221896 pveproxy worker

Mär 08 21:13:01 grey systemd[1]: Starting PVE API Proxy Server...
Mär 08 21:13:03 grey pveproxy[221874]: Using '/etc/pve/local/pveproxy-ssl.pem' as certificate for the web interface.
Mär 08 21:13:03 grey pveproxy[221893]: starting server
Mär 08 21:13:03 grey pveproxy[221893]: starting 3 worker(s)
Mär 08 21:13:03 grey pveproxy[221893]: worker 221894 started
Mär 08 21:13:03 grey pveproxy[221893]: worker 221895 started
Mär 08 21:13:03 grey pveproxy[221893]: worker 221896 started
Mär 08 21:13:03 grey systemd[1]: Started PVE API Proxy Server.


service pve-cluster status
● pve-cluster.service - The Proxmox VE cluster filesystem
Loaded: loaded (/lib/systemd/system/pve-cluster.service; enabled; vendor preset: enabled)
Active: active (running) since Mon 2021-03-08 14:14:41 CET; 7h ago
Process: 1413 ExecStart=/usr/bin/pmxcfs (code=exited, status=0/SUCCESS)
Main PID: 1416 (pmxcfs)
Tasks: 10 (limit: 6143)
Memory: 76.0M
CGroup: /system.slice/pve-cluster.service
└─1416 /usr/bin/pmxcfs

Mär 08 21:20:12 grey pmxcfs[1416]: [status] notice: received log
Mär 08 21:20:12 grey pmxcfs[1416]: [status] notice: received log
Mär 08 21:20:15 grey pmxcfs[1416]: [status] notice: received log
Mär 08 21:20:16 grey pmxcfs[1416]: [status] notice: received log
Mär 08 21:20:16 grey pmxcfs[1416]: [status] notice: received log
Mär 08 21:20:18 grey pmxcfs[1416]: [status] notice: received log
Mär 08 21:20:18 grey pmxcfs[1416]: [status] notice: received log
Mär 08 21:20:25 grey pmxcfs[1416]: [status] notice: received log
Mär 08 21:20:25 grey pmxcfs[1416]: [status] notice: received log
Mär 08 21:20:25 grey pmxcfs[1416]: [status] notice: received log


service corosync status
● corosync.service - Corosync Cluster Engine
Loaded: loaded (/lib/systemd/system/corosync.service; enabled; vendor preset: enabled)
Active: active (running) since Mon 2021-03-08 14:14:42 CET; 7h ago
Docs: man:corosync
man:corosync.conf
man:corosync_overview
Main PID: 1427 (corosync)
Tasks: 9 (limit: 6143)
Memory: 154.6M
CGroup: /system.slice/corosync.service
└─1427 /usr/sbin/corosync -f

Mär 08 18:36:01 grey corosync[1427]: [TOTEM ] Retransmit List: 18ae4
Mär 08 18:36:01 grey corosync[1427]: [TOTEM ] Retransmit List: 18ae6
Mär 08 18:36:01 grey corosync[1427]: [TOTEM ] Retransmit List: 18ae8
Mär 08 18:36:01 grey corosync[1427]: [TOTEM ] Retransmit List: 18aec
Mär 08 18:36:02 grey corosync[1427]: [TOTEM ] Retransmit List: 18af8
Mär 08 18:36:02 grey corosync[1427]: [TOTEM ] Retransmit List: 18afa
Mär 08 18:36:02 grey corosync[1427]: [TOTEM ] Retransmit List: 18afd
Mär 08 18:36:02 grey corosync[1427]: [TOTEM ] Retransmit List: 18b00
Mär 08 18:36:02 grey corosync[1427]: [TOTEM ] Retransmit List: 18b02
Mär 08 19:26:18 grey corosync[1427]: [TOTEM ] Retransmit List: 2232b
 
VM Config:

Code:
agent: 1
boot: cda
bootdisk: scsi0
cores: 4
cpu: kvm64
cpulimit: 4
memory: 8192
name: mail01
net0: virtio=2E:32:77:CA:F6:CB,bridge=vmbr0
numa: 0
onboot: 1
ostype: l26
scsi0: local:102/vm-102-disk-0.qcow2,cache=none,iops=0,mbps_rd=0,mbps_wr=0
scsihw: virtio-scsi-pci
smbios1: uuid=bb9951bc-054f-4a77-baef-fd6d8ff9d83b
sockets: 1
vmgenid: 06f2ff83-f8b9-4434-8430-36939ba8f8ad

Das Problem tritt bei mir jetzt nicht direkt nach einem Backup, einseitig tritt es einfach nach einer Zeit auf ca. 1 Tag oder es wird ein Backup gemacht.
 
Habe genau das gleiche Problem. Meine Servermaschine hängt sich dann in der Regel auf und kann nur noch über [Stop] wieder gestartet werden. Passiert nur auf einem host.
 
Habe genau das gleiche Problem. Meine Servermaschine hängt sich dann in der Regel auf und kann nur noch über [Stop] wieder gestartet werden. Passiert nur auf einem host.

Bei mir war das Problem ebenfalls nur einem Host, gestern waren Proxmox Updates verfügbar nach der Installation ist mir das Problem nicht mehr aufgetreten. Installier am besten mal die neusten Updates.
 
Kannst du bitte eine VM config posten, qm config VMID.

Passiert es immer, oder nur nach/bei backups, o.ä.?
qm config 100
agent: 1
boot: order=scsi0;ide2;net0
cores: 1
memory: 2048
name: pve-gateway
net0: virtio=22:A4:05:75:1A:2F,bridge=vmbr0,firewall=1
net1: virtio=E2:F9:3B:90:74:36,bridge=vmbr1,firewall=1
numa: 0
onboot: 1
ostype: l26
scsi0: ssd-rep-3:vm-100-disk-0,cache=unsafe,discard=on,size=40G
scsihw: virtio-scsi-pci
smbios1: uuid=ae0c4624-0efa-4183-a610-eda41d75d340
sockets: 1
vmgenid: f9c675ec-5c60-4931-8b01-9f1cf96a5e04

Der Fehler tritt einfach so Random auf. Diesen Fehler hatte ich jetzt auf 4 Hostsystemen mit 2x E5 2680 v2 gehabt. Mit einem Downgrade(apt install pve-qemu-kvm=5.1.0-8 libproxmox-backup-qemu0=1.0.2-1) und einem anschließenden Reboot konnte ich den Fehler beheben. Auf meinen AMD EPYC 7402P Systemen läuft die neue Version ohne Probleme.
 
Leider wurde anscheinend das Problem nicht durch das letzte Update behoben ist heute erneut aufgetreten. Das ist heute mittlerweile bei ca. 10 VM's aufgetreten.

Mar 18 07:38:54 vhost06 pvestatd[2034]: VM 1192 qmp command failed - VM 1192 qmp command 'query-proxmox-support' failed - unable to connect to VM 1192 qmp socket - timeout after 31 retries
 
Bei mir leider das gleiche. Nach dem Update lief es ein paar Tage. Jetzt habe ich das Problem wieder, allerdings bei einer anderen VM. Allerdings auf einem anderen Host. Alles Xeon Prozessoren.
 
Last edited:
Klingt nach dem gleichen Bug wie bei mir. Hier ist eine Lösung die bei mir funktionierte. Müsst ihr mal versuchen "pve-qemu-kvm 5.2.0-4" aus dem Test-Repo zu installieren.
 
Last edited:
Leider habe ich immer noch die gleichen Probleme. Das Update hat keine Abhilfe gebracht. Ich habe jetzt die Datensicherung auf den PBS ausgesetzt. Die Datensicherung auf externes NFS läuft noch und hat bisher immer gut funktioniert.
 
Leider habe ich immer noch die gleichen Probleme. Das Update hat keine Abhilfe gebracht. Ich habe jetzt die Datensicherung auf den PBS ausgesetzt. Die Datensicherung auf externes NFS läuft noch und hat bisher immer gut funktioniert.

Den folgenden Hinweis hast' eh beachtet?
Remember, you always need to either fully restart the VM after the upgrade or migrate it to an upgraded PVE node, else the VM is still running the older QEMU version, and you won't have the fix active.
Also VMs komplett neugestartet oder zu einem Host migriert welcher schon auf die neue QEMU Version upgedatet wurde.
 
Den folgenden Hinweis hast' eh beachtet?

Also VMs komplett neugestartet oder zu einem Host migriert welcher schon auf die neue QEMU Version upgedatet wurde.
ja, habe ich gemacht. Heute morgen liefen alle VMs. Ich hatte wie gesagt die Datensicherung auf den PBS gestern abgeschaltet.
 
Last edited:
Jetzt läuft es seit Freitag ohne Probleme. Es scheint mit dem PBS zusammenzuhängen. Probleme gibt es wohl mit der Snapshot-Datensicherung. Ich habe zwei Suspend-Sicherungen ausprobiert. Die liefen ohne Probleme. Ich werde auf das nächste Update warten, bevor ich PBS wieder einsetze.
 
Jetzt läuft es seit Freitag ohne Probleme. Es scheint mit dem PBS zusammenzuhängen. Probleme gibt es wohl mit der Snapshot-Datensicherung. Ich habe zwei Suspend-Sicherungen ausprobiert. Die liefen ohne Probleme. Ich werde auf das nächste Update warten, bevor ich PBS wieder einsetze.
FYI: Wo das Problem initial in Forum gemeldet wurde habe ich zu den anderen Tests extra noch eine alte/lahme core2duo Kiste genommen, ein Paar VMs drauf gemacht und im Minutentakt für mehrere Tage auf ein externes PBS Instanz gesichert.
Waren über 10 Tausend einzelne Backups nur von dem Server, ohne dass eine der VMs hing, ein Backup fehlgeschlagen ist o.ä. Fehler, ein Grundproblem kann man hier also ausschließen.

Es wäre also Interessant zu wissen welcher Teil deines Setups so ein verhalten provozieren kann.
Welchen Storage verwenden die VMs, welchen die PBS Instanz?
Welche CPUs sind im einsatz, wie viel Last ist auf den Systemen, ...?
 
Betroffen waren folgende VM-Storages:

qcow2 auf NFS (Freenas) und Raw auf ISCSI (Freenas)

Auf dem PBS:

ZFS lokal

CPUs Hosts: Xeon E5-2420 und E5-2407

CPU PBS: Core i3-2100

Auf dem PBS sind recht hohe Systemlasten, Speicher und CPU bei Sicherung jeweils > 75 %.

Auf den Hosts sind die Lasten gering, auch bei Sicherung CPU < 30% und Speicher je nach eingeschalteten VMs
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!