Einzelner Cluster macht Probleme beim Backup

May 4, 2021
91
2
13
43
Guten Morgen werte Proxmox-Gemeinde.


Wir haben Probleme mit dem Backup eines Dreier-Cluster eines Kunden. Kurz zum Setup: 3 x Xeon Silver mit jeweils 32 vCPUs und 256GB RAM. Speicher für die VMs ist ein DellStorage SAN, das über iSCSI angebunden ist. Wir benutzen den Backup-Server Version 3.2 für die Backups der VMs. Ich habe die Systeme Anfang der Woche auf die aktuelle 8.2 beim PVE und 3.2 beim PBS geupgraded & rebooted.

Der Kunde hat uns kontaktiert weil er Emails bekommen hat, die monieren, dass einzelne Backups nicht durchgelaufen sind Der Kunde schreibt, daß es sich nicht immer um die selben VMs handelt. Diese Backups sind dann bei einer manuellen Kontrolle auf dem PBS auch nicht vorhanden, d.h. wir haben 5-12 und 5-14 aber nicht 5-13. Das Problem scheint aber darüber hinaus zu gehen, auch Backups ohne geloggte Fehlermeldung fehlen in unregelmäßigen Abständen. In der Email sieht man die Optionen mit der das Backup aufgerufen wurde und dort steht –all 1.

vzdump --all 1 --mailnotification always --storage pbs02 --mailto s.schumacher@foo.bar--prune-backups 'keep-daily=7,keep-monthly=6,keep-weekly=4' --mode snapshot --fleecing 0 --compress zstd --quiet 1. Ich nehme mal das Pruning raus - macht sowie der Server - und schaue ob ich quiet auf "0" setzen kann, damit wir mehr Infos bekommen.


VMIDNAMESTATUSTIMESIZEFILENAME
106vm106FAILED00:00:12VM 106 qmp command 'backup' failed - backup connect failed: command error: Unable to acquire lock "/var/log/proxmox-backup/tasks/.active.lock" - Interrupted system call (os error 4)
119vm119FAILED00:00:11VM 119 qmp command 'backup' failed - backup connect failed: command error: Unable to acquire lock "/var/log/proxmox-backup/tasks/.active.lock" - Interrupted system call (os error 4)


Das hier habe ich von heute Nacht, d.h dem Morgen des 23.5.

VMIDNameStatusTimeSizeFilename
101vm101-Gitlaberr14s0 Bnull
102vm102-checkmkerr12s0 Bnull
103vm103-wikierr12s0 Bnull
104vm104err11s0 Bnull


Es folgen einige Auszüge aus dem Journal vom 22.5. Für den 23.5 sind keine solchen Einträge vorhanden.

Mai 22 00:00:40 GenerischerServerName pvescheduler[740117]: VM 103 qmp command failed - VM 103 qmp command 'backup' failed - backup connect failed: command error: Unable to acquire lock "/var/log/proxmox-backup/tasks/.active.lock" - Interrupted system call (os error 4)

Mai 22 00:00:40 GenerischerServerName pve-ha-lrm[740666]: VM 103 qmp command failed - VM 103 qmp command 'query-status' failed - got timeout

Mai 22 00:00:40 GenerischerServerName pve-ha-lrm[740666]: VM 103 qmp command 'query-status' failed - got timeout

Mai 22 00:00:40 GenerischerServerName pvescheduler[740117]: ERROR: Backup of VM 103 failed - VM 103 qmp command 'backup' failed - backup connect failed: command error: Unable to acquire lock "/var/log/proxmox-backup/tasks/.active.lock" - Interrupted system call (os error 4)

Mai 22 00:00:40 GenerischerServerName pvescheduler[740117]: INFO: Starting Backup of VM 104 (qemu)

Mai 22 00:00:40 GenerischerServerName pvestatd[2244]: status update time (8.076 seconds)

Mai 22 00:00:50 GenerischerServerName pvestatd[2244]: VM 104 qmp command failed - VM 104 qmp command 'query-proxmox-support' failed - got timeout

Mai 22 00:00:51 GenerischerServerName pvescheduler[740117]: VM 104 qmp command failed - VM 104 qmp command 'backup' failed - backup connect failed: command error: Unable to acquire lock "/var/log/proxmox-backup/tasks/.active.lock" - Interrupted system call (os error 4)

Mai 22 00:00:51 GenerischerServerName pvescheduler[740117]: ERROR: Backup of VM 104 failed - VM 104 qmp command 'backup' failed - backup connect failed: command error: Unable to acquire lock "/var/log/proxmox-backup/tasks/.active.lock" - Interrupted system call (os error 4)



Ich bin für jeden Hinweis wie ich das Problem lokalisieren und beheben kann dankbar.



Viele Grüße
Stefan

PS: Das gerade auf dem Journal des Hosts gefunden, der heute Nacht die Null-Bytes-Backups produziert hat. Wiederholt sich aber nicht.

May 23 00:32:12 kernel: connection1:0: ping timeout of 5 secs expired, recv timeout 5, last rx 4421986566, last p>
May 23 00:32:12 kernel: connection1:0: detected conn error (1022)
May 23 00:32:12 iscsid[1276]: Kernel reported iSCSI connection 1:0 error (1022 - ISCSI_ERR_NOP_TIMEDOUT: A NOP has>
May 23 00:32:15 iscsid[1276]: connection1:0 is operational after recovery (1 attempts)
May 23 00:32:15 kernel: sd 15:0:0:0: Mode parameters changed
 
Last edited:
Hi,

auch ohne dein P.S. Kommentar hätte ich erst einmal auf Netzwerkprobleme getippt.
Sind da zufällig Broadcom NICs drin? Mit denen habe ich beim 6.8er Kernel manchmal das Problem, dass die nicht korrekt hoch kommen beim Boot.
Außerdem hat sich in dem Kernel wohl auch etwas im LACP Handling geändert.
Teste mal einen Kernel Pin auf 6.5, wenn die Phänomene dann weg sind, wie alle anderen auf einen Fix des Kernels warten.
 
Hallo Falk,

Danke für die schnelle Antwort. Nein, die Rechner haben Netzwerkkarten von Supermicro, laut lspci sind die Chips von Intel. (af:00.1 Ethernet controller: Intel Corporation Ethernet Controller 10-Gigabit X540-AT2 (rev 01))
Der Rechner ist erst seit dem 21. Mai auf Proxmox 8.2 auf, vorher lief Proxmox 7.4, noch mit einem 5er Kernel. Jetzt läuft 6.8.4-3-pve.
Ich habe jetzt statt --all 1 separate Jobs, jeweils eine Stunde zeitverzögert, für jede einzelne Node gestartet. Ich habe mir heute morgen die Logs des Wochenendes angesehen und dort gab es wohl keinen Ausfälle. Ich beobachte das Ganze erstmal weiter, bin noch skeptisch ob das schon die Lösung für das Problem war.

Viele Grüße
Stefan
 
Last edited:
Wenn das Problem dann weg ist, solltest du dir noch dringender dein Netzwerk anschauen.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!