Guten Morgen werte Proxmox-Gemeinde.
Wir haben Probleme mit dem Backup eines Dreier-Cluster eines Kunden. Kurz zum Setup: 3 x Xeon Silver mit jeweils 32 vCPUs und 256GB RAM. Speicher für die VMs ist ein DellStorage SAN, das über iSCSI angebunden ist. Wir benutzen den Backup-Server Version 3.2 für die Backups der VMs. Ich habe die Systeme Anfang der Woche auf die aktuelle 8.2 beim PVE und 3.2 beim PBS geupgraded & rebooted.
Der Kunde hat uns kontaktiert weil er Emails bekommen hat, die monieren, dass einzelne Backups nicht durchgelaufen sind Der Kunde schreibt, daß es sich nicht immer um die selben VMs handelt. Diese Backups sind dann bei einer manuellen Kontrolle auf dem PBS auch nicht vorhanden, d.h. wir haben 5-12 und 5-14 aber nicht 5-13. Das Problem scheint aber darüber hinaus zu gehen, auch Backups ohne geloggte Fehlermeldung fehlen in unregelmäßigen Abständen. In der Email sieht man die Optionen mit der das Backup aufgerufen wurde und dort steht –all 1.
vzdump --all 1 --mailnotification always --storage pbs02 --mailto s.schumacher@foo.bar--prune-backups 'keep-daily=7,keep-monthly=6,keep-weekly=4' --mode snapshot --fleecing 0 --compress zstd --quiet 1. Ich nehme mal das Pruning raus - macht sowie der Server - und schaue ob ich quiet auf "0" setzen kann, damit wir mehr Infos bekommen.
Das hier habe ich von heute Nacht, d.h dem Morgen des 23.5.
Es folgen einige Auszüge aus dem Journal vom 22.5. Für den 23.5 sind keine solchen Einträge vorhanden.
Mai 22 00:00:40 GenerischerServerName pvescheduler[740117]: VM 103 qmp command failed - VM 103 qmp command 'backup' failed - backup connect failed: command error: Unable to acquire lock "/var/log/proxmox-backup/tasks/.active.lock" - Interrupted system call (os error 4)
Mai 22 00:00:40 GenerischerServerName pve-ha-lrm[740666]: VM 103 qmp command failed - VM 103 qmp command 'query-status' failed - got timeout
Mai 22 00:00:40 GenerischerServerName pve-ha-lrm[740666]: VM 103 qmp command 'query-status' failed - got timeout
Mai 22 00:00:40 GenerischerServerName pvescheduler[740117]: ERROR: Backup of VM 103 failed - VM 103 qmp command 'backup' failed - backup connect failed: command error: Unable to acquire lock "/var/log/proxmox-backup/tasks/.active.lock" - Interrupted system call (os error 4)
Mai 22 00:00:40 GenerischerServerName pvescheduler[740117]: INFO: Starting Backup of VM 104 (qemu)
Mai 22 00:00:40 GenerischerServerName pvestatd[2244]: status update time (8.076 seconds)
Mai 22 00:00:50 GenerischerServerName pvestatd[2244]: VM 104 qmp command failed - VM 104 qmp command 'query-proxmox-support' failed - got timeout
Mai 22 00:00:51 GenerischerServerName pvescheduler[740117]: VM 104 qmp command failed - VM 104 qmp command 'backup' failed - backup connect failed: command error: Unable to acquire lock "/var/log/proxmox-backup/tasks/.active.lock" - Interrupted system call (os error 4)
Mai 22 00:00:51 GenerischerServerName pvescheduler[740117]: ERROR: Backup of VM 104 failed - VM 104 qmp command 'backup' failed - backup connect failed: command error: Unable to acquire lock "/var/log/proxmox-backup/tasks/.active.lock" - Interrupted system call (os error 4)
Ich bin für jeden Hinweis wie ich das Problem lokalisieren und beheben kann dankbar.
Viele Grüße
Stefan
PS: Das gerade auf dem Journal des Hosts gefunden, der heute Nacht die Null-Bytes-Backups produziert hat. Wiederholt sich aber nicht.
May 23 00:32:12 kernel: connection1:0: ping timeout of 5 secs expired, recv timeout 5, last rx 4421986566, last p>
May 23 00:32:12 kernel: connection1:0: detected conn error (1022)
May 23 00:32:12 iscsid[1276]: Kernel reported iSCSI connection 1:0 error (1022 - ISCSI_ERR_NOP_TIMEDOUT: A NOP has>
May 23 00:32:15 iscsid[1276]: connection1:0 is operational after recovery (1 attempts)
May 23 00:32:15 kernel: sd 15:0:0:0: Mode parameters changed
Wir haben Probleme mit dem Backup eines Dreier-Cluster eines Kunden. Kurz zum Setup: 3 x Xeon Silver mit jeweils 32 vCPUs und 256GB RAM. Speicher für die VMs ist ein DellStorage SAN, das über iSCSI angebunden ist. Wir benutzen den Backup-Server Version 3.2 für die Backups der VMs. Ich habe die Systeme Anfang der Woche auf die aktuelle 8.2 beim PVE und 3.2 beim PBS geupgraded & rebooted.
Der Kunde hat uns kontaktiert weil er Emails bekommen hat, die monieren, dass einzelne Backups nicht durchgelaufen sind Der Kunde schreibt, daß es sich nicht immer um die selben VMs handelt. Diese Backups sind dann bei einer manuellen Kontrolle auf dem PBS auch nicht vorhanden, d.h. wir haben 5-12 und 5-14 aber nicht 5-13. Das Problem scheint aber darüber hinaus zu gehen, auch Backups ohne geloggte Fehlermeldung fehlen in unregelmäßigen Abständen. In der Email sieht man die Optionen mit der das Backup aufgerufen wurde und dort steht –all 1.
vzdump --all 1 --mailnotification always --storage pbs02 --mailto s.schumacher@foo.bar--prune-backups 'keep-daily=7,keep-monthly=6,keep-weekly=4' --mode snapshot --fleecing 0 --compress zstd --quiet 1. Ich nehme mal das Pruning raus - macht sowie der Server - und schaue ob ich quiet auf "0" setzen kann, damit wir mehr Infos bekommen.
VMID | NAME | STATUS | TIME | SIZE | FILENAME |
106 | vm106 | FAILED | 00:00:12 | VM 106 qmp command 'backup' failed - backup connect failed: command error: Unable to acquire lock "/var/log/proxmox-backup/tasks/.active.lock" - Interrupted system call (os error 4) | |
119 | vm119 | FAILED | 00:00:11 | VM 119 qmp command 'backup' failed - backup connect failed: command error: Unable to acquire lock "/var/log/proxmox-backup/tasks/.active.lock" - Interrupted system call (os error 4) |
Das hier habe ich von heute Nacht, d.h dem Morgen des 23.5.
VMID | Name | Status | Time | Size | Filename |
---|---|---|---|---|---|
101 | vm101-Gitlab | err | 14s | 0 B | null |
102 | vm102-checkmk | err | 12s | 0 B | null |
103 | vm103-wiki | err | 12s | 0 B | null |
104 | vm104 | err | 11s | 0 B | null |
Es folgen einige Auszüge aus dem Journal vom 22.5. Für den 23.5 sind keine solchen Einträge vorhanden.
Mai 22 00:00:40 GenerischerServerName pvescheduler[740117]: VM 103 qmp command failed - VM 103 qmp command 'backup' failed - backup connect failed: command error: Unable to acquire lock "/var/log/proxmox-backup/tasks/.active.lock" - Interrupted system call (os error 4)
Mai 22 00:00:40 GenerischerServerName pve-ha-lrm[740666]: VM 103 qmp command failed - VM 103 qmp command 'query-status' failed - got timeout
Mai 22 00:00:40 GenerischerServerName pve-ha-lrm[740666]: VM 103 qmp command 'query-status' failed - got timeout
Mai 22 00:00:40 GenerischerServerName pvescheduler[740117]: ERROR: Backup of VM 103 failed - VM 103 qmp command 'backup' failed - backup connect failed: command error: Unable to acquire lock "/var/log/proxmox-backup/tasks/.active.lock" - Interrupted system call (os error 4)
Mai 22 00:00:40 GenerischerServerName pvescheduler[740117]: INFO: Starting Backup of VM 104 (qemu)
Mai 22 00:00:40 GenerischerServerName pvestatd[2244]: status update time (8.076 seconds)
Mai 22 00:00:50 GenerischerServerName pvestatd[2244]: VM 104 qmp command failed - VM 104 qmp command 'query-proxmox-support' failed - got timeout
Mai 22 00:00:51 GenerischerServerName pvescheduler[740117]: VM 104 qmp command failed - VM 104 qmp command 'backup' failed - backup connect failed: command error: Unable to acquire lock "/var/log/proxmox-backup/tasks/.active.lock" - Interrupted system call (os error 4)
Mai 22 00:00:51 GenerischerServerName pvescheduler[740117]: ERROR: Backup of VM 104 failed - VM 104 qmp command 'backup' failed - backup connect failed: command error: Unable to acquire lock "/var/log/proxmox-backup/tasks/.active.lock" - Interrupted system call (os error 4)
Ich bin für jeden Hinweis wie ich das Problem lokalisieren und beheben kann dankbar.
Viele Grüße
Stefan
PS: Das gerade auf dem Journal des Hosts gefunden, der heute Nacht die Null-Bytes-Backups produziert hat. Wiederholt sich aber nicht.
May 23 00:32:12 kernel: connection1:0: ping timeout of 5 secs expired, recv timeout 5, last rx 4421986566, last p>
May 23 00:32:12 kernel: connection1:0: detected conn error (1022)
May 23 00:32:12 iscsid[1276]: Kernel reported iSCSI connection 1:0 error (1022 - ISCSI_ERR_NOP_TIMEDOUT: A NOP has>
May 23 00:32:15 iscsid[1276]: connection1:0 is operational after recovery (1 attempts)
May 23 00:32:15 kernel: sd 15:0:0:0: Mode parameters changed
Last edited: