Hallo Leute,
ich habe vor ein paar Wochen von 5.1 auf 5.2 aktualisiert und seitdem bleibt mir nun alle 1-2 Tage ein Backup "hängen".
Das Procedere:
In der Früh schau ich mir die Logs an und sehe "backup failed: multiple problems" dann verbinde ich mich mit dem Cluster und sehe das ein Backup Task nach wie vor läuft.
Wenn ich mir der Task anschaue:
Dann klicke ich auf stop und erhalte folgenden Output:
Anschließend ist zum einen der CT immer locked (die wird von mir händisch unlocked) und zum anderen wenn ich wieder ein Backup machen will:
Also entferne ich den Snapshot mittels:
Und versuche das Backup nochmals durchzuführen aber leider:
Also prüfe ich noch wer das rbd gemapped hat mit:
und erhalte:
Das ist die Ceph IP des Nodes auf dem ich Backup machen wollte...
Mein Workaround ist dann: CT migrieren und Node neustarten, dann klappt es wieder für 1-2 Tage...
Ich hoffe das Problem ist euch irgendwie bekannt und ihr könnt mir helfen.
Danke
ich habe vor ein paar Wochen von 5.1 auf 5.2 aktualisiert und seitdem bleibt mir nun alle 1-2 Tage ein Backup "hängen".
Das Procedere:
In der Früh schau ich mir die Logs an und sehe "backup failed: multiple problems" dann verbinde ich mich mit dem Cluster und sehe das ein Backup Task nach wie vor läuft.
Wenn ich mir der Task anschaue:
Code:
INFO: Starting Backup of VM 208 (lxc)
INFO: status = running
INFO: CT Name: www.example.com
INFO: backup mode: snapshot
INFO: ionice priority: 7
INFO: create storage snapshot 'vzdump'
/dev/rbd7
INFO: creating archive '/mnt/pve/Backup/dump/vzdump-lxc-208-2018_06_05-23_19_27.tar.lzo'
Code:
INFO: remove vzdump snapshot
rbd: sysfs write failed
can't unmap rbd volume vm-208-disk-1: rbd: sysfs write failed
ERROR: Backup of VM 208 failed - command 'set -o pipefail && tar cpf - --totals --one-file-system -p --sparse --numeric-owner --acls --xattrs '--xattrs-include=user.*' '--xattrs-include=security.capability' '--warning=no-file-ignored' '--warning=no-xattr-write' --one-file-system '--warning=no-file-ignored' '--directory=/mnt/pve/Backup/dump/vzdump-lxc-208-2018_06_05-23_19_27.tmp' ./etc/vzdump/pct.conf '--directory=/mnt/vzsnap0' --no-anchored '--exclude=lost+found' --anchored '--exclude=./tmp/?*' '--exclude=./var/tmp/?*' '--exclude=./var/run/?*.pid' ./ | lzop >/mnt/pve/Backup/dump/vzdump-lxc-208-2018_06_05-23_19_27.tar.dat' failed: interrupted by signal
Anschließend ist zum einen der CT immer locked (die wird von mir händisch unlocked) und zum anderen wenn ich wieder ein Backup machen will:
Code:
INFO: starting new backup job: vzdump 208 --remove 0 --mode snapshot --compress lzo --node ceph7 --storage Backup
INFO: Starting Backup of VM 208 (lxc)
INFO: status = running
INFO: CT Name: www.example.com
INFO: found old vzdump snapshot (force removal)
rbd: sysfs write failed
can't unmap rbd volume vm-208-disk-1: rbd: sysfs write failed
INFO: backup mode: snapshot
INFO: ionice priority: 7
INFO: create storage snapshot 'vzdump'
snapshot create failed: starting cleanup
no lock found trying to remove 'backup' lock
ERROR: Backup of VM 208 failed - rbd snapshot 'vm-208-disk-1' error: rbd: failed to create snapshot: (17) File exists
INFO: Backup job finished with errors
TASK ERROR: job errors
Also entferne ich den Snapshot mittels:
Code:
rbd snap rm ceph/vm-208-disk-1@vzdump
Code:
INFO: starting new backup job: vzdump 208 --node ceph7 --mode snapshot --compress lzo --remove 0 --storage Backup
INFO: Starting Backup of VM 208 (lxc)
INFO: status = running
INFO: CT Name: www.example.com
INFO: backup mode: snapshot
INFO: ionice priority: 7
INFO: create storage snapshot 'vzdump'
mount: /dev/rbd7 is already mounted or /mnt/vzsnap0 busy
umount: /mnt/vzsnap0/: not mounted
command 'umount -l -d /mnt/vzsnap0/' failed: exit code 32
ERROR: Backup of VM 208 failed - command 'mount -o ro,noload /dev/rbd7 /mnt/vzsnap0//' failed: exit code 32
INFO: Backup job finished with errors
TASK ERROR: job errors
Code:
rbd status ceph/vm-208-disk-1
Code:
Watchers:
watcher=172.30.3.27:0/2318717155 client.39789856 cookie=18446462598732840961
watcher=172.30.3.27:0/2318717155 client.39789856 cookie=18446462598732840986
Mein Workaround ist dann: CT migrieren und Node neustarten, dann klappt es wieder für 1-2 Tage...
Ich hoffe das Problem ist euch irgendwie bekannt und ihr könnt mir helfen.
Danke