[SOLVED] Proxmox 5 Replikation schlägt fehl

konabi

Renowned Member
Dec 14, 2013
109
4
83
Hallo,
ich versuche mehrere Maschinen auf einen anderen Node zu replizieren.
Die Replikation schlägt mit folgender Fehlermeldung fehl:

Code:
Sep 19 09:53:00 pve01 systemd[1]: Starting Proxmox VE replication runner...
Sep 19 09:53:03 pve01 pvesr[12910]: send from @ to rpool/data/vm-102-disk-2@__replicate_102-0_1505807580__ estimated size is 61.3G
Sep 19 09:53:03 pve01 pvesr[12910]: total estimated size is 61.3G
Sep 19 09:53:03 pve01 pvesr[12910]: rpool/data/vm-102-disk-2#011name#011rpool/data/vm-102-disk-2#011-
Sep 19 09:53:03 pve01 pvesr[12910]: volume 'rpool/data/vm-102-disk-2' already exists
Sep 19 09:53:04 pve01 pvesr[12910]: TIME        SENT   SNAPSHOT
Sep 19 09:53:04 pve01 pvesr[12910]: warning: cannot send 'rpool/data/vm-102-disk-2@__replicate_102-0_1505807580__': Broken pipe
Sep 19 09:53:04 pve01 pvesr[12910]: cannot send 'rpool/data/vm-102-disk-2': I/O error
Sep 19 09:53:04 pve01 pvesr[12910]: command 'zfs send -Rpv -- rpool/data/vm-102-disk-2@__replicate_102-0_1505807580__' failed: exit code 1
Sep 19 09:53:04 pve01 pvesr[12910]: send/receive failed, cleaning up snapshot(s)..

Danke für Eure Hilfe.

Sven
 
Hast du einen snapshot rollback gemacht?

Bitte den output schicken

Code:
pveversion -v
 
Interressant dass es laut zfs list keinen Snapshot von vm-102-disk-2 gibt:
Code:
root@pve01:~# zfs list -t snapshot
NAME                                                      USED  AVAIL  REFER  MOUNTPOINT
rpool/data/vm-101-disk-1@__replicate_101-1_1505370600__  99.0M      -  3.97G  -
rpool/data/vm-101-disk-1@__replicate_101-2_1505809800__  3.01M      -  3.98G  -
rpool/data/vm-103-disk-1@__replicate_103-1_1505371503__   769M      -  33.6G  -
rpool/data/vm-104-disk-1@__replicate_104-0_1505809801__      0      -  49.3G  -
rpool/data/vm-104-disk-2@__replicate_104-0_1505809801__      0      -  79.3G  -
rpool/data/vm-105-disk-1@__replicate_105-0_1505370608__  8.18G      -   110G  -
rpool/data/vm-105-disk-1@__replicate_105-1_1505809854__      0      -   111G  -

Code:
pveversion -v
proxmox-ve: 5.0-21 (running kernel: 4.10.17-3-pve)
pve-manager: 5.0-31 (running version: 5.0-31/27769b1f)
pve-kernel-4.10.17-2-pve: 4.10.17-20
pve-kernel-4.10.17-3-pve: 4.10.17-21
libpve-http-server-perl: 2.0-6
lvm2: 2.02.168-pve3
corosync: 2.4.2-pve3
libqb0: 1.0.1-1
pve-cluster: 5.0-12
qemu-server: 5.0-15
pve-firmware: 2.0-2
libpve-common-perl: 5.0-16
libpve-guest-common-perl: 2.0-11
libpve-access-control: 5.0-6
libpve-storage-perl: 5.0-14
pve-libspice-server1: 0.12.8-3
vncterm: 1.5-2
pve-docs: 5.0-9
pve-qemu-kvm: 2.9.0-5
pve-container: 2.0-15
pve-firewall: 3.0-2
pve-ha-manager: 2.0-2
ksm-control-daemon: 1.2-2
glusterfs-client: 3.8.8-1
lxc-pve: 2.0.8-3
lxcfs: 2.0.7-pve4
criu: 2.11.1-1~bpo90
novnc-pve: 0.6-4
smartmontools: 6.5+svn4324-1
zfsutils-linux: 0.6.5.11-pve17~bpo90

Einen Rollback habe ich nicht gemacht.
 
Bitte auch noch den output von
Code:
pvesr status 
pvesr list
 
Code:
pvesr status
JobID      Enabled    Target                           LastSync             NextSync   Duration  FailCount State
101-1      No         local/pve03           2017-09-14_08:30:00                    -   2.631071          1 command 'set -o pipefail && pvesm export local-zfs:vm-101-disk-1 zfs - -with-snapshots 1 -snapshot __replicate_101-1_1505371500__ -base __replicate_101-1_1505370600__ | /usr/bin/ssh -o 'BatchMode=yes' -o 'HostKeyAlias=pve03' root@192.168.200.203 -- pvesm import local-zfs:vm-101-disk-1 zfs - -with-snapshots 1 -base __replicate_101-1_1505370600__' failed: exit code 255
101-2      Yes        local/pve02           2017-09-19_12:30:00  2017-09-19_12:45:00    9.41575          0 OK
102-0      Yes        local/pve02                             -  2017-09-19_12:53:00    4.27418        191 command 'set -o pipefail && pvesm export local-zfs:vm-102-disk-2 zfs - -with-snapshots 1 -snapshot __replicate_102-0_1505816580__ | /usr/bin/ssh -o 'BatchMode=yes' -o 'HostKeyAlias=pve02' root@192.168.200.202 -- pvesm import local-zfs:vm-102-disk-2 zfs - -with-snapshots 1' failed: exit code 255
103-1      No         local/pve03           2017-09-14_08:45:03                    -  18.357549          1 command '/usr/bin/ssh -o 'BatchMode=yes' -o 'HostKeyAlias=pve03' root@192.168.200.203 -- pvesr prepare-local-job 103-1 --scan local-zfs local-zfs:vm-103-disk-1 --last_sync 1505371503' failed: exit code 255
103-2      Yes        local/pve02                             -  2017-09-19_13:04:00   3.470673        191 command 'set -o pipefail && pvesm export local-zfs:vm-103-disk-1 zfs - -with-snapshots 1 -snapshot __replicate_103-2_1505817240__ | /usr/bin/ssh -o 'BatchMode=yes' -o 'HostKeyAlias=pve02' root@192.168.200.202 -- pvesm import local-zfs:vm-103-disk-1 zfs - -with-snapshots 1' failed: exit code 255

Code:
 pvesr list
JobID                Target                 Schedule  Rate  Enabled
101-1                local/pve03                */15     -       no
101-2                local/pve02                */15     -      yes
102-0                local/pve02                */15     -      yes
103-1                local/pve03                */15     -       no
103-2                local/pve02                */15     -      yes
104-0                local/pve01                */15     -      yes
105-0                local/pve03                */15     -       no
105-1                local/pve01                */15     -      yes


Den Fehler für pve03 kann man ignorieren. DerNode ist momentan offline.
Wie kann ich den Repikationssjob für einen Node der offline ist löschen?
 
Die VM 102 ist nie repliziert worden deswegen gibt es keinen Snapshot.
Auf deiner Target Node existiert eine Disk "rpool/data/vm-102-disk-2".
Deswegen kann nicht gesynct werden.
Wo her die kommt kann ich dir nicht sagen.

Du must diese Disk manuell löschen, dann funktioniert auch der sync beim nächsten geplanten run.

Du kannst nach dem löschen aber auch manuell den Sync anstoßen.

Code:
pvesr run --id 102-0 --verbose 1
 
Ok, jetzt sieht das ganze besser aus.
VM 102 lief zuerst auf Node pve02.
Dort hatte ich einen Replikationsjob für die vm 102 auf Node pve01 eingerichtet.
Danach hatte ich die vm 102 auf Node pve01 migriert.
Dabei wird der Replikationsjob automatisch umgestellt von pve01 -> pve02.

Sollte doch so eigentlich funktionieren?
Werden beim Löschen eines Replikationsjobs eigentlich auch die entsprechenden Clones gelöscht?

Die Replikation arbeitet wahrscheinlich so dass beim Erstellen eines Snapshost der letzte Snapshot gelöscht wird.
Ich würde gerne die zfs Snapshot -Technologie zum Sichern der VMs verwenden.
Dazu könnte ich doch pve-zsync ( muß nachinstalliert werden) verwenden. Oder ist das eher nicht ratsam.

Momentan habe ich das problem dass Die Sicherung der vms mit vzdump einfach zu lange dauert.


Danke @wolfgang für die schnelle Hilfe bisher.
 
Sollte doch so eigentlich funktionieren?
Ja eigentlich schon, da der State mitgeschickt wird aber vielleicht warst du noch auf einer beta Version, wo das noch nicht funktioniert hat?
Oder hast du manuell migriert indem du die config auf den andere node im /etc/pve kopiert hast?

Dazu könnte ich doch pve-zsync ( muß nachinstalliert werden) verwenden. Oder ist das eher nicht ratsam.
Die sind eigentlich kompatibel hab bis jetzt noch kein problem feststellen können.
Must halt beim migrieren aufpassen, da das nicht managed wird.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!