Hallo,
seit einigen Tagen versuche ich eine einigermaßen zuverlässige Replikation oder HA-Lösung für ein 3-Node-Cluster mit ZFS einzurichten, in dem LXC-Container laufen sollen. Leider gibt es immer wieder Probleme.
Mal funktioniert die Migration von HA-Ressourcen auf einen anderen Server, beim nächsten Mal in der anderen Richtung nicht oder es funktioniert für einen Container, für den anderen jedoch nicht.
Ähnlich mit der Replikation: Replikation von Host A zu Host B und Host C funktioniert einen halben Tag problemlos. Auch der Umzug der Container auf Host B klappt. Die Replikation wird angepasst, wunderbar. Dann ziehe ich die Container auf Host C um und bekomme für alle Replikations-Tasks Fehlermeldungen.
Mittlerweile habe ich verstanden, dass die Replikation häufig durch noch existierende Volumes eines Containers auf einem anderen Host verhindert wird. Doch jetzt hilft selbst das Löschen nicht mehr. In daemon.log ist lediglich die Meldung 'pvesr[17487]: send/receive failed, cleaning up snapshot(s)'
Die Hostsysteme sind alle auf demselben Stand:
pveversion -v
pvesr status
pvesr list
zfs list
zfs list -t snapshot
Täusche ich mich oder gibt es Snapshots gar nicht, die transferiert werden sollen?
Schöne Grüße
Peter
seit einigen Tagen versuche ich eine einigermaßen zuverlässige Replikation oder HA-Lösung für ein 3-Node-Cluster mit ZFS einzurichten, in dem LXC-Container laufen sollen. Leider gibt es immer wieder Probleme.
Mal funktioniert die Migration von HA-Ressourcen auf einen anderen Server, beim nächsten Mal in der anderen Richtung nicht oder es funktioniert für einen Container, für den anderen jedoch nicht.
Ähnlich mit der Replikation: Replikation von Host A zu Host B und Host C funktioniert einen halben Tag problemlos. Auch der Umzug der Container auf Host B klappt. Die Replikation wird angepasst, wunderbar. Dann ziehe ich die Container auf Host C um und bekomme für alle Replikations-Tasks Fehlermeldungen.
Mittlerweile habe ich verstanden, dass die Replikation häufig durch noch existierende Volumes eines Containers auf einem anderen Host verhindert wird. Doch jetzt hilft selbst das Löschen nicht mehr. In daemon.log ist lediglich die Meldung 'pvesr[17487]: send/receive failed, cleaning up snapshot(s)'
Die Hostsysteme sind alle auf demselben Stand:
pveversion -v
Code:
proxmox-ve: 5.1-26 (running kernel: 4.10.17-2-pve)
pve-manager: 5.1-36 (running version: 5.1-36/131401db)
pve-kernel-4.13.4-1-pve: 4.13.4-26
pve-kernel-4.10.17-2-pve: 4.10.17-20
libpve-http-server-perl: 2.0-6
lvm2: 2.02.168-pve6
corosync: 2.4.2-pve3
libqb0: 1.0.1-1
pve-cluster: 5.0-15
qemu-server: 5.0-17
pve-firmware: 2.0-3
libpve-common-perl: 5.0-20
libpve-guest-common-perl: 2.0-13
libpve-access-control: 5.0-7
libpve-storage-perl: 5.0-16
pve-libspice-server1: 0.12.8-3
vncterm: 1.5-2
pve-docs: 5.1-12
pve-qemu-kvm: 2.9.1-2
pve-container: 2.0-17
pve-firewall: 3.0-3
pve-ha-manager: 2.0-3
ksm-control-daemon: 1.2-2
glusterfs-client: 3.8.8-1
lxc-pve: 2.1.0-2
lxcfs: 2.0.7-pve4
criu: 2.11.1-1~bpo90
novnc-pve: 0.6-4
smartmontools: 6.5+svn4324-1
zfsutils-linux: 0.7.3-pve1~bpo9
pvesr status
Code:
JobID Enabled Target LastSync NextSync Duration FailCount State
100-0 Yes local/africa - 2017-11-28_17:21:00 0.808915 4 command 'set -o pipefail && pvesm export local-zfs:subvol-100-disk-1 zfs - -with-snapshots 1 -snapshot __replicate_100-0_1511884260__ | /usr/bin/ssh -o 'BatchMode=yes' -o 'HostKeyAlias=africa' root@192.168.0.95 -- pvesm import local-zfs:subvol-100-disk-1 zfs - -with-snapshots 1' failed: exit code 1
101-0 Yes local/africa - 2017-11-28_17:01:01 0.838007 3 command 'set -o pipefail && pvesm export local-zfs:subvol-101-disk-1 zfs - -with-snapshots 1 -snapshot __replicate_101-0_1511883061__ | /usr/bin/ssh -o 'BatchMode=yes' -o 'HostKeyAlias=africa' root@192.168.0.95 -- pvesm import local-zfs:subvol-101-disk-1 zfs - -with-snapshots 1' failed: exit code 1
pvesr list
Code:
JobID Target Schedule Rate Enabled
100-0 local/africa */15 - yes
101-0 local/africa */15 - yes
zfs list
Code:
NAME USED AVAIL REFER MOUNTPOINT
rpool 12,4G 449G 96K /rpool
rpool/ROOT 1,83G 449G 96K /rpool/ROOT
rpool/ROOT/pve-1 1,83G 449G 1,83G /
rpool/data 2,02G 449G 96K /rpool/data
rpool/data/subvol-100-disk-1 1,46G 10,5G 1,46G /rpool/data/subvol-100-disk-1
rpool/data/subvol-101-disk-1 575M 199G 575M /rpool/data/subvol-101-disk-1
rpool/swap 8,50G 457G 64K -
zfs list -t snapshot
Code:
no datasets available
Täusche ich mich oder gibt es Snapshots gar nicht, die transferiert werden sollen?
Schöne Grüße
Peter