[SOLVED] Replikation scheitert

pedro

Active Member
Nov 24, 2017
11
1
43
56
Hallo,

seit einigen Tagen versuche ich eine einigermaßen zuverlässige Replikation oder HA-Lösung für ein 3-Node-Cluster mit ZFS einzurichten, in dem LXC-Container laufen sollen. Leider gibt es immer wieder Probleme.

Mal funktioniert die Migration von HA-Ressourcen auf einen anderen Server, beim nächsten Mal in der anderen Richtung nicht oder es funktioniert für einen Container, für den anderen jedoch nicht.

Ähnlich mit der Replikation: Replikation von Host A zu Host B und Host C funktioniert einen halben Tag problemlos. Auch der Umzug der Container auf Host B klappt. Die Replikation wird angepasst, wunderbar. Dann ziehe ich die Container auf Host C um und bekomme für alle Replikations-Tasks Fehlermeldungen.

Mittlerweile habe ich verstanden, dass die Replikation häufig durch noch existierende Volumes eines Containers auf einem anderen Host verhindert wird. Doch jetzt hilft selbst das Löschen nicht mehr. In daemon.log ist lediglich die Meldung 'pvesr[17487]: send/receive failed, cleaning up snapshot(s)'

Die Hostsysteme sind alle auf demselben Stand:

pveversion -v
Code:
proxmox-ve: 5.1-26 (running kernel: 4.10.17-2-pve)
pve-manager: 5.1-36 (running version: 5.1-36/131401db)
pve-kernel-4.13.4-1-pve: 4.13.4-26
pve-kernel-4.10.17-2-pve: 4.10.17-20
libpve-http-server-perl: 2.0-6
lvm2: 2.02.168-pve6
corosync: 2.4.2-pve3
libqb0: 1.0.1-1
pve-cluster: 5.0-15
qemu-server: 5.0-17
pve-firmware: 2.0-3
libpve-common-perl: 5.0-20
libpve-guest-common-perl: 2.0-13
libpve-access-control: 5.0-7
libpve-storage-perl: 5.0-16
pve-libspice-server1: 0.12.8-3
vncterm: 1.5-2
pve-docs: 5.1-12
pve-qemu-kvm: 2.9.1-2
pve-container: 2.0-17
pve-firewall: 3.0-3
pve-ha-manager: 2.0-3
ksm-control-daemon: 1.2-2
glusterfs-client: 3.8.8-1
lxc-pve: 2.1.0-2
lxcfs: 2.0.7-pve4
criu: 2.11.1-1~bpo90
novnc-pve: 0.6-4
smartmontools: 6.5+svn4324-1
zfsutils-linux: 0.7.3-pve1~bpo9

pvesr status
Code:
JobID      Enabled    Target                           LastSync             NextSync   Duration  FailCount State
100-0      Yes        local/africa                            -  2017-11-28_17:21:00   0.808915          4 command 'set -o pipefail && pvesm export local-zfs:subvol-100-disk-1 zfs - -with-snapshots 1 -snapshot __replicate_100-0_1511884260__ | /usr/bin/ssh -o 'BatchMode=yes' -o 'HostKeyAlias=africa' root@192.168.0.95 -- pvesm import local-zfs:subvol-100-disk-1 zfs - -with-snapshots 1' failed: exit code 1
101-0      Yes        local/africa                            -  2017-11-28_17:01:01   0.838007          3 command 'set -o pipefail && pvesm export local-zfs:subvol-101-disk-1 zfs - -with-snapshots 1 -snapshot __replicate_101-0_1511883061__ | /usr/bin/ssh -o 'BatchMode=yes' -o 'HostKeyAlias=africa' root@192.168.0.95 -- pvesm import local-zfs:subvol-101-disk-1 zfs - -with-snapshots 1' failed: exit code 1

pvesr list
Code:
JobID                Target                 Schedule  Rate  Enabled
100-0                local/africa               */15     -      yes
101-0                local/africa               */15     -      yes

zfs list
Code:
NAME                           USED  AVAIL  REFER  MOUNTPOINT
rpool                         12,4G   449G    96K  /rpool
rpool/ROOT                    1,83G   449G    96K  /rpool/ROOT
rpool/ROOT/pve-1              1,83G   449G  1,83G  /
rpool/data                    2,02G   449G    96K  /rpool/data
rpool/data/subvol-100-disk-1  1,46G  10,5G  1,46G  /rpool/data/subvol-100-disk-1
rpool/data/subvol-101-disk-1   575M   199G   575M  /rpool/data/subvol-101-disk-1
rpool/swap                    8,50G   457G    64K  -

zfs list -t snapshot
Code:
no datasets available

Täusche ich mich oder gibt es Snapshots gar nicht, die transferiert werden sollen?

Schöne Grüße
Peter
 
proxmox-ve: 5.1-26 (running kernel: 4.10.17-2-pve)

und

zfsutils-linux: 0.7.3-pve1~bpo9

passen nicht zusammen.

bitte akutellen kernel mit zfs 0.7.3 verwenden.

(pve-kernel-4.10.17-5-pve oder pve-kernel-4.13.4-1-pve)
 
  • Like
Reactions: pedro