ZFS Replication

JNX · Mar 27, 2018

Moin zusammen,

ich habe mich schon erfolglos durch die vorhandenen Threads gelesen, lösen konnte ich mein Problem aber leider trotzdem nicht, ich hoffe daher auf eure fachkundige Hilfe.

Aufbau:

2 Node Cluster mit 2x1Gbit Bond Direktverbindung auf der vmbr0
je 1TB SSD mit ZFS
Replication vom zweiten Node auf dem 2ct und 6VMs laufen alle 15min auf den ersten.
3VMs auf dem ersten Node, keine Replication

=> Funktionierte seit ca. 2 Monaten ohne Probleme, bis vermutlich genau zu dem Zeitpunkt, an dem ein Snapshot einer VM auf dem ersten Node zurückgerollt wurde, zumindest war das am gleichen Tag

Alle Replications einmal gelöscht, trotzdem scheitern neu angelegte sofort, auch bei einer komplett neuen VM (ID200).

Anbei ein wenig log output aus dem ich nicht schlau werde:

root@Node01:/var/log# zfs list -t snapshot
NAME USED AVAIL REFER MOUNTPOINT
ssd1/vm-101-disk-1@WinNet 999M - 9,61G -
ssd1/vm-101-disk-1@Updated 1,08G - 17,8G -
ssd1/vm-101-disk-1@AfterTVInstallation 855M - 17,8G -
ssd1/vm-102-disk-1@WinNet 956M - 9,56G -
ssd1/vm-102-disk-1@Updated 2,16G - 17,9G -
ssd1/vm-102-disk-2@WinNet 16K - 16K -
ssd1/vm-102-disk-2@Updated 152K - 92,1M -

root@Node01:/var/log# pvesr status
JobID Enabled Target LastSync NextSync Duration FailCount State

root@Node01:/var/log# pvesr list
JobID Target Schedule Rate Enabled
108-0 local/Node01 */15 - yes
200-0 local/Node01 */15 - yes

root@Node02:/var/log/# zfs list -t snapshot
no datasets available

root@Node02:/var/log/# pvesr status
JobID Enabled Target LastSync NextSync Duration FailCount State
108-0 Yes local/Node01 - 2018-03-27_11:41:01 5.624847 41 command 'set -o pipefail && pvesm export ssd1:vm-108-disk-1 zfs - -with-snapshots 1 -snapshot __replicate_108-0_1522141861__ | /usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=Node01' root@10.11.12.1 -- pvesm import ssd1:vm-108-disk-1 zfs - -with-snapshots 1' failed: exit code 1
200-0 Yes local/Node01 - 2018-03-27_11:32:01 2.351011 4 command 'set -o pipefail && pvesm export ssd1:vm-200-disk-1 zfs - -with-snapshots 1 -snapshot __replicate_200-0_1522141321__ | /usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=Node01' root@10.11.12.1 -- pvesm import ssd1:vm-200-disk-1 zfs - -with-snapshots 1' failed: exit code 1

root@Node02:/var/log# pvesr list
JobID Target Schedule Rate Enabled
108-0 local/ProxNode01 */15 - yes
200-0 local/ProxNode01 */15 - yes

wolfgang · Mar 27, 2018

Hi,

du musst auch sicherstellen das auf dem Target Node keinen Images von der Replica existieren.
Es reicht nicht nur die Snapshots zu löschen.

JNX · Mar 27, 2018

Hi,
das sollte passen, ich habe die VM extra erstellt zum testen der replication, davon gab es also noch nie ein Image auf dem Zielnode.

Oder ist es ein Problem, dass es z.B. aktuell ein Image von vm100 auf dem ersten Node gibt, obwohl dafür aktuell kein Replication Job existiert?

root@Node01:/var/log# zfs list -o name
NAME
ssd1
ssd1/subvol-105-disk-1
ssd1/vm-100-disk-1
ssd1/vm-101-disk-1
ssd1/vm-102-disk-1
ssd1/vm-102-disk-2
ssd1/vm-51110-disk-1
ssd1/vm-51111-disk-1

root@Node02:/var/log# zfs list -o name
NAME
ssd1
ssd1/subvol-103-disk-1
ssd1/subvol-105-disk-1
ssd1/vm-100-disk-1
ssd1/vm-108-disk-1
ssd1/vm-109-disk-1
ssd1/vm-200-disk-1
ssd1/vm-31110-disk-1
ssd1/vm-51110-disk-1
ssd1/vm-51111-disk-1
ssd1/vm-51111-disk-2

wolfgang · Mar 27, 2018

JNX said:
Oder ist es ein Problem, dass es z.B. aktuell ein Image von vm100 auf dem ersten Node gibt, obwohl dafür aktuell kein Replication Job existiert?

Genau das ist ein Problem.
Beim initialen sync darf der Name nicht vergeben sein.

JNX · Mar 27, 2018

Ich habe mit zfs destroy ssd1/vm-123-disk-1 alles auf dem jeweils anderen Node entfernt.

Auf dem ersten Node Laufen die VMs 101 und 102

Auf dem zweiten Node laufen 100, 103, 105, 108, 109, 200, 31110, 51110 und 51111

Der Output von zfs list sieht für mich gut aus, mehr kann ich nicht entfernen ohne eine VM zu verlieren?

root@Node01:/var/log# zfs list -o name
NAME
ssd1
ssd1/vm-101-disk-1
ssd1/vm-102-disk-1
ssd1/vm-102-disk-2

root@Node02:/var/log# zfs list -o name
NAME
ssd1
ssd1/subvol-103-disk-1
ssd1/subvol-105-disk-1
ssd1/vm-100-disk-1
ssd1/vm-108-disk-1
ssd1/vm-109-disk-1
ssd1/vm-200-disk-1
ssd1/vm-31110-disk-1
ssd1/vm-51110-disk-1
ssd1/vm-51111-disk-1
ssd1/vm-51111-disk-2

Trotzdem gelingt eine initiale Replication weder von 1 nach 2 noch von 2 nach 1

Replication Log:
2018-03-27 15:39:01 100-0: start replication job
2018-03-27 15:39:01 100-0: guest => VM 100, running => 3733
2018-03-27 15:39:01 100-0: volumes => ssd1:vm-100-disk-1
2018-03-27 15:39:01 100-0: create snapshot '__replicate_100-0_1522157941__' on ssd1:vm-100-disk-1
2018-03-27 15:39:03 100-0: full sync 'ssd1:vm-100-disk-1' (__replicate_100-0_1522157941__)
2018-03-27 15:39:03 100-0: internal error: Invalid argument
2018-03-27 15:39:03 100-0: command 'zfs send -Rpv -- ssd1/vm-100-disk-1@__replicate_100-0_1522157941__' failed: got signal 6
2018-03-27 15:39:03 100-0: cannot receive: failed to read from stream
2018-03-27 15:39:03 100-0: cannot open 'ssd1/vm-100-disk-1': dataset does not exist
2018-03-27 15:39:03 100-0: command 'zfs recv -F -- ssd1/vm-100-disk-1' failed: exit code 1
2018-03-27 15:39:03 100-0: delete previous replication snapshot '__replicate_100-0_1522157941__' on ssd1:vm-100-disk-1
2018-03-27 15:39:04 100-0: end replication job with error: command 'set -o pipefail && pvesm export ssd1:vm-100-disk-1 zfs - -with-snapshots 1 -snapshot __replicate_100-0_1522157941__ | /usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=Node01' root@1.2.3.4 -- pvesm import ssd1:vm-100-disk-1 zfs - -with-snapshots 1' failed: exit code 1

Was übersehe ich noch? Ich bin für jeden Hinweis Dankbar.

Search

Search

ZFS Replication

JNX

New Member

wolfgang

Proxmox Retired Staff

JNX

New Member

wolfgang

Proxmox Retired Staff

JNX

New Member

We value your privacy