Replication job failed ab und zu.

achim22 · Oct 1, 2022

Hallo,
ich bekomme ab und zu die Meldung das ein Replication job nicht läuft. Die darauf folgende laufen aber wieder.

VG

Code:

Replication job 103-0 with target 'prox2' and schedule '*/2:00' failed!
    Last successful sync: 2022-09-30 18:00:05
    Next sync try: 2022-09-30 20:05:00
    Failure count: 1
 
  Error:
  command 'set -o pipefail && pvesm export local-zfs:vm-103-disk-0 zfs - -with-snapshots 1 -snapshot __replicate_103-0_1664560805__ -base __replicate_103-0_1664553605__ | /usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=prox2' root@194.45.36.125 -- pvesm import local-zfs:vm-103-disk-0 zfs - -with-snapshots 1 -snapshot __replicate_103-0_1664560805__' failed: exit code 255

fiona · Oct 3, 2022

Hallo,
schätze, dass könnte an der erhöhten Last liegen. Für bestimmte Operationen, wie z.B. nachher den alten Snapshot löschen, haben wir leider immer noch ein 10 Sekunden-Timeout, da es bei andere Code-Pfaden benötigt wird. Im Replikations-Log würde mehr stehen, aber da gibt's immer nur den von der aktuellen Replikation.

achim22 · Nov 13, 2022

Das nervige an der Sache ist, das Ich am Tag 10 Mails bekomme das der Job nicht lief.
Kann ich das irgendwie umgehen und nur eine Meldung bekommen wenn der Job auf Dauer ausfällt?

fiona · Nov 14, 2022

Ist im Moment leider nicht konfigurierbar, vermutlich aber sobald https://bugzilla.proxmox.com/show_bug.cgi?id=4156 implementiert ist.

Enthylsa · May 1, 2023

Hallo, ich habe dasselbe Problem und Fionas Antwort, dass es an erhöhter Last siegen könnte verstehe ich nicht so ganz. Die Nodes selbst zeigen keine erhöhte Last an zu diesem Zeitpunkt. Wo genau soll denn die erhöhte Last auftreten und welche Limits werden da gerissen?

fiona · May 2, 2023

Hi,

Enthylsa said:
Hallo, ich habe dasselbe Problem und Fionas Antwort, dass es an erhöhter Last siegen könnte verstehe ich nicht so ganz. Die Nodes selbst zeigen keine erhöhte Last an zu diesem Zeitpunkt. Wo genau soll denn die erhöhte Last auftreten und welche Limits werden da gerissen?

ich meine die Last auf dem ZFS-Pool, die durch Replikationen entsteht. Aber ohne den Replikations-Log mit dem Fehler ist es schwer zu sagen, was das Problem bei Dir ist.

Enthylsa · May 2, 2023

Hier ein Beispiel:

Code:

2023-05-01 15:00:13 104-1: start replication job
2023-05-01 15:00:16 104-1: guest => VM 104, running => 930078
2023-05-01 15:00:16 104-1: volumes => local-zfs:vm-104-disk-0,local-zfs:vm-104-disk-1
2023-05-01 15:00:17 104-1: create snapshot '__replicate_104-1_1682946013__' on local-zfs:vm-104-disk-0
2023-05-01 15:00:17 104-1: create snapshot '__replicate_104-1_1682946013__' on local-zfs:vm-104-disk-1
2023-05-01 15:00:17 104-1: using secure transmission, rate limit: none
2023-05-01 15:00:17 104-1: incremental sync 'local-zfs:vm-104-disk-0' (__replicate_104-1_1682945110__ => __replicate_104-1_1682946013__)
2023-05-01 15:00:17 104-1: kex_exchange_identification: Connection closed by remote host
2023-05-01 15:00:17 104-1: Connection closed by 10.0.10.2 port 22
2023-05-01 15:00:18 104-1: warning: cannot send 'rpool/data/vm-104-disk-0@__replicate_104-1_1682946013__': Broken pipe
2023-05-01 15:00:18 104-1: command 'zfs send -Rpv -I __replicate_104-1_1682945110__ -- rpool/data/vm-104-disk-0@__replicate_104-1_1682946013__' failed: exit code 1
2023-05-01 15:00:18 104-1: delete previous replication snapshot '__replicate_104-1_1682946013__' on local-zfs:vm-104-disk-0
2023-05-01 15:00:18 104-1: delete previous replication snapshot '__replicate_104-1_1682946013__' on local-zfs:vm-104-disk-1
2023-05-01 15:00:18 104-1: end replication job with error: command 'set -o pipefail && pvesm export local-zfs:vm-104-disk-0 zfs - -with-snapshots 1 -snapshot __replicate_104-1_1682946013__ -base __replicate_104-1_1682945110__ | /usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=server6' root@10.0.10.2 -- pvesm import local-zfs:vm-104-disk-0 zfs - -with-snapshots 1 -snapshot __replicate_104-1_1682946013__ -allow-rename 0 -base __replicate_104-1_1682945110__' failed: exit code 255

Ich vermute ein ssh config problem und habe mal die MaxStartups hochgesetzt. Was mich wunder ist, dass die Probleme nur bei der Replikation auf eine server (server6) auftreten, bei den anderen nicht.

fiona · May 2, 2023

Enthylsa said:

Enthylsa said:
Ich vermute ein ssh config problem und habe mal die MaxStartups hochgesetzt. Was mich wunder ist, dass die Probleme nur bei der Replikation auf eine server (server6) auftreten, bei den anderen nicht.

Ja, klingt nach einem Problem mit der (ssh-)Verbindung. Kannst Du

/usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=server6' root@10.0.10.2 -- echo "test"

ohne Probleme ausführen?

Enthylsa · May 2, 2023

ja ich kann das problemlos ausführen. Der Fehler tritt nur ein paarmal pro Tag auf bei 15 Min Replikationsintervall

Enthylsa · May 4, 2023

Ich kann bestätigen, dass mit MaxStartup 100 seit nun mehr mehr als 24h keine Fehler bei der Replikation mehr gemeldet wurden. Vorher war es mehrfach am Tag. Es scheint also damit gelöst zu sein.

hr556 · Jun 2, 2023

Ich hab das selbe Problem, es tritt nur sporadisch und vereinzelt auf gewissen VMs/Container auf. Hab es mit MaxStartup 100 in der SSH-Config probier aber leider ohne Erfolg.

Bash:

2023-06-02 09:52:01 505-0: using secure transmission, rate limit: none
2023-06-02 09:52:01 505-0: full sync 'local-zfs:vm-505-disk-0' (__replicate_505-0_1685692320__)
2023-06-02 09:52:02 505-0: full send of rpool/data/vm-505-disk-0@__replicate_505-0_1685692320__ estimated size is 4.49G
2023-06-02 09:52:02 505-0: total estimated size is 4.49G
2023-06-02 09:52:02 505-0: volume 'rpool/data/vm-505-disk-0' already exists
2023-06-02 09:52:02 505-0: warning: cannot send 'rpool/data/vm-505-disk-0@__replicate_505-0_1685692320__': signal received
2023-06-02 09:52:02 505-0: cannot send 'rpool/data/vm-505-disk-0': I/O error
2023-06-02 09:52:02 505-0: command 'zfs send -Rpv -- rpool/data/vm-505-disk-0@__replicate_505-0_1685692320__' failed: exit code 1
2023-06-02 09:52:02 505-0: delete previous replication snapshot '__replicate_505-0_1685692320__' on local-zfs:vm-505-disk-0
2023-06-02 09:52:02 505-0: end replication job with error: command 'set -o pipefail && pvesm export local-zfs:vm-505-disk-0 zfs - -with-snapshots 1 -snapshot __replicate_505-0_1685692320__ | /usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=bohr' root@192.168.9.22 -- pvesm import local-zfs:vm-505-disk-0 zfs - -with-snapshots 1 -snapshot __replicate_505-0_1685692320__ -allow-rename 0' failed: exit code 255

Hat hier noch jemand eine andere Idee?

fiona · Jun 2, 2023

Hi,

hr556 said:
Ich hab das selbe Problem,

in deinem Fall ist der Fehler aber nicht wegen SSH, sondern

hr556 said:

Bash:

2023-06-02 09:52:01 505-0: full sync 'local-zfs:vm-505-disk-0' (__replicate_505-0_1685692320__)
...
2023-06-02 09:52:02 505-0: volume 'rpool/data/vm-505-disk-0' already exists

es gibt keinen vorigen Replikations-Snapshot für die Disk am Quell-Node, daher ein full sync aber die Disk scheint am Ziel-Node schon zu existieren. Und da es nicht inkrementell ist und die Disk am Ziel könnte auch ganz was anderes sein, wird abgebrochen.

hr556 · Jun 2, 2023

fiona said:
Hi,

in deinem Fall ist der Fehler aber nicht wegen SSH, sondern

es gibt keinen vorigen Replikations-Snapshot für die Disk am Quell-Node, daher ein full sync aber die Disk scheint am Ziel-Node schon zu existieren. Und da es nicht inkrementell ist und die Disk am Ziel könnte auch ganz was anderes sein, wird abgebrochen.

Vielen Dank für die Info! Gibts einen Weg, die Disk am Ziel-Node zu löschen?

hr556 · Jun 2, 2023

Gefunden... auf dem jeweiligen Zielhost:

Bash:

zfs destroy -r rpool/data/vm-505-disk-0

Search

Search

Replication job failed ab und zu.

achim22

Renowned Member

fiona

Proxmox Staff Member

achim22

Renowned Member

fiona

Proxmox Staff Member

Enthylsa

Member

fiona

Proxmox Staff Member

Enthylsa

Member

fiona

Proxmox Staff Member

Enthylsa

Member

Enthylsa

Member

hr556

Member

fiona

Proxmox Staff Member

hr556

Member

hr556

Member

We value your privacy