Replication job failed ab und zu.

achim22

Renowned Member
May 21, 2015
419
5
83
59
Dortmund
Hallo,
ich bekomme ab und zu die Meldung das ein Replication job nicht läuft. Die darauf folgende laufen aber wieder.

VG


Code:
Replication job 103-0 with target 'prox2' and schedule '*/2:00' failed!
    Last successful sync: 2022-09-30 18:00:05
    Next sync try: 2022-09-30 20:05:00
    Failure count: 1
 
  Error:
  command 'set -o pipefail && pvesm export local-zfs:vm-103-disk-0 zfs - -with-snapshots 1 -snapshot __replicate_103-0_1664560805__ -base __replicate_103-0_1664553605__ | /usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=prox2' root@194.45.36.125 -- pvesm import local-zfs:vm-103-disk-0 zfs - -with-snapshots 1 -snapshot __replicate_103-0_1664560805__' failed: exit code 255
 
Hallo,
schätze, dass könnte an der erhöhten Last liegen. Für bestimmte Operationen, wie z.B. nachher den alten Snapshot löschen, haben wir leider immer noch ein 10 Sekunden-Timeout, da es bei andere Code-Pfaden benötigt wird. Im Replikations-Log würde mehr stehen, aber da gibt's immer nur den von der aktuellen Replikation.
 
Das nervige an der Sache ist, das Ich am Tag 10 Mails bekomme das der Job nicht lief.
Kann ich das irgendwie umgehen und nur eine Meldung bekommen wenn der Job auf Dauer ausfällt?
 
Hallo, ich habe dasselbe Problem und Fionas Antwort, dass es an erhöhter Last siegen könnte verstehe ich nicht so ganz. Die Nodes selbst zeigen keine erhöhte Last an zu diesem Zeitpunkt. Wo genau soll denn die erhöhte Last auftreten und welche Limits werden da gerissen?
 
Hi,
Hallo, ich habe dasselbe Problem und Fionas Antwort, dass es an erhöhter Last siegen könnte verstehe ich nicht so ganz. Die Nodes selbst zeigen keine erhöhte Last an zu diesem Zeitpunkt. Wo genau soll denn die erhöhte Last auftreten und welche Limits werden da gerissen?
ich meine die Last auf dem ZFS-Pool, die durch Replikationen entsteht. Aber ohne den Replikations-Log mit dem Fehler ist es schwer zu sagen, was das Problem bei Dir ist.
 
Hier ein Beispiel:

Code:
2023-05-01 15:00:13 104-1: start replication job
2023-05-01 15:00:16 104-1: guest => VM 104, running => 930078
2023-05-01 15:00:16 104-1: volumes => local-zfs:vm-104-disk-0,local-zfs:vm-104-disk-1
2023-05-01 15:00:17 104-1: create snapshot '__replicate_104-1_1682946013__' on local-zfs:vm-104-disk-0
2023-05-01 15:00:17 104-1: create snapshot '__replicate_104-1_1682946013__' on local-zfs:vm-104-disk-1
2023-05-01 15:00:17 104-1: using secure transmission, rate limit: none
2023-05-01 15:00:17 104-1: incremental sync 'local-zfs:vm-104-disk-0' (__replicate_104-1_1682945110__ => __replicate_104-1_1682946013__)
2023-05-01 15:00:17 104-1: kex_exchange_identification: Connection closed by remote host
2023-05-01 15:00:17 104-1: Connection closed by 10.0.10.2 port 22
2023-05-01 15:00:18 104-1: warning: cannot send 'rpool/data/vm-104-disk-0@__replicate_104-1_1682946013__': Broken pipe
2023-05-01 15:00:18 104-1: command 'zfs send -Rpv -I __replicate_104-1_1682945110__ -- rpool/data/vm-104-disk-0@__replicate_104-1_1682946013__' failed: exit code 1
2023-05-01 15:00:18 104-1: delete previous replication snapshot '__replicate_104-1_1682946013__' on local-zfs:vm-104-disk-0
2023-05-01 15:00:18 104-1: delete previous replication snapshot '__replicate_104-1_1682946013__' on local-zfs:vm-104-disk-1
2023-05-01 15:00:18 104-1: end replication job with error: command 'set -o pipefail && pvesm export local-zfs:vm-104-disk-0 zfs - -with-snapshots 1 -snapshot __replicate_104-1_1682946013__ -base __replicate_104-1_1682945110__ | /usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=server6' root@10.0.10.2 -- pvesm import local-zfs:vm-104-disk-0 zfs - -with-snapshots 1 -snapshot __replicate_104-1_1682946013__ -allow-rename 0 -base __replicate_104-1_1682945110__' failed: exit code 255

Ich vermute ein ssh config problem und habe mal die MaxStartups hochgesetzt. Was mich wunder ist, dass die Probleme nur bei der Replikation auf eine server (server6) auftreten, bei den anderen nicht.
 
Code:
2023-05-01 15:00:17 104-1: kex_exchange_identification: Connection closed by remote host
2023-05-01 15:00:17 104-1: Connection closed by 10.0.10.2 port 22
Ich vermute ein ssh config problem und habe mal die MaxStartups hochgesetzt. Was mich wunder ist, dass die Probleme nur bei der Replikation auf eine server (server6) auftreten, bei den anderen nicht.

Ja, klingt nach einem Problem mit der (ssh-)Verbindung. Kannst Du
/usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=server6' root@10.0.10.2 -- echo "test"
ohne Probleme ausführen?
 
Ich kann bestätigen, dass mit MaxStartup 100 seit nun mehr mehr als 24h keine Fehler bei der Replikation mehr gemeldet wurden. Vorher war es mehrfach am Tag. Es scheint also damit gelöst zu sein.
 
  • Like
Reactions: fiona
Ich hab das selbe Problem, es tritt nur sporadisch und vereinzelt auf gewissen VMs/Container auf. Hab es mit MaxStartup 100 in der SSH-Config probier aber leider ohne Erfolg.

Bash:
2023-06-02 09:52:01 505-0: using secure transmission, rate limit: none
2023-06-02 09:52:01 505-0: full sync 'local-zfs:vm-505-disk-0' (__replicate_505-0_1685692320__)
2023-06-02 09:52:02 505-0: full send of rpool/data/vm-505-disk-0@__replicate_505-0_1685692320__ estimated size is 4.49G
2023-06-02 09:52:02 505-0: total estimated size is 4.49G
2023-06-02 09:52:02 505-0: volume 'rpool/data/vm-505-disk-0' already exists
2023-06-02 09:52:02 505-0: warning: cannot send 'rpool/data/vm-505-disk-0@__replicate_505-0_1685692320__': signal received
2023-06-02 09:52:02 505-0: cannot send 'rpool/data/vm-505-disk-0': I/O error
2023-06-02 09:52:02 505-0: command 'zfs send -Rpv -- rpool/data/vm-505-disk-0@__replicate_505-0_1685692320__' failed: exit code 1
2023-06-02 09:52:02 505-0: delete previous replication snapshot '__replicate_505-0_1685692320__' on local-zfs:vm-505-disk-0
2023-06-02 09:52:02 505-0: end replication job with error: command 'set -o pipefail && pvesm export local-zfs:vm-505-disk-0 zfs - -with-snapshots 1 -snapshot __replicate_505-0_1685692320__ | /usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=bohr' root@192.168.9.22 -- pvesm import local-zfs:vm-505-disk-0 zfs - -with-snapshots 1 -snapshot __replicate_505-0_1685692320__ -allow-rename 0' failed: exit code 255

Hat hier noch jemand eine andere Idee?
 
Hi,
Ich hab das selbe Problem,
in deinem Fall ist der Fehler aber nicht wegen SSH, sondern
Bash:
2023-06-02 09:52:01 505-0: full sync 'local-zfs:vm-505-disk-0' (__replicate_505-0_1685692320__)
...
2023-06-02 09:52:02 505-0: volume 'rpool/data/vm-505-disk-0' already exists
es gibt keinen vorigen Replikations-Snapshot für die Disk am Quell-Node, daher ein full sync aber die Disk scheint am Ziel-Node schon zu existieren. Und da es nicht inkrementell ist und die Disk am Ziel könnte auch ganz was anderes sein, wird abgebrochen.
 
Last edited:
Hi,

in deinem Fall ist der Fehler aber nicht wegen SSH, sondern

es gibt keinen vorigen Replikations-Snapshot für die Disk am Quell-Node, daher ein full sync aber die Disk scheint am Ziel-Node schon zu existieren. Und da es nicht inkrementell ist und die Disk am Ziel könnte auch ganz was anderes sein, wird abgebrochen.
Vielen Dank für die Info! Gibts einen Weg, die Disk am Ziel-Node zu löschen?
 
Gefunden... auf dem jeweiligen Zielhost:

Bash:
zfs destroy -r rpool/data/vm-505-disk-0
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!