E-Mail Notification: "Replication Job failed: got timeout"

neffets

New Member
May 5, 2023
11
1
3
Hallo zusammen,

ich habe vor kurzem zwei Nodes installiert, konfiguriert und in einen Cluster zusammengefasst.
Node proxmox1 und proxmox2 haben jeweils ein paar VMs, für welche ich jeweils disk replication auf das jeweils andere Node konfiguriert habe.
Die disk replication geschieht jeweils alle 10 Minuten.

Nun ist es so, dass Node proxmox2 etwa ~6 Timeout Fehlermeldungen am Tag per Mail verschickt:

Code:
Replication job 106-0 with target 'proxmox1' and schedule '*/10' failed!

Last successful sync: 2023-05-05 07:50:50
Next sync try: 2023-05-05 08:05:00
Failure count: 1

Error:
command 'zfs snapshot tank1/data1/vm-106-disk-0@__replicate_106-0_1683266452__' failed: got timeout

Die nächste Replikation verläuft wieder ohne Fehlermeldung.
Interessant ist, dass es ausschließlich Node proxmox2 betrifft.
An und für sich ist es nicht schlimm wenn eine Replikation sporadisch mal nicht klappt. Jedoch stören die Mail Notifications.

Gibt es die Möglichkeit erst nach mehrfachen timeouts eine E-Mail zu erhalten? Kann man die Mail Notifications für Replication Jobs sonst auch ganz deaktivieren?

Vielen dank vorab!
 
Last edited:
Gibt es die Möglichkeit erst nach mehrfachen timeouts eine E-Mail zu erhalten? Kann man die Mail Notifications für Replication Jobs sonst auch ganz deaktivieren?

Das ist leider nicht möglich derzeit. Du kannst jedoch gerne unter https://bugzilla.proxmox.com/ einen Feature Request dafür anlegen.

Wenn du keine E-Mails mehr erhalten möchtest, dann kannst du einfach die E-Mail-Adresse des root-Users im Web-UI entfernen. Allerdings werden dann überhaupt keine Emails mehr vom System verschickt, also z.B. auch keine Update-Benachrichtigungen, etc. (Ausnahme: Backup-Jobs, bei denen explizit eine E-Mail-Adresse angegeben ist)
 
Als Nachtrag, die Frage ist eher, warum die Replikationen fehlschlagen. Siehst du dazu irgendetwas in den System Logs (journalctl -u pvescheduler.service für die Logs nur spezifisch zur Replikation, oder aber journalctl -b für die Logs seit dem letzten Boot)? Ist das Netzwerk stabil? Eventuell mal einen ping zum anderen Host über lange Zeit laufen lassen.
 
  • Like
Reactions: neffets
Danke für den Nachtrag, die Logs geben mir hierzu leider keine weiteren Aufschlüsse.
Allerdings ist mir dabei aufgefallen, dass auch auf Node Proxmox1 Fehlermeldungen generiert werden, jedoch die Mail-Konfiguration nicht ganz korrekt war, weshalb die Mails nicht rausgegangen sind.
Auf Node Proxmox2 wird die Fehlermeldung jedenfalls häufiger generiert.

Zudem war bei einer VM der qemu guest agent aktiviert, obwohl dieser nicht installiert ist, weshalb zig ping-Fehlermeldungen generiert wurden. Habe das auch mal korrigiert.

Liegt es daran, dass sich die replication jobs überkreuzen? Vielleicht kommt die Fehlermeldung weil auf beiden Nodes gleichzeitig ein job läuft?

Node Proxmox2:

Code:
May 05 03:21:07 proxmox2 pvescheduler[2325125]: command 'zfs destroy tank1/data1/vm-106-disk-0@__replicate_106-0_1683249039__' failed: got timeout
May 05 04:21:11 proxmox2 pvescheduler[3573696]: 106-0: got unexpected replication job error - command 'zfs snapshot tank1/data1/vm-106-disk-1@__replicate_106-0_1683253247__' failed: got timeout
May 05 04:30:56 proxmox2 pvescheduler[3764647]: 103-0: got unexpected replication job error - command 'zfs snapshot tank1/data1/vm-103-disk-0@__replicate_103-0_1683253844__' failed: got timeout
May 05 08:01:09 proxmox2 pvescheduler[2058055]: 106-0: got unexpected replication job error - command 'zfs snapshot tank1/data1/vm-106-disk-0@__replicate_106-0_1683266452__' failed: got timeout
May 05 09:11:13 proxmox2 pvescheduler[3022147]: 106-0: got unexpected replication job error - command 'zfs snapshot tank1/data1/vm-106-disk-0@__replicate_106-0_1683270654__' failed: got timeout
May 05 10:01:12 proxmox2 pvescheduler[3796900]: 106-0: got unexpected replication job error - command 'zfs snapshot tank1/data1/vm-106-disk-0@__replicate_106-0_1683273655__' failed: got timeout

Node Proxmox1:

Code:
May 01 01:27:12 proxmox1 pvescheduler[1074416]: 108-0: got unexpected replication job error - command 'zfs snapshot tank1/data1/vm-108-disk-0@__replicate_108-0_1682897195__' failed: got timeout
May 01 12:27:00 proxmox1 pvescheduler[2453030]: 105-0: got unexpected replication job error - command 'zfs snapshot tank1/data1/vm-105-disk-0@__replicate_105-0_1682936779__' failed: got timeout
May 03 23:31:09 proxmox1 pvescheduler[4147195]: 109-0: got unexpected replication job error - command 'zfs snapshot tank1/data1/vm-109-disk-0@__replicate_109-0_1683149449__' failed: got timeout
May 04 04:12:08 proxmox1 pvescheduler[3614320]: 109-0: got unexpected replication job error - command 'zfs snapshot tank1/data1/vm-109-disk-1@__replicate_109-0_1683166250__' failed: got timeout
May 04 16:51:10 proxmox1 pvescheduler[2865213]: 109-0: got unexpected replication job error - command 'zfs snapshot tank1/data1/vm-109-disk-0@__replicate_109-0_1683211856__' failed: got timeout
May 04 19:41:17 proxmox1 pvescheduler[887545]: 109-0: got unexpected replication job error - command 'zfs snapshot tank1/data1/vm-109-disk-1@__replicate_109-0_1683222049__' failed: got timeout
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!