Fehler beim Syncen von einem pbs auf das andere

May 4, 2021
105
4
38
43
Hallo
Wir haben für jeden Datastore auf pbs02 ein Gegenstück auf pbs03. Ich habe testweise die eigenen Prune-Jobs auf pbs03 entfernt und es mit "Remove Vanished" probiert, in der Hoffnung, daß danach der Inhalt von Datastor 1 auf pbs02 identisch mit Datastor 2 auf pbs03 wären und das Problem behoben werden. Pustekuchen. Auffällig ist: Der Fehler tritt nur bei größeren Datastores auf, die kleinen, d.h. 1-2TB verursachen den Fehler nicht. Es erfolgt eine anonymisierte Version des Fehlerlogs:

2025-05-26T00:00:00+02:00: Starting datastore sync job 'pbs02:anoncustomer:o-anoncustomer::s-b2707cf6-44b4'
2025-05-26T00:00:00+02:00: task triggered by schedule 'daily'
2025-05-26T00:00:00+02:00: sync datastore 'o-anoncustomer' from 'pbs02/anoncustomer'
2025-05-26T00:00:00+02:00: ----
2025-05-26T00:00:00+02:00: Syncing datastore 'anoncustomer', root namespace into datastore 'o-anoncustomer', root namespace
2025-05-26T00:00:00+02:00: found 3 groups to sync (out of 3 total)
2025-05-26T00:00:00+02:00: re-sync snapshot vm/200/2025-01-21T10:22:21Z
2025-05-26T00:00:00+02:00: percentage done: 33.33% (1/3 groups)
2025-05-26T00:00:00+02:00: re-sync snapshot vm/210/2025-01-21T10:26:04Z
2025-05-26T00:00:00+02:00: percentage done: 66.67% (2/3 groups)
2025-05-26T00:00:02+02:00: skipped: 93 snapshot(s) (2025-01-21T11:36:46Z .. 2025-05-22T02:00:04Z) - older than the newest snapshot present on sync target
2025-05-26T00:00:02+02:00: re-sync snapshot vm/250/2025-05-23T02:00:07Z
2025-05-26T00:00:02+02:00: percentage done: 77.78% (2/3 groups, 1/3 snapshots in group #3)
2025-05-26T00:00:02+02:00: sync snapshot vm/250/2025-05-24T02:00:04Z
2025-05-26T00:00:02+02:00: sync archive qemu-server.conf.blob
2025-05-26T00:00:02+02:00: sync archive drive-scsi1.img.fidx
2025-05-26T00:04:16+02:00: removing backup snapshot "/backup/o-anoncustomer/vm/250/2025-05-24T02:00:04Z"
2025-05-26T00:04:16+02:00: percentage done: 88.89% (2/3 groups, 2/3 snapshots in group #3)
2025-05-26T00:04:16+02:00: sync group vm/250 failed - connection closed because of a broken pipe
2025-05-26T00:04:16+02:00: Finished syncing root namespace, current progress: 2 groups, 2 snapshots
2025-05-26T00:04:16+02:00: TASK ERROR: sync failed with some errors.



Vielen Dank und viele Grüße
Stefan
 
2025-05-26T00:04:16+02:00: sync group vm/250 failed - connection closed because of a broken pipe
klingt nach einem netzwerk problem.. wie ist den die anbindung ziwschen den beiden PBS systemen?
 
Die Rechner stehen in zwei verschiedenen RZs in Frankfurt. Ich habe gerade Rücksprache mit unserem Netzwerk-Guru gehalten und folgende Antwort bekommen: Von den PBS-Servern zum Switch in beiden Rechenzentren 2 x 10Gbit vmbr bundle mit lacp (also 20Gbits) und zwischen den beiden Rechenzentren haben wir 40Gbits. Natürlich werden auch unsere Leitungen überwacht und uns sind keine Störungen bekannt. (Paket Loss, hohe Pings etc.)

Ich bekomme immer diese Meldung
skipped: 93 snapshot(s) (2025-01-21T11:36:46Z .. 2025-05-22T02:00:04Z) - older than the newest snapshot present on sync target
Müssten bei einem Sync mit Remove Vanished nicht beide Repos exakt die selben Backups haben, d.h. eigentlich auch die älteren snapshots inkludieren, die hier, soweit ich das verstehe, übergangen werden? Wenn nein: Kann ich das irgendwo aktivieren wenn ich wirklich 1:1 will? Wenn das eine schlechte Idee bin ich für Alternativvorschläge ausgesprochen offen.

Viele Grüße
Stefan
 
nein, das geht (derzeit noch) nicht - PBS erlaubt immer nur neue snapshots, ein sync ist da keine ausnahme. da das auch auf der quelle gilt, haben die datastores dann trotzdem denselben inhalt ausser
- du prunest am target haendisch
- du machst
-- sync
-- prune last snapshot(s) auf der quelle
-- neuer snapshot mit timestmap in der vergangenheit(!) zwischen letztem auf der quelle und letztem am target
-- sync

solange du am target keine GC machst, kannst du dort den ganzen datastore prunen und neu syncen - die chunks bleiben dabei bestehen und nur die metadaten (und noch nicht vorhandene chunks) muessen gesynced werden. oder du machst den sync in einen neuen namespace, selbes prinzip.
 
  • Like
Reactions: Johannes S