[SOLVED] PBS 4.1: Push Sync Jobs schlagen fehl, kein Output im Task Viewer & Connection Error

PeterZwgatPX

New Member
Sep 6, 2024
7
1
3
Hallo zusammen,


ich habe aktuell mehrere Probleme mit meinem lokalen Proxmox Backup Server, welche vermutlich zusammenhängen, und hoffe auf Unterstützung bei der Ursachenanalyse.


Wenn ich von meinem lokalen PBS einen Push Sync Job starte, schlägt dieser insbesondere bei größeren VMs fehl. Möchte ich mir danach den fehlgeschlagenen Task im Task Viewer ansehen, wird kein Output mehr angezeigt. Dadurch ist es für mich nicht nachvollziehbar, warum der Task fehlgeschlagen ist. Dieses Verhalten tritt nicht nur bei Sync Jobs auf, sondern auch bei Verify Jobs, bei denen ebenfalls kein Output im Task Viewer erscheint. Prune Jobs hingegen zeigen weiterhin wie erwartet Logausgaben an.


Zusätzlich erhalte ich einen Connection Error, sobald ich im Status-Tab eines bestimmten Tasks nachsehe. Parallel dazu wird das Log des lokalen PBS dauerhaft mit sehr ähnlichen Meldungen beschrieben, beispielsweise:
Code:
Dec 23 05:05:54 pbs proxmox-backup-proxy[788]: processed 10.867 GiB in 3d 15h 11m 8s, uploaded 7.289 GiB
Dec 23 05:05:59 pbs proxmox-backup-proxy[788]: processed 8.492 GiB in 3d 20m 5s, uploaded 6.59 GiB
Dec 23 05:06:01 pbs proxmox-backup-proxy[788]: processed 19 GiB in 1h 6m 0s, uploaded 16.379 GiB
Dec 23 05:06:04 pbs proxmox-backup-proxy[788]: processed 3.586 GiB in 2d 1h 6m 4s, uploaded 1.91 GiB
Dec 23 05:06:05 pbs proxmox-backup-proxy[788]: processed 1.089 TiB in 1d 1h 6m 2s, uploaded 127.473 GiB
Dec 23 05:06:06 pbs proxmox-backup-proxy[788]: processed 15.52 GiB in 3d 1h 6m 5s, uploaded 13.223 GiB
Dec 23 05:06:07 pbs proxmox-backup-proxy[788]: processed 1.419 GiB in 4d 1h 6m 7s, uploaded 1.101 GiB
Dec 23 05:06:07 pbs proxmox-backup-proxy[788]: processed 7.793 GiB in 3d 18h 30m 6s, uploaded 3.395 GiB
Dec 23 05:06:13 pbs proxmox-backup-proxy[788]: processed 4.813 GiB in 3d 18h 6m 9s, uploaded 2.711 GiB
Dec 23 05:06:27 pbs proxmox-backup-proxy[788]: processed 2.641 GiB in 3d 20h 45m 6s, uploaded 1.844 GiB
Diese Logeinträge wiederholen sich kontinuierlich, auch ohne dass aktiv ein Job gestartet wird.


Zu meinem Setup: Lokal setze ich einen Proxmox Backup Server in Version 4.1.0 ein. Dort sind eine 12 TB Seagate IronWolf, eine 4 TB WD Red sowie eine ältere 1 TB WD Blue verbaut. Jede Festplatte ist als eigener Datastore eingebunden, und alle Datastores nutzen ZFS.
Der Offsite-PBS läuft ebenfalls mit Version 4.1.0, nutzt zwei 2-TB-WD-Festplatten mit jeweils eigenem Datastore auf ext4 und ist über einen IPSec Site-to-Site-Tunnel angebunden. Auf diesem System treten keinerlei Probleme auf.


An Troubleshooting habe ich bereits versucht, die Datastores auf dem lokalen PBS, welche ursprünglich mit ext4 angelegt waren, neu als ZFS-Datastores zu erstellen. Zusätzlich habe ich den lokalen PBS komplett neu installiert. Außerdem habe ich sowohl den PBS selbst als auch den Dienst proxmox-backup-proxy.service mehrfach neu gestartet. Die Auslastung der Festplatten habe ich ebenfalls geprüft; keine der HDDs ist stärker als 50 % ausgelastet. Leider schlug bereits der erste Sync Job nach der Neuinstallation wieder fehl, und das beschriebene Verhalten trat erneut auf.


Vielen Dank im Voraus für eure Unterstützung.
 
Ich würde mal auf zu langsame Disks tippen. Die HDDs sind eh nicht schnell und wenn du dann auch noch ZFS nutzt dazu die Deduplizierung des PBS, hast du fast nur Random Daten, was die HDDs gar nicht gut können. Dann wird das irgendwann so langsam, dass Timeouts auftreten und dann hat mal so komische Effekte. Versuche mal immer nur einen Task, auf einer Disk laufen zu lassen und nichts Parallel. Dann sollte es leichter fallen, die Disk zu identifizieren, welche die Probleme verursacht.
 
  • Like
Reactions: Johannes S and news
Die Geschwindigkeit der HDD sollte eigentlich nicht für die fehlgeschlagenen Sync Jobs verantwortlich sein, da das Setup für ca. 1 Jahr ohne Probleme lief.
Du hast mich aber wahrscheinlich in die richtige Richtung geführt. Die betroffene HDD hat zwar die Smart Tests bestanden, aber in den SMART Daten der HDD sind einige Command Timeouts zu sehen, welche die fehlgeschlagenen Sync Jobs erklären könnten. Eine neue Festplatte ist bestellt, jedoch kann ich diese wahrscheinlich erst Anfang nächsten Jahres einbauen und schauen ob die HDD wirklich das Problem war.

Vielen Dank für die Unterstützung und schöne Weihnachten.