Hallo zusammen,
Homelab-User hier, PVE auf einem Minisforum mit NVMe und 2xSSDs. PBS auf separatem Rechner, aber für Offsitebackups habe ich bis dato auf meinem PC mit Virtualbox in einem PBS zusätzlich erfolgreich gesichert, um die VDI Datei auslagern zu können. Eine Menge ist in letzter Zeit passiert, Trixie, PBSto4, PVEto9, arch Kernel Bug mit Netzwerkproblemen (inzwischen gefixt), daher kann ich den Zeitpunkt des ersten Auftretens des folgenden Problems nicht mehr eingrenzen.
Wenn ich aber genau eine spezifische Disk in Richtung Virtualbox schieben will, hängt sich die VM inkl. des Backups auf (siehe Screenshot). Die Disk ist eine OS Disk mit Trixie, ich kann es durch detaching der anderen Disks genau auf diese VM-Disk eingrenzen.
Alle Backups (sämtlicher anderer VMs/Disks) in Richtung des Virtualbox PBS funktionieren soweit, daher schließe ich aktuell Netzwerk/Switch und Virtualbox als Ursache aus (habe iach mal eine andere NIC als INTEL1000 versucht).
Folgende Logs kann ich anbieten:
PVE Log:
PBS Virtualbox Log:
Alle SMART Werte sind aus meiner Sicht ohne Probleme, mit der betreffende VM-Disk habe ich auf zwei verschiedenen PVE-Festplatten den gleichen Effekt, das Backup bricht ab.
Verschiedene Dinge habe ich schon ausprobiert:
- fsck -a -y in allen Varianten inkl. GParted und kpartx, sowohl innerhalb der VM, also auch auf dem PVE. Nach dem Reboot läuft fsck und behebt inode Errors
- /forcefsck auf dem PVE ebenfalls ohne Auffälligkeiten
- Fleecing (Effekt: Backup startet erst gar nicht, hängt bei 0%. Bei Backups ohne Fleecing kommt der Prozess bis ca. 8%, bis die Buffer I/O Erros losgehen und die VM sich aufhängt)
- RAM der VM deutlich erhöht (es ist mehr als ausreichend free)
- alle Partitionen auf dem Host oder innerhalb der Disks haben ausreichend Speicherplatz
- KSM deaktiviert
- io_thread / SCSI-single aktiviert/deaktiviert, Discard ist an
- Problem besteht sowohl bei running als auch stopped VM (mit dem Unterschied, dass ich bei laufender VM auf der Console die Fehler aus dem Screenshot überhaupt erst sehen kann)
Habt Ihr noch Hinweise oder Tipps, was ich zur Analyse bzw. Behebung durchführen kann? Vielen Dank im Voraus
Homelab-User hier, PVE auf einem Minisforum mit NVMe und 2xSSDs. PBS auf separatem Rechner, aber für Offsitebackups habe ich bis dato auf meinem PC mit Virtualbox in einem PBS zusätzlich erfolgreich gesichert, um die VDI Datei auslagern zu können. Eine Menge ist in letzter Zeit passiert, Trixie, PBSto4, PVEto9, arch Kernel Bug mit Netzwerkproblemen (inzwischen gefixt), daher kann ich den Zeitpunkt des ersten Auftretens des folgenden Problems nicht mehr eingrenzen.
Wenn ich aber genau eine spezifische Disk in Richtung Virtualbox schieben will, hängt sich die VM inkl. des Backups auf (siehe Screenshot). Die Disk ist eine OS Disk mit Trixie, ich kann es durch detaching der anderen Disks genau auf diese VM-Disk eingrenzen.
Alle Backups (sämtlicher anderer VMs/Disks) in Richtung des Virtualbox PBS funktionieren soweit, daher schließe ich aktuell Netzwerk/Switch und Virtualbox als Ursache aus (habe iach mal eine andere NIC als INTEL1000 versucht).
Folgende Logs kann ich anbieten:
PVE Log:
Code:
INFO: Starting Backup of VM 3100 (qemu)
INFO: Backup started at 2025-09-14 11:13:09
INFO: status = running
INFO: backup mode: suspend
INFO: ionice priority: 7
INFO: VM Name: dmz
INFO: include disk 'scsi0' 'nextcloud_data:vm-3100-disk-1' 128G
INFO: include disk 'scsi1' 'nextcloud_data:vm-3100-disk-0' 120G
INFO: suspending guest
INFO: creating Proxmox Backup Server archive 'vm/3100/2025-09-14T09:13:09Z'
INFO: skipping guest-agent 'fs-freeze', agent configured but not running?
INFO: started backup task '12a1a8aa-ef27-4009-a143-f9ecb99a1e95'
INFO: resuming VM again after 4 seconds
INFO: scsi0: dirty-bitmap status: created new
INFO: scsi1: dirty-bitmap status: created new
INFO: 0% (424.0 MiB of 248.0 GiB) in 3s, read: 141.3 MiB/s, write: 132.0 MiB/s
INFO: 1% (2.5 GiB of 248.0 GiB) in 19s, read: 135.0 MiB/s, write: 133.5 MiB/s
INFO: resume vm
ERROR: Backup of VM 3100 failed - backup write data failed: command error: protocol canceled
INFO: Failed at 2025-09-14 11:21:48
INFO: Backup job finished with errors
INFO: notified via target `mail-to-root`
TASK ERROR: job errors
PBS Virtualbox Log:
Code:
2025-09-14T09:18:56+02:00: starting new backup on datastore 'mbs-vmstrix-backup' from ::ffff:10.10.1.100: "vm/3100/2025-09-14T07:18:51Z"
2025-09-14T09:18:56+02:00: download 'index.json.blob' from previous backup 'vm/3100/2025-09-04T20:50:12Z'.
2025-09-14T09:18:56+02:00: register chunks in 'drive-scsi0.img.fidx' from previous backup 'vm/3100/2025-09-04T20:50:12Z'.
2025-09-14T09:18:56+02:00: download 'drive-scsi0.img.fidx' from previous backup 'vm/3100/2025-09-04T20:50:12Z'.
2025-09-14T09:18:56+02:00: created new fixed index 1 ("vm/3100/2025-09-14T07:18:51Z/drive-scsi0.img.fidx")
2025-09-14T09:18:56+02:00: GET /previous: 400 Bad Request: Unable to open fixed index "/mbs-vmstrix-backup/vm/3100/2025-09-04T20:50:12Z/drive-scsi1.img.fidx" - No such file or directory (os error 2)
2025-09-14T09:18:56+02:00: created new fixed index 2 ("vm/3100/2025-09-14T07:18:51Z/drive-scsi1.img.fidx")
2025-09-14T09:18:56+02:00: add blob "/mbs-vmstrix-backup/vm/3100/2025-09-14T07:18:51Z/qemu-server.conf.blob" (393 bytes, comp: 393)
2025-09-14T09:35:43+02:00: backup failed: task aborted
2025-09-14T09:35:43+02:00: removing failed backup
2025-09-14T09:35:43+02:00: removing backup snapshot "/mbs-vmstrix-backup/vm/3100/2025-09-14T07:18:51Z"
2025-09-14T09:35:43+02:00: POST /fixed_chunk: 400 Bad Request: error reading a body from connection
2025-09-14T09:35:43+02:00: POST /fixed_chunk: 400 Bad Request: error reading a body from connection
Alle SMART Werte sind aus meiner Sicht ohne Probleme, mit der betreffende VM-Disk habe ich auf zwei verschiedenen PVE-Festplatten den gleichen Effekt, das Backup bricht ab.
Verschiedene Dinge habe ich schon ausprobiert:
- fsck -a -y in allen Varianten inkl. GParted und kpartx, sowohl innerhalb der VM, also auch auf dem PVE. Nach dem Reboot läuft fsck und behebt inode Errors
- /forcefsck auf dem PVE ebenfalls ohne Auffälligkeiten
- Fleecing (Effekt: Backup startet erst gar nicht, hängt bei 0%. Bei Backups ohne Fleecing kommt der Prozess bis ca. 8%, bis die Buffer I/O Erros losgehen und die VM sich aufhängt)
- RAM der VM deutlich erhöht (es ist mehr als ausreichend free)
- alle Partitionen auf dem Host oder innerhalb der Disks haben ausreichend Speicherplatz
- KSM deaktiviert
- io_thread / SCSI-single aktiviert/deaktiviert, Discard ist an
- Problem besteht sowohl bei running als auch stopped VM (mit dem Unterschied, dass ich bei laufender VM auf der Console die Fehler aus dem Screenshot überhaupt erst sehen kann)
Habt Ihr noch Hinweise oder Tipps, was ich zur Analyse bzw. Behebung durchführen kann? Vielen Dank im Voraus
Attachments
Last edited: