Backup schlägt bei einer VM immer fehl

Feb 5, 2023
43
2
13
Österreich
Guten morgen,

hab bei einer VM das problem das das Backup fehlschlägt.

Code:
ERROR: job failed with err -5 - Input/output error
INFO: aborting backup job
INFO: resuming VM again
ERROR: Backup of VM 101 failed - job failed with err -5 - Input/output error

alle restlichen Backups von LXC und VM klappen.

Der Backupjob ist täglich um 02:00 auf einen NSF share.
 
Danke für die Rückmeldung, das ist ja wunderbar!
Sarkasmus? So früh am Morgen?

ERROR: job failed with err -5 - Input/output error
Dein Post enthält keinerlei Frage, daher bedankt sich @news nur ;-)

Zur Analyse sind offensichtlich weitere Informationen notwendig, zum Beispiel:
  • tritt das Problem "nur" um zwei Uhr auf, oder auch wenn du das manuell startest?
  • wie sieht die NFS-Anbindung aus? cat /etc/pve/storage.cfg
  • wie ist die VM konfiguriert? qm config <vmid> --current
  • wie ist die Last (zum Problemzeitpunkt) auf dem PVE? Aktuell: w; head /proc/pressure/*
  • wie ist die Last auf der Destination (zum Problemzeitpunkt)? Machen vielleicht 100 Server gleichzeitg backup? Auch dort: w; head /proc/pressure/*
  • gibt es im Journal sonstige Fehler (oder Warnungen)? journalctl -p 4 --since "2025-06-30 01:58:00" --until "2025-06-30 02:05:00"
 
Dein Post enthält keinerlei Frage, daher bedankt sich @news nur ;-)
Nicht mein Humor fahre ja auch in die Autowerkstatt und schildere "nur" das Problem aber ist halt so.

Code:
nfs: truenas
        export /mnt/tank/backups/proxmox
        path /mnt/pve/truenas
        server 192.168.178.199
        content images,rootdir,snippets,backup,iso,vztmpl
        options vers=4
        prune-backups keep-all=4

Code:
efidisk0: vmdata:vm-101-disk-0,efitype=4m,size=4M
localtime: 1
memory: 16384
meta: creation-qemu=8.1.2,ctime=1703793801
name: homeassistant
net0: virtio=02:17:AE:17:70:54,bridge=vmbr0
numa: 0
onboot: 1
ostype: l26
parent: pre-update-20250526_114821
protection: 0
scsi0: vmdata:vm-101-disk-1,cache=writethrough,discard=on,size=32G,ssd=1
scsihw: virtio-scsi-pci
smbios1: uuid=a2e04d16-501c-4996-84e1-0bf8f9a6910c
sockets: 1
tablet: 0
vmgenid: 21959fd8-a6fb-4f93-bbb2-68aaaba22ab8

Code:
root@pve:~# w; head /proc/pressure/*
 08:47:24 up 17 days, 21:43,  5 users,  load average: 7.07, 2.76, 2.34
USER     TTY      FROM             LOGIN@   IDLE   JCPU   PCPU WHAT
root     pts/0    100.95.142.240   08:40    1.00s  0.06s  0.04s w
==> /proc/pressure/cpu <==
some avg10=2.38 avg60=0.92 avg300=0.42 total=13477977813
full avg10=0.00 avg60=0.00 avg300=0.00 total=0
==> /proc/pressure/io <==
some avg10=50.53 avg60=17.56 avg300=7.68 total=151709578666
full avg10=41.29 avg60=14.41 avg300=6.77 total=146214202126
==> /proc/pressure/memory <==
some avg10=7.45 avg60=2.80 avg300=0.67 total=522623437
full avg10=6.33 avg60=2.39 avg300=0.57 total=486293491

Code:
Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x10 SErr 0xc0000>Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1: SError: { CommWake 10B8B }
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:20:70:ca:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:70:ca:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98093680 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233614>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x37c04 SErr 0x0 >Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:50:20:e2:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:20:e2:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98099744 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233690>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x83e007c0 SErr 0>Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:30:70:ca:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:70:ca:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98093680 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233614>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0xf7e10 SErr 0x0 >Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:98:20:e2:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:20:e2:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98099744 op 0x0:(READ) f>lines 1-36...skipping...
Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x10 SErr 0xc0000>Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1: SError: { CommWake 10B8B }
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:20:70:ca:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:70:ca:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98093680 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233614>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x37c04 SErr 0x0 >Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:50:20:e2:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:20:e2:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98099744 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233690>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x83e007c0 SErr 0>Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:30:70:ca:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:70:ca:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98093680 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233614>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0xf7e10 SErr 0x0 >Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:98:20:e2:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:20:e2:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98099744 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233690>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0xf28007 SErr 0x0>Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:88:20:e2:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:20:e2:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98099744 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233690>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x9ff8980 SErr 0x>Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:78:a0:da:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:a0:da:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98097824 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233666>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x3dc0 SErr 0x0 a>lines 1-56


sieht fast so aus als ob die Disk hinüber ist oder?
 
sieht fast so aus als ob die Disk hinüber ist oder?
Die diversen Sektornummern lassen das vermuten.

Allerdings werden immer nur dieselben zwei Sektoren bemängelt. Ich würde die Platte also genauer untersuchen. Ein Selbsttest (long) und bewerten des Resultats sollten mehr Aufschluss geben. Möglicherweise ist dann ein anschließendes formatieren mit Datenverlust empfehlenswert/möglich.
 
Guten Morgen,

ich würde mir zeitlich eingeschränkt eine SATA3 --> USB3 Adapter zulegen und eine neue Backup SSD (Kingston DC600M ab 480 GB).
Und anschließend Portionieren, mit ext4 oder xfs Formatieren und unter Proxmox VE Storrage einfügen.
Dann alle Backup laufen lassen und überprüfen.
Danach ist eine Reparatur/ Austausch sicherlich denkbar.
 
Kannst du mir da kurz helfen wie ich da am besten vorgehen soll?
Dazu gibt es viel zu viele Möglichkeiten, also keine Vorgabe von mir.

Das ist eine einzelne SSD auf dem PVE node, richtig? Wie die eingebunden ist, hatten wir noch nicht geklärt.

An diese Stelle etwas Werbung: in einem "mirrored" ZFS-pool kann man einfach physische Datenträger austauschen, ohne dass die VMs das überhaupt mitbekommen - die dürfen sogar gerne einfach kontinuierlich weiterlaufen ;-)

@news's Hinweise in #8 sind ansonsten sicher richtig.
 
  • Like
Reactions: news