Backup schlägt bei einer VM immer fehl

Feb 5, 2023
46
2
13
Österreich
Guten morgen,

hab bei einer VM das problem das das Backup fehlschlägt.

Code:
ERROR: job failed with err -5 - Input/output error
INFO: aborting backup job
INFO: resuming VM again
ERROR: Backup of VM 101 failed - job failed with err -5 - Input/output error

alle restlichen Backups von LXC und VM klappen.

Der Backupjob ist täglich um 02:00 auf einen NSF share.
 
Danke für die Rückmeldung, das ist ja wunderbar!
Sarkasmus? So früh am Morgen?

ERROR: job failed with err -5 - Input/output error
Dein Post enthält keinerlei Frage, daher bedankt sich @news nur ;-)

Zur Analyse sind offensichtlich weitere Informationen notwendig, zum Beispiel:
  • tritt das Problem "nur" um zwei Uhr auf, oder auch wenn du das manuell startest?
  • wie sieht die NFS-Anbindung aus? cat /etc/pve/storage.cfg
  • wie ist die VM konfiguriert? qm config <vmid> --current
  • wie ist die Last (zum Problemzeitpunkt) auf dem PVE? Aktuell: w; head /proc/pressure/*
  • wie ist die Last auf der Destination (zum Problemzeitpunkt)? Machen vielleicht 100 Server gleichzeitg backup? Auch dort: w; head /proc/pressure/*
  • gibt es im Journal sonstige Fehler (oder Warnungen)? journalctl -p 4 --since "2025-06-30 01:58:00" --until "2025-06-30 02:05:00"
 
Dein Post enthält keinerlei Frage, daher bedankt sich @news nur ;-)
Nicht mein Humor fahre ja auch in die Autowerkstatt und schildere "nur" das Problem aber ist halt so.

Code:
nfs: truenas
        export /mnt/tank/backups/proxmox
        path /mnt/pve/truenas
        server 192.168.178.199
        content images,rootdir,snippets,backup,iso,vztmpl
        options vers=4
        prune-backups keep-all=4

Code:
efidisk0: vmdata:vm-101-disk-0,efitype=4m,size=4M
localtime: 1
memory: 16384
meta: creation-qemu=8.1.2,ctime=1703793801
name: homeassistant
net0: virtio=02:17:AE:17:70:54,bridge=vmbr0
numa: 0
onboot: 1
ostype: l26
parent: pre-update-20250526_114821
protection: 0
scsi0: vmdata:vm-101-disk-1,cache=writethrough,discard=on,size=32G,ssd=1
scsihw: virtio-scsi-pci
smbios1: uuid=a2e04d16-501c-4996-84e1-0bf8f9a6910c
sockets: 1
tablet: 0
vmgenid: 21959fd8-a6fb-4f93-bbb2-68aaaba22ab8

Code:
root@pve:~# w; head /proc/pressure/*
 08:47:24 up 17 days, 21:43,  5 users,  load average: 7.07, 2.76, 2.34
USER     TTY      FROM             LOGIN@   IDLE   JCPU   PCPU WHAT
root     pts/0    100.95.142.240   08:40    1.00s  0.06s  0.04s w
==> /proc/pressure/cpu <==
some avg10=2.38 avg60=0.92 avg300=0.42 total=13477977813
full avg10=0.00 avg60=0.00 avg300=0.00 total=0
==> /proc/pressure/io <==
some avg10=50.53 avg60=17.56 avg300=7.68 total=151709578666
full avg10=41.29 avg60=14.41 avg300=6.77 total=146214202126
==> /proc/pressure/memory <==
some avg10=7.45 avg60=2.80 avg300=0.67 total=522623437
full avg10=6.33 avg60=2.39 avg300=0.57 total=486293491

Code:
Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x10 SErr 0xc0000>Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1: SError: { CommWake 10B8B }
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:20:70:ca:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:70:ca:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98093680 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233614>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x37c04 SErr 0x0 >Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:50:20:e2:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:20:e2:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98099744 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233690>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x83e007c0 SErr 0>Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:30:70:ca:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:70:ca:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98093680 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233614>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0xf7e10 SErr 0x0 >Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:98:20:e2:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:20:e2:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98099744 op 0x0:(READ) f>lines 1-36...skipping...
Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x10 SErr 0xc0000>Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1: SError: { CommWake 10B8B }
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:20:70:ca:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:70:ca:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98093680 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233614>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x37c04 SErr 0x0 >Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:50:20:e2:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:20:e2:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98099744 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233690>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x83e007c0 SErr 0>Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:30:70:ca:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:70:ca:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98093680 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233614>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0xf7e10 SErr 0x0 >Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:98:20:e2:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:20:e2:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98099744 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233690>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0xf28007 SErr 0x0>Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:88:20:e2:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:20:e2:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98099744 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233690>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x9ff8980 SErr 0x>Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:78:a0:da:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:a0:da:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98097824 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233666>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x3dc0 SErr 0x0 a>lines 1-56


sieht fast so aus als ob die Disk hinüber ist oder?
 
sieht fast so aus als ob die Disk hinüber ist oder?
Die diversen Sektornummern lassen das vermuten.

Allerdings werden immer nur dieselben zwei Sektoren bemängelt. Ich würde die Platte also genauer untersuchen. Ein Selbsttest (long) und bewerten des Resultats sollten mehr Aufschluss geben. Möglicherweise ist dann ein anschließendes formatieren mit Datenverlust empfehlenswert/möglich.
 
Guten Morgen,

ich würde mir zeitlich eingeschränkt eine SATA3 --> USB3 Adapter zulegen und eine neue Backup SSD (Kingston DC600M ab 480 GB).
Und anschließend Portionieren, mit ext4 oder xfs Formatieren und unter Proxmox VE Storrage einfügen.
Dann alle Backup laufen lassen und überprüfen.
Danach ist eine Reparatur/ Austausch sicherlich denkbar.
 
Kannst du mir da kurz helfen wie ich da am besten vorgehen soll?
Dazu gibt es viel zu viele Möglichkeiten, also keine Vorgabe von mir.

Das ist eine einzelne SSD auf dem PVE node, richtig? Wie die eingebunden ist, hatten wir noch nicht geklärt.

An diese Stelle etwas Werbung: in einem "mirrored" ZFS-pool kann man einfach physische Datenträger austauschen, ohne dass die VMs das überhaupt mitbekommen - die dürfen sogar gerne einfach kontinuierlich weiterlaufen ;-)

@news's Hinweise in #8 sind ansonsten sicher richtig.
 
  • Like
Reactions: news
ich würde mir zeitlich eingeschränkt eine SATA3 --> USB3 Adapter zulegen und eine neue Backup SSD
hab jetzt versucht die Festplatte zu migrieren da bekomme ich den gleichen fehler:
Code:
qemu-img: error while reading at byte 9567205376: Input/output error
qemu-img: error while reading at byte 9571399680: Input/output error
qemu-img: error while reading at byte 9569302528: Input/output error
  Logical volume "vm-101-disk-1" successfully removed.
 
jedoch kann ich ja kein Backup mehr von der VM erstellen da diese ja mit dem I/O Error abbricht.
...
Es laufen alle backups bis auf Homeassistant durch.
Wenn ich das richtig versteht geht es nur um eine HA VM, richtig? Du könntest dann natürlich auch die HA-eigene Backup-Funktion nutzen

HA_Backups.png
und damit ein Backup erstellen. Wenn/Falls das fehlerfrei funktioniert kannst Du die HA VM mit dem Problem ja auch platt machen, irgendwo eine neue HA VM erstellen (was auch immer Du dann dafür aktuell an SSD zur Verfügung hast) und dann das HA Backup bei der neuen HA VM einspielen. Das wäre ja schnell gemacht.

Edit: Oder hast Du das mit der HA-eigenen Backup-Funktion auch schon probiert und das funktioniert auch nicht?

VG JIm
 
Last edited:
  • Like
Reactions: Johannes S
Ah ok, weil Du ja geschrieben hattest das es nur die HA VM betrifft und alle anderen VM/LXC nicht. Wenn ext4: Falls Du mit fsck.ext4 auch nichts mehr machen/reparieren kannst sieht es wohl eher schlecht aus und dann wirst Du wohl notgedrungen auf ältere Backups der VM/LXC zurückgreifen müssen. Wenn Du - wie oben geschrieben - tägliche Backup-Jobs nutzt sollte das dann ja eigentlich auch kein "so" großes Problem sein. :)

Außerdem steht ja auch immer noch diese Frage
Das ist eine einzelne SSD auf dem PVE node, richtig? Wie die eingebunden ist, hatten wir noch nicht geklärt.
im Raum und dann was genau Du da jetzt versucht hast zu migrieren, weil
Logical volume "vm-101-disk-1" successfully removed.
Das (scheinbar) defekte Sektoren nicht gelesen und somit nicht kopiert oder "migriert" werden können dürfte ja klar sein und somit auch das es dann zu Fehlermeldungen kommt. Edit: Was dann die bessere Wahl ist, sprich mit ggf. unvollständig kopierten/migrierten Daten weiter zu arbeiten, oder eher auf das einspielen von hoffentlich vorhandenen Backups zu setzen, muss Du natürlich selber entscheiden.

VG Jim
 
Last edited:
Ah ok, weil Du ja geschrieben hattest das es nur die HA VM betrifft und alle anderen VM/LXC nicht.
da hab ich leider nicht weiter geschaut.

Außerdem steht ja auch immer noch diese Frage
Meinst du damit LVM-Thin?

vorhandenen Backups zu setzen, muss Du natürlich selber entscheiden.
ja backups sind verhanden jedoch schon etwas älter...

so ein sch*** hätte gleich etwas mehr Geld investieren sollen damit ich da dann wenigstens Raid1 habe