Backup schlägt bei einer VM immer fehl

daschmidt · Jun 30, 2025

Guten morgen,

hab bei einer VM das problem das das Backup fehlschlägt.

Code:

ERROR: job failed with err -5 - Input/output error
INFO: aborting backup job
INFO: resuming VM again
ERROR: Backup of VM 101 failed - job failed with err -5 - Input/output error

alle restlichen Backups von LXC und VM klappen.

Der Backupjob ist täglich um 02:00 auf einen NSF share.

news · Jun 30, 2025

Danke für die Rückmeldung, das ist ja wunderbar!

UdoB · Jun 30, 2025

news said:
Danke für die Rückmeldung, das ist ja wunderbar!

Sarkasmus? So früh am Morgen?

daschmidt said:
ERROR: job failed with err -5 - Input/output error

Dein Post enthält keinerlei Frage, daher bedankt sich @news nur ;-)

Zur Analyse sind offensichtlich weitere Informationen notwendig, zum Beispiel:

tritt das Problem "nur" um zwei Uhr auf, oder auch wenn du das manuell startest?
wie sieht die NFS-Anbindung aus? cat /etc/pve/storage.cfg
wie ist die VM konfiguriert? qm config <vmid> --current
wie ist die Last (zum Problemzeitpunkt) auf dem PVE? Aktuell: w; head /proc/pressure/*
wie ist die Last auf der Destination (zum Problemzeitpunkt)? Machen vielleicht 100 Server gleichzeitg backup? Auch dort: w; head /proc/pressure/*
gibt es im Journal sonstige Fehler (oder Warnungen)? journalctl -p 4 --since "2025-06-30 01:58:00" --until "2025-06-30 02:05:00"

daschmidt · Jun 30, 2025

UdoB said:
Dein Post enthält keinerlei Frage, daher bedankt sich @news nur ;-)

Nicht mein Humor fahre ja auch in die Autowerkstatt und schildere "nur" das Problem aber ist halt so.

Code:

nfs: truenas
        export /mnt/tank/backups/proxmox
        path /mnt/pve/truenas
        server 192.168.178.199
        content images,rootdir,snippets,backup,iso,vztmpl
        options vers=4
        prune-backups keep-all=4

Code:

efidisk0: vmdata:vm-101-disk-0,efitype=4m,size=4M
localtime: 1
memory: 16384
meta: creation-qemu=8.1.2,ctime=1703793801
name: homeassistant
net0: virtio=02:17:AE:17:70:54,bridge=vmbr0
numa: 0
onboot: 1
ostype: l26
parent: pre-update-20250526_114821
protection: 0
scsi0: vmdata:vm-101-disk-1,cache=writethrough,discard=on,size=32G,ssd=1
scsihw: virtio-scsi-pci
smbios1: uuid=a2e04d16-501c-4996-84e1-0bf8f9a6910c
sockets: 1
tablet: 0
vmgenid: 21959fd8-a6fb-4f93-bbb2-68aaaba22ab8

Code:

root@pve:~# w; head /proc/pressure/*
 08:47:24 up 17 days, 21:43,  5 users,  load average: 7.07, 2.76, 2.34
USER     TTY      FROM             LOGIN@   IDLE   JCPU   PCPU WHAT
root     pts/0    100.95.142.240   08:40    1.00s  0.06s  0.04s w
==> /proc/pressure/cpu <==
some avg10=2.38 avg60=0.92 avg300=0.42 total=13477977813
full avg10=0.00 avg60=0.00 avg300=0.00 total=0
==> /proc/pressure/io <==
some avg10=50.53 avg60=17.56 avg300=7.68 total=151709578666
full avg10=41.29 avg60=14.41 avg300=6.77 total=146214202126
==> /proc/pressure/memory <==
some avg10=7.45 avg60=2.80 avg300=0.67 total=522623437
full avg10=6.33 avg60=2.39 avg300=0.57 total=486293491

Code:

Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x10 SErr 0xc0000>Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1: SError: { CommWake 10B8B }
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:20:70:ca:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:70:ca:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98093680 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233614>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x37c04 SErr 0x0 >Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:50:20:e2:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:20:e2:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98099744 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233690>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x83e007c0 SErr 0>Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:30:70:ca:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:70:ca:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98093680 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233614>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0xf7e10 SErr 0x0 >Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:98:20:e2:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:20:e2:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98099744 op 0x0:(READ) f>lines 1-36...skipping...
Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x10 SErr 0xc0000>Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1: SError: { CommWake 10B8B }
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:20:70:ca:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:70:ca:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98093680 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233614>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x37c04 SErr 0x0 >Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:50:20:e2:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:20:e2:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98099744 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233690>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x83e007c0 SErr 0>Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:30:70:ca:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:70:ca:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98093680 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233614>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0xf7e10 SErr 0x0 >Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:98:20:e2:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:20:e2:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98099744 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233690>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0xf28007 SErr 0x0>Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:88:20:e2:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:20:e2:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98099744 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233690>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x9ff8980 SErr 0x>Jun 30 02:02:30 pve kernel: ata1.00: irq_stat 0x40000008
Jun 30 02:02:30 pve kernel: ata1.00: failed command: READ FPDMA QUEUED
Jun 30 02:02:30 pve kernel: ata1.00: cmd 60/08:78:a0:da:d8/00:00:05:00:00/40 ta>                                     res 41/40:08:a0:da:d8/00:00:05:00:00/00 Em>Jun 30 02:02:30 pve kernel: ata1.00: status: { DRDY ERR }
Jun 30 02:02:30 pve kernel: ata1.00: error: { UNC }
Jun 30 02:02:30 pve kernel: I/O error, dev sda, sector 98097824 op 0x0:(READ) f>Jun 30 02:02:30 pve kernel: Buffer I/O error on dev dm-16, logical block 233666>Jun 30 02:02:30 pve kernel: ata1.00: exception Emask 0x0 SAct 0x3dc0 SErr 0x0 a>lines 1-56

sieht fast so aus als ob die Disk hinüber ist oder?

UdoB · Jun 30, 2025

daschmidt said:
sieht fast so aus als ob die Disk hinüber ist oder?

Die diversen Sektornummern lassen das vermuten.

Allerdings werden immer nur dieselben zwei Sektoren bemängelt. Ich würde die Platte also genauer untersuchen. Ein Selbsttest (long) und bewerten des Resultats sollten mehr Aufschluss geben. Möglicherweise ist dann ein anschließendes formatieren mit Datenverlust empfehlenswert/möglich.

news · Jun 30, 2025

UdoB said:
Sarkasmus? So früh am Morgen?

Guten Morgen @UdoB ja heute mal ein neuer Gedanke.

Alles wird gut oder besser, evtl. aber nur, wenn Menschen mir Problemen auch etwas beitragen.

daschmidt · Jun 30, 2025

UdoB said:
Möglicherweise ist dann ein anschließendes formatieren mit Datenverlust empfehlenswert/möglich.

eine neue SSD zu verbauen wäre ja ansich kein Problem, jedoch kann ich ja kein Backup mehr von der VM erstellen da diese ja mit dem I/O Error abbricht.

Kannst du mir da kurz helfen wie ich da am besten vorgehen soll?

news · Jun 30, 2025

Guten Morgen,

ich würde mir zeitlich eingeschränkt eine SATA3 --> USB3 Adapter zulegen und eine neue Backup SSD (Kingston DC600M ab 480 GB).
Und anschließend Portionieren, mit ext4 oder xfs Formatieren und unter Proxmox VE Storrage einfügen.
Dann alle Backup laufen lassen und überprüfen.
Danach ist eine Reparatur/ Austausch sicherlich denkbar.

daschmidt · Jun 30, 2025

news said:
Dann alle Backup laufen lassen und überprüfen.

Es laufen alle backups bis auf Homeassistant durch.

Einen Adapter müsste ich irgendwo Zuhause liegen haben.
Sprich USB Adapter mit SSD hinzufügen alle LXC und VM migrieren neue SSD rein und wieder migrieren. Verstehe ich das richtig?

UdoB · Jun 30, 2025

daschmidt said:
Kannst du mir da kurz helfen wie ich da am besten vorgehen soll?

Dazu gibt es viel zu viele Möglichkeiten, also keine Vorgabe von mir.

Das ist eine einzelne SSD auf dem PVE node, richtig? Wie die eingebunden ist, hatten wir noch nicht geklärt.

An diese Stelle etwas Werbung: in einem "mirrored" ZFS-pool kann man einfach physische Datenträger austauschen, ohne dass die VMs das überhaupt mitbekommen - die dürfen sogar gerne einfach kontinuierlich weiterlaufen ;-)

@news's Hinweise in #8 sind ansonsten sicher richtig.

daschmidt · Jun 30, 2025

UdoB said:
An diese Stelle etwas Werbung: in einem "mirrored" ZFS-pool kann man einfach physische Datenträger austauschen, ohne dass die VMs das überhaupt mitbekommen - die dürfen sogar gerne einfach kontinuierlich weiterlaufen ;-)

Ja ich weiß bin am überlegen ob ich mir n5pro oder wtr-max kaufen soll, mal schauen was die Testberichte dann noch bringen.

daschmidt · Jul 7, 2025

news said:
ich würde mir zeitlich eingeschränkt eine SATA3 --> USB3 Adapter zulegen und eine neue Backup SSD

hab jetzt versucht die Festplatte zu migrieren da bekomme ich den gleichen fehler:

Code:

qemu-img: error while reading at byte 9567205376: Input/output error
qemu-img: error while reading at byte 9571399680: Input/output error
qemu-img: error while reading at byte 9569302528: Input/output error
  Logical volume "vm-101-disk-1" successfully removed.

jim_os · Jul 7, 2025

daschmidt said:
jedoch kann ich ja kein Backup mehr von der VM erstellen da diese ja mit dem I/O Error abbricht.
...
Es laufen alle backups bis auf Homeassistant durch.

Wenn ich das richtig versteht geht es nur um eine HA VM, richtig? Du könntest dann natürlich auch die HA-eigene Backup-Funktion nutzen

und damit ein Backup erstellen. Wenn/Falls das fehlerfrei funktioniert kannst Du die HA VM mit dem Problem ja auch platt machen, irgendwo eine neue HA VM erstellen (was auch immer Du dann dafür aktuell an SSD zur Verfügung hast) und dann das HA Backup bei der neuen HA VM einspielen. Das wäre ja schnell gemacht.

Edit: Oder hast Du das mit der HA-eigenen Backup-Funktion auch schon probiert und das funktioniert auch nicht?

VG JIm

daschmidt · Jul 7, 2025

jim_os said:
Wenn ich das richtig versteht geht es nur um eine HA VM, richtig? Du könntest dann natürlich auch die HA-eigene Backup-Funktion nutzen

an das hab ich aich schon gedacht, leider sind aber 3 andere LXC auch betroffen

jim_os · Jul 7, 2025

Ah ok, weil Du ja geschrieben hattest das es nur die HA VM betrifft und alle anderen VM/LXC nicht. Wenn ext4: Falls Du mit fsck.ext4 auch nichts mehr machen/reparieren kannst sieht es wohl eher schlecht aus und dann wirst Du wohl notgedrungen auf ältere Backups der VM/LXC zurückgreifen müssen. Wenn Du - wie oben geschrieben - tägliche Backup-Jobs nutzt sollte das dann ja eigentlich auch kein "so" großes Problem sein.

Außerdem steht ja auch immer noch diese Frage

UdoB said:
Das ist eine einzelne SSD auf dem PVE node, richtig? Wie die eingebunden ist, hatten wir noch nicht geklärt.

im Raum und dann was genau Du da jetzt versucht hast zu migrieren, weil

daschmidt said:
Logical volume "vm-101-disk-1" successfully removed.

Das (scheinbar) defekte Sektoren nicht gelesen und somit nicht kopiert oder "migriert" werden können dürfte ja klar sein und somit auch das es dann zu Fehlermeldungen kommt. Edit: Was dann die bessere Wahl ist, sprich mit ggf. unvollständig kopierten/migrierten Daten weiter zu arbeiten, oder eher auf das einspielen von hoffentlich vorhandenen Backups zu setzen, muss Du natürlich selber entscheiden.

VG Jim

daschmidt · Jul 7, 2025

jim_os said:
Ah ok, weil Du ja geschrieben hattest das es nur die HA VM betrifft und alle anderen VM/LXC nicht.

da hab ich leider nicht weiter geschaut.

jim_os said:
Außerdem steht ja auch immer noch diese Frage

Meinst du damit LVM-Thin?

jim_os said:
vorhandenen Backups zu setzen, muss Du natürlich selber entscheiden.

ja backups sind verhanden jedoch schon etwas älter...

so ein sch*** hätte gleich etwas mehr Geld investieren sollen damit ich da dann wenigstens Raid1 habe

Search

Search

Backup schlägt bei einer VM immer fehl

daschmidt

Member

news

Renowned Member

UdoB

Distinguished Member

daschmidt

Member

UdoB

Distinguished Member

news

Renowned Member

daschmidt

Member

news

Renowned Member

daschmidt

Member

UdoB

Distinguished Member

daschmidt

Member

daschmidt

Member

jim_os

Well-Known Member

daschmidt

Member

jim_os

Well-Known Member

daschmidt

Member

We value your privacy