VM Disk zerstört kurz nach PBS Backup

Matthi

New Member
Mar 24, 2021
3
0
1
37
Liebe Proxmox Community

heute Nacht lief eine VM nach dem täglichen PBS Backup nicht mehr.
Setup:
  • PVE 6.3-2
  • PBS 1.0-1
  • betroffene Windows Server 2016 VM
    • 2 virtuelle Disks auf ZFS Storage
      • OS Disk 40GB
      • Data Disk 1.5TB
  • Backup mittels PBS incremental Snapshot QEMU Bitmap

Meine Diagnose ergab folgendes:
  • die OS Disk ist defekt --> Partitionstabelle ist leer
  • die Data Disk ist intakt
  • testdisk konnte die Partition finden und wiederherstellen
  • Windows 2016 Server bootet jedoch nicht --> "Windows failed to start. A recent hardware or software change might be the cause."

Logs vom PVE:

Mar 24 01:00:01 fbpve1 CRON[20036]: (root) CMD (vzdump 307 --storage fbpbs1-nas-storage --mailnotification always --mode snapshot --quiet 1) Mar 24 01:00:01 fbpve1 vzdump[20037]: <root@pam> starting task UPID:fbpve1:xxx:xxx:xxx:vzdump:307:root@pam: Mar 24 01:00:01 fbpve1 vzdump[20272]: INFO: starting new backup job: vzdump 307 --quiet 1 --mailnotification always --storage fbpbs1-nas-storage --mode snapshot Mar 24 01:00:01 fbpve1 vzdump[20272]: INFO: Starting Backup of VM 307 (qemu) Mar 24 01:00:58 fbpve1 vzdump[20272]: INFO: Finished Backup of VM 307 (00:00:57) Mar 24 01:00:58 fbpve1 vzdump[20272]: INFO: Backup job finished successfully Mar 24 01:00:58 fbpve1 vzdump[20037]: <root@pam> end task UPID:fbpve1:xxx:xxx:xxx:vzdump:307:root@pam: OK Mar 24 01:01:00 fbpve1 systemd[1]: Starting Proxmox VE replication runner... Mar 24 01:01:01 fbpve1 systemd[1]: pvesr.service: Succeeded. Mar 24 01:01:01 fbpve1 systemd[1]: Started Proxmox VE replication runner. Mar 24 01:02:00 fbpve1 systemd[1]: Starting Proxmox VE replication runner... Mar 24 01:02:01 fbpve1 systemd[1]: pvesr.service: Succeeded. Mar 24 01:02:01 fbpve1 systemd[1]: Started Proxmox VE replication runner. Mar 24 01:02:26 fbpve1 pvestatd[3175]: VM 307 qmp command failed - VM 307 qmp command 'query-proxmox-support' failed - got timeout Mar 24 01:02:27 fbpve1 pvestatd[3175]: status update time (6.281 seconds) Mar 24 01:02:36 fbpve1 pvestatd[3175]: VM 307 qmp command failed - VM 307 qmp command 'query-proxmox-support' failed - unable to connect to VM 307 qmp socket - timeout after 31 retries Mar 24 01:02:36 fbpve1 pvestatd[3175]: status update time (6.292 seconds) Mar 24 01:02:46 fbpve1 pvestatd[3175]: VM 307 qmp command failed - VM 307 qmp command 'query-proxmox-support' failed - unable to connect to VM 307 qmp socket - timeout after 31 retries Mar 24 01:02:46 fbpve1 pvestatd[3175]: status update time (6.342 seconds) Mar 24 01:02:56 fbpve1 pvestatd[3175]: VM 307 qmp command failed - VM 307 qmp command 'query-proxmox-support' failed - unable to connect to VM 307 qmp socket - timeout after 31 retries


Aktuell kann ich mir nicht vorstellen, woran das liegt. Kann das effektiv einen Zusammenhang mit dem Backup haben? Das Backup lief vorher Monate ohne Probleme.

Nun wollte ich "nur" die OS Disk restoren, da nur diese Disk defekt ist und das viel schneller ginge. Nur kriege ich das nicht hin.
Wie kann man bei einem Restore gewisse Disks excluden?

Ich bedanke mich bereits jetzt für Eure Hilfe.
Beste Grüsse
Matthi
 
VM 307 qmp command failed - VM 307 qmp command 'query-proxmox-support' failed - unable to connect to VM 307 qmp socket - timeout after 31 retries
Guck mal hier ob das dein Problem sein könnte. Sollte heute im No-Subcription-Repo eine neue pve-qemu-kvm rausgekommen sein, welche den Fehler eigentlich beheben sollte. Das vorherige Update von pve-qemu-kvm hatte VMs mit dem selben Fehler zum abschmieren gebracht.
 
  • Like
Reactions: Dominic
Guck mal hier ob das dein Problem sein könnte. Sollte heute im No-Subcription-Repo eine neue pve-qemu-kvm rausgekommen sein, welche den Fehler eigentlich beheben sollte. Das vorherige Update von pve-qemu-kvm hatte VMs mit dem selben Fehler zum abschmieren gebracht.
Hallo Dunuin
vielen Dank für den Hinweis. Auf diesen Artikel bin ich trotz längerer Suche nicht gestossen. Immerhin schmiert bei denen/euch "nur" die VM ab. Dass eine ganze Disk "weg" ist wie bei mir, ist schon sehr erschreckend!

Ich konnte die kleinere OS Disk (40GB) nun restoren und die VM läuft wieder. Folgendermassen habe ich das gemacht, ohne dass die grosse 1.5TB Datendisk mitrestored werden musste:

# Backup heraussuchen mit pvesm, Storage Details unter "/etc/pve/storage.cfg" pvesm list <storage> # Restore in eine neue VM qmrestore <storage>:backup/vm/307/2021-03-24T00:00:01Z 333 --storage extDataPool # sobald der Restore der kleinen ersten Disk erfolgreich war, ZFS send/receive zur original Disk zfs send extDataPool/vm-333-disk-0 | zfs receive -F rpool/data/vm-307-disk-0 #Restore abbrechen und aufräumen qm destroy 333

Um jeden Input, wie man dies mit Proxmox Boardmitteln elegant machen kann, bin ich dankbar. Es sollte doch möglich sein, bei einem Restore gewisse Disks zu excluden?

Ob und wie ich patche, muss ich jetzt noch schauen. Sollte das Problem erneut auftreten, melde ich mich wieder.

Allen einen schönen Abend.
Matthi
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!