Restore einer VM schlägt fehl

monokular

New Member
Apr 9, 2021
13
0
1
38
Hallo zusammen,

ich bin relativ neu im Proxmox / Linux Umfeld und bitte deshalb um Nachsicht. Ich habe vermutlich ein Problem mit einer überprovisionierten VM, bzw. einem ZFS Pool und bräuchte hier dringend Hilfe. Festgestellt habe ich es beim Restore eines Backups der VM. Hier erhalte ich beim Start folgende Warnung:

WARNING: You have not turned on protection against thin pools running out of space. WARNING: Set activation/thin_pool_autoextend_threshold below 100 to trigger automatic extension of thin pools before they get full. Logical volume "vm-103-disk-0" created. WARNING: Sum of all thin volume sizes (<1.23 TiB) exceeds the size of thin pool pve/data and the size of whole volume group (<465.26 GiB). new volume ID is 'local-lvm:vm-103-disk-0' new volume ID is 'zpool1:vm-103-disk-0'

Der Restore bricht dann immer mit folgendem Fehler ab und der Backupserver ist dann ausgeschaltet:
HTTP/2.0 connection failed restore failed: broken pipe temporary volume 'zpool1:vm-103-disk-0' sucessfuly removed Logical volume "vm-103-disk-0" successfully removed temporary volume 'local-lvm:vm-103-disk-0' sucessfuly removed TASK ERROR: command '/usr/bin/pbs-restore --repository backup@pbs@<IP-Adresse>:backup vm/103/2021-04-06T07:52:38Z drive-sata1.img.fidx /dev/zvol/zpool1/vm-103-disk-0 --verbose --format raw --skip-zero' failed: exit code 255

Ich würde nun gerne wissen, was genau die Warnung beim Start des Restore bedeutet was die Ursache ist, dass mein Restore fehlschlägt und wie ich meine Konfiguration besser gestalten kann. Kann mir hier eventuell jemand weiterhelfen?

Danke schon mal vorab.

Ich nutze Proxmox VE v 6.3.6 und Proxmox Backup Server v 1.0.1
Die betroffene VM sollte eigentlich ihre Systemdisk von 8GB auf dem local-lvm (LVM-Thin) liegen haben und als Datendisk einen ZFS-Pool (zpool1) von 1TB nutzen, in dem 2 separate Platten eingebunden sind. Aufgefallen ist mir auch, dass auf dem local-lvm noch eine Disk der vm-103 mit 879 GB vorhanden ist, die aber so da ja nie vorhanden sein sollte.

Hier der Output von pvesm status:
Name Type Status Total Used Available % backup pbs active 2883220084 892148964 1844541460 30.94% local dir active 98559220 8254052 85255620 8.37% local-lvm lvmthin active 354791424 308704018 46087405 87.01% zpool1 zfspool active 942669368 15504 942653864 0.00%
 
Mittlerweile habe ich die nicht volltändig wiederhergestellte VM gelöscht und auch die 871gb Disk im local-lvm gelöscht.
WARNING: Sum of all thin volume sizes (<1.23 TiB) exceeds the size of thin pool pve/data and the size of whole volume group (<465.26 GiB). erscheint jetzt nicht mehr. Allerdings zeigt der zpool1 beim Starten des Restores 99,92% in use an. Vorher waren 899GB Frei, die Disk hat 871GB.
 
poste bitte mal die VM config und zpool status
 
Die VM ist ja quasi nicht mehr vorhanden, hier stehen aber wohl noch Reste in der Conf
memory: 128
lock: create

Mit dem zfs-Pool scheint es wohl ein Problem zu geben. Reicht erstmal zpool clearoder ist ein Tausch der Platte direkt notwendig?

# zpool status pool: zpool1 state: DEGRADED status: One or more devices are faulted in response to persistent errors. Sufficient replicas exist for the pool to continue functioning in a degraded state. action: Replace the faulted device, or use 'zpool clear' to mark the device repaired. scan: scrub repaired 0B in 0 days 04:37:39 with 0 errors on Sun Mar 14 05:01:41 2021 config: NAME STATE READ WRITE CKSUM zpool1 DEGRADED 0 0 0 mirror-0 DEGRADED 0 0 0 sdb ONLINE 0 0 0 sdc FAULTED 29 1.47K 126 too many errors errors: No known data errors
 
Last edited:
die config steht ja auch im backup drin ;) was sagt den smart zur sdc platte?
 
Sorry, ich lerne noch. Wie komme ich an die Config im Backup?

SMART sagt "Unknown" zur sdc
 
in der liste der backups "Show Configuration"
 
Ok, da hätte ich auch drauf kommen können:

balloon: 2048 boot: cdn bootdisk: sata0 cores: 2 memory: 4096 name: omv1 net0: virtio=AA:65:98:94:1F:9E,bridge=vmbr0,firewall=1 numa: 0 onboot: 1 ostype: l26 sata0: local-lvm:vm-103-disk-0,size=8G sata1: zpool1:vm-103-disk-0,size=871G scsihw: virtio-scsi-pci smbios1: uuid=77e8f0c4-07ef-4edb-8c5d-f1b8eecd4e88 sockets: 1 vmgenid: 90f1d3ca-eccf-4944-ba5e-b8514251eef5 #qmdump#map:sata0:drive-sata0:local-lvm:raw: #qmdump#map:sata1:drive-sata1:zpool1::
 
Interessant ist auch, dass unter den Disks des PVE auf dem zpool1 159.58gb allocated sind, die aber nirgends sonst sichtbar sind.

Screenshot 2021-04-09 162135.jpg
 
zpool list, zfs list -t all -o name,space waeren noch interessant.
 
ok, der allocated space kam natürlich von dem laufenden Restore. Den habe ich jetzt erstmal beendet

# zpool list NAME SIZE ALLOC FREE CKPOINT EXPANDSZ FRAG CAP DEDUP HEALTH ALTROOT zpool1 928G 15.4M 928G - - 1% 0% 1.00x DEGRADED -

# zfs list -t all -o name,space NAME NAME AVAIL USED USEDSNAP USEDDS USEDREFRESERV USEDCHILD zpool1 zpool1 899G 14.9M 0B 96K 0B 14.8M
 
wenn du jetzt mit 'zpool clear' die error counter resettest und nochmal restore probierst, was passiert dann?
 
Der Restore lief gestern einwandfrei durch. Ich vermute das Problem lag an der noch vorhandenen Platte auf dem loval-lvm und dem status des ZFS pools. Vielen Dank für die Unterstützung.

Leider sind aber auch jetzt wieder 898,25GB mit einer 871GB disk belegt. Woran kann das liegen?
 
einen gewissen overhead brauchen die metadaten (die koennen bei zvols ja nicht mit den daten gegengerechnet werden, wenn du ein volume mit groesse X anlegst musst du X daten drauf schreiben koennen, der tatsaechliche verbrauch ist dann X+Y+Z, wo Y die metadaten sind und Z sonstiger overhead (raidz, ...).
 
Ok, danke. Das kling plausibel...

EIn älteren Restore konnte ich jetzt ohne Probleme durchführen, hier scheint irgendwas überprovisioniert zu sein.

Nach erneutem Löschen der VM bleiben 347GB im ZFS pool hängen.

zfs list -t all -o name,space NAME NAME AVAIL USED USEDSNAP USEDDS USEDREFRESERV USEDCHILD zpool1 zpool1 552G 347G 0B 96K 0B 347G

Gibt es Ideen woran das nun liegen könnte?
 
Nach erneutem Löschen der VM bleiben 347GB im ZFS pool hängen.
zfs list -t all -o name,space NAME NAME AVAIL USED USEDSNAP USEDDS USEDREFRESERV USEDCHILD zpool1 zpool1 552G 347G 0B 96K 0B 347G

Hat sich erledigt, ich war wohl zu ungeduldig.

Was mir nach wie vor unklar ist, ist wie das Backup zu groß für einen Restore sein kann. Wäre super, wenn hier jemand Licht ins dunkle bringen könnte.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!