Restore einer VM schlägt fehl

monokular · Apr 9, 2021

Hallo zusammen,

ich bin relativ neu im Proxmox / Linux Umfeld und bitte deshalb um Nachsicht. Ich habe vermutlich ein Problem mit einer überprovisionierten VM, bzw. einem ZFS Pool und bräuchte hier dringend Hilfe. Festgestellt habe ich es beim Restore eines Backups der VM. Hier erhalte ich beim Start folgende Warnung:

WARNING: You have not turned on protection against thin pools running out of space.
WARNING: Set activation/thin_pool_autoextend_threshold below 100 to trigger automatic extension of thin pools before they get full.
Logical volume "vm-103-disk-0" created.
WARNING: Sum of all thin volume sizes (<1.23 TiB) exceeds the size of thin pool pve/data and the size of whole volume group (<465.26 GiB).
new volume ID is 'local-lvm:vm-103-disk-0'
new volume ID is 'zpool1:vm-103-disk-0'

Der Restore bricht dann immer mit folgendem Fehler ab und der Backupserver ist dann ausgeschaltet:

HTTP/2.0 connection failed
restore failed: broken pipe
temporary volume 'zpool1:vm-103-disk-0' sucessfuly removed
Logical volume "vm-103-disk-0" successfully removed
temporary volume 'local-lvm:vm-103-disk-0' sucessfuly removed
TASK ERROR: command '/usr/bin/pbs-restore --repository backup@pbs@<IP-Adresse>:backup vm/103/2021-04-06T07:52:38Z drive-sata1.img.fidx /dev/zvol/zpool1/vm-103-disk-0 --verbose --format raw --skip-zero' failed: exit code 255

Ich würde nun gerne wissen, was genau die Warnung beim Start des Restore bedeutet was die Ursache ist, dass mein Restore fehlschlägt und wie ich meine Konfiguration besser gestalten kann. Kann mir hier eventuell jemand weiterhelfen?

Danke schon mal vorab.

Ich nutze Proxmox VE v 6.3.6 und Proxmox Backup Server v 1.0.1
Die betroffene VM sollte eigentlich ihre Systemdisk von 8GB auf dem local-lvm (LVM-Thin) liegen haben und als Datendisk einen ZFS-Pool (zpool1) von 1TB nutzen, in dem 2 separate Platten eingebunden sind. Aufgefallen ist mir auch, dass auf dem local-lvm noch eine Disk der vm-103 mit 879 GB vorhanden ist, die aber so da ja nie vorhanden sein sollte.

Hier der Output von pvesm status:

Name             Type     Status           Total            Used       Available        %
backup            pbs     active      2883220084       892148964      1844541460   30.94%
local             dir     active        98559220         8254052        85255620    8.37%
local-lvm     lvmthin     active       354791424       308704018        46087405   87.01%
zpool1        zfspool     active       942669368           15504       942653864    0.00%

monokular · Apr 9, 2021

Mittlerweile habe ich die nicht volltändig wiederhergestellte VM gelöscht und auch die 871gb Disk im local-lvm gelöscht.

WARNING: Sum of all thin volume sizes (<1.23 TiB) exceeds the size of thin pool pve/data and the size of whole volume group (<465.26 GiB).

erscheint jetzt nicht mehr. Allerdings zeigt der zpool1 beim Starten des Restores 99,92% in use an. Vorher waren 899GB Frei, die Disk hat 871GB.

fabian · Apr 9, 2021

poste bitte mal die VM config und zpool status

monokular · Apr 9, 2021

Die VM ist ja quasi nicht mehr vorhanden, hier stehen aber wohl noch Reste in der Conf
memory: 128
lock: create

Mit dem zfs-Pool scheint es wohl ein Problem zu geben. Reicht erstmal zpool clearoder ist ein Tausch der Platte direkt notwendig?

# zpool status
pool: zpool1
state: DEGRADED
status: One or more devices are faulted in response to persistent errors.
Sufficient replicas exist for the pool to continue functioning in a
degraded state.
action: Replace the faulted device, or use 'zpool clear' to mark the device
repaired.
scan: scrub repaired 0B in 0 days 04:37:39 with 0 errors on Sun Mar 14 05:01:41 2021
config:

        NAME        STATE     READ WRITE CKSUM
        zpool1      DEGRADED     0     0     0
          mirror-0  DEGRADED     0     0     0
            sdb     ONLINE       0     0     0
            sdc     FAULTED     29 1.47K   126  too many errors

errors: No known data errors

fabian · Apr 9, 2021

die config steht ja auch im backup drin

was sagt den smart zur sdc platte?

monokular · Apr 9, 2021

Sorry, ich lerne noch. Wie komme ich an die Config im Backup?

SMART sagt "Unknown" zur sdc

fabian · Apr 9, 2021

in der liste der backups "Show Configuration"

monokular · Apr 9, 2021

Ok, da hätte ich auch drauf kommen können:

balloon: 2048 boot: cdn bootdisk: sata0 cores: 2 memory: 4096 name: omv1 net0: virtio=AA:65:98:94:1F:9E,bridge=vmbr0,firewall=1 numa: 0 onboot: 1 ostype: l26 sata0: local-lvm:vm-103-disk-0,size=8G sata1: zpool1:vm-103-disk-0,size=871G scsihw: virtio-scsi-pci smbios1: uuid=77e8f0c4-07ef-4edb-8c5d-f1b8eecd4e88 sockets: 1 vmgenid: 90f1d3ca-eccf-4944-ba5e-b8514251eef5 #qmdump#map:sata0:drive-sata0:local-lvm:raw: #qmdump#map:sata1:drive-sata1:zpool1::

monokular · Apr 9, 2021

Interessant ist auch, dass unter den Disks des PVE auf dem zpool1 159.58gb allocated sind, die aber nirgends sonst sichtbar sind.

fabian · Apr 9, 2021

zpool list, zfs list -t all -o name,space waeren noch interessant.

monokular · Apr 9, 2021

ok, der allocated space kam natürlich von dem laufenden Restore. Den habe ich jetzt erstmal beendet

# zpool list
NAME     SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
zpool1   928G  15.4M   928G        -         -     1%     0%  1.00x  DEGRADED  -

# zfs list -t all -o name,space
NAME    NAME    AVAIL   USED  USEDSNAP  USEDDS  USEDREFRESERV  USEDCHILD
zpool1  zpool1   899G  14.9M        0B     96K             0B      14.8M

fabian · Apr 12, 2021

wenn du jetzt mit 'zpool clear' die error counter resettest und nochmal restore probierst, was passiert dann?

monokular · Apr 12, 2021

Restore läuft derzeit. Status 98%. Ich werde berichten.

monokular · Apr 13, 2021

Der Restore lief gestern einwandfrei durch. Ich vermute das Problem lag an der noch vorhandenen Platte auf dem loval-lvm und dem status des ZFS pools. Vielen Dank für die Unterstützung.

Leider sind aber auch jetzt wieder 898,25GB mit einer 871GB disk belegt. Woran kann das liegen?

fabian · Apr 13, 2021

einen gewissen overhead brauchen die metadaten (die koennen bei zvols ja nicht mit den daten gegengerechnet werden, wenn du ein volume mit groesse X anlegst musst du X daten drauf schreiben koennen, der tatsaechliche verbrauch ist dann X+Y+Z, wo Y die metadaten sind und Z sonstiger overhead (raidz, ...).

monokular · Apr 14, 2021

Ok, danke. Das kling plausibel...

EIn älteren Restore konnte ich jetzt ohne Probleme durchführen, hier scheint irgendwas überprovisioniert zu sein.

Nach erneutem Löschen der VM bleiben 347GB im ZFS pool hängen.

zfs list -t all -o name,space
NAME    NAME    AVAIL   USED  USEDSNAP  USEDDS  USEDREFRESERV  USEDCHILD
zpool1  zpool1   552G   347G        0B     96K             0B       347G

Gibt es Ideen woran das nun liegen könnte?

monokular · Apr 14, 2021

Nach erneutem Löschen der VM bleiben 347GB im ZFS pool hängen.
zfs list -t all -o name,space NAME NAME AVAIL USED USEDSNAP USEDDS USEDREFRESERV USEDCHILD zpool1 zpool1 552G 347G 0B 96K 0B 347G

Hat sich erledigt, ich war wohl zu ungeduldig.

Was mir nach wie vor unklar ist, ist wie das Backup zu groß für einen Restore sein kann. Wäre super, wenn hier jemand Licht ins dunkle bringen könnte.

Search

Search

Restore einer VM schlägt fehl

monokular

New Member

monokular

New Member

fabian

Proxmox Staff Member

monokular

New Member

fabian

Proxmox Staff Member

monokular

New Member

fabian

Proxmox Staff Member

monokular

New Member

monokular

New Member

fabian

Proxmox Staff Member

monokular

New Member

fabian

Proxmox Staff Member

monokular

New Member

monokular

New Member

fabian

Proxmox Staff Member

monokular

New Member

monokular

New Member