[SOLVED] Restore von VM - Host hängt

Apr 23, 2024
3
0
1
Hallo zusammen,

ich habe ein Problem beim Restore von VM (Proxmox VE 7.4-3).

Der Host ist ein HP ProLiant DL380 Gen10 2x2.9 Ghz 16 cores mit 512GB RAM und 6 x 1.9TB SSD im RAID6, das Netzwerk ist mit 10GBE angeschlossen.

Die Last liegt im Schnitt bei 2.5 bis 3, CPU bei 10% und RAM ist zu 45% belegt.

Die Daten für das Backup/Restore liegen auf einer NAS (TrueNAS) und werden sowohl beim Backup als auch Restore fehlerfrei übertragen (100-200 MB/s), Kompression ist ZSTD.

Beim Restore kommt es nach dem Übertragen der Daten (100% sind übertragen) zu einem Einfrieren aller VM für mehrere Sekunden (10-20sec).

Die wiederhergestellte VM läuft danach einwandfrei.

Allerdings gehen bei allen anderen VM die RDP Sessions verloren und manche VM frieren vollständig ein (z-B. Debian VM's) und benötigen einen Hard Reset.

Woran könnte das Einfrieren liegen?
 
Last edited:
Hallo @eisad und willkommen hier im Forum :)

Das Raid 6 nehme ich an, übernimmt der Hardwareraidcontroller? Bitte poste doch mal folgendes:

Übersicht deiner Storages
Code:
pvesm status

Auszug deines Journallogs zum Zeitpunkt als die VM's einfroren. Dies geht per CMD oder auch per GUI.
Screenshot_20240425_130735.png

Poste bitte auch die Graphen des Hosts zu dem Zeitpunkt damit wir sehen wie die Auslastung von CPU, I/O Wait, Netzwerk usw. war.
Gibt es ein Monitoring der Hostmaschine und der VM's? Wenn bitte auch von dort die Infos zum Zeitpunkt. Z.B. ob eine VM nicht erreichbar war usw.

Sind die HP-Tools installiert, wie z.b. hpacucli/ssacli?
 
Erstmal danke für deine Zeit!

RAID6 übernimmt ein HP Smart Array P408i-a (Batteriegepuffert).

pvesm status gibt folgende Rückgabe:

Snap1.jpg

Für die Graphen muss ich das Einfrieren noch einmal nachstellen, da mir die genaue Zeit fehlt. Ist aber kein Problem, da das immer passiert. Das reiche ich nach.

Monitoring von Host und VM gibt es nicht, aber der Host ist weiter responsiv wenn er z.B. per WebGUI aufgerufen wird.

HP-Tools sind nicht installiert. Wäre das empfehlenswert?

Ich habe ein Backup und Restore einer TestVM gmacht und das Log und die Graphen sehen folgendermaßen aus:

Code:
Apr 26 07:10:09 proxmox1 pvedaemon[1349644]: <root@pam> starting task UPID:proxmox1:00183036:93AE3D38:662B3731:vzdump:313:root@pam:
Apr 26 07:10:09 proxmox1 pvedaemon[1585206]: INFO: starting new backup job: vzdump 313 --remove 0 --storage vmbackup --mode snapshot --compress zstd --node proxmox1 --notes-template '{{guestname}}'
Apr 26 07:10:09 proxmox1 pvedaemon[1585206]: INFO: Starting Backup of VM 313 (qemu)
Apr 26 07:10:10 proxmox1 systemd[1]: Started 313.scope.
Apr 26 07:10:10 proxmox1 systemd-udevd[1585241]: Using default interface naming scheme 'v247'.
Apr 26 07:10:10 proxmox1 systemd-udevd[1585241]: ethtool: autonegotiation is unset or enabled, the speed and duplex are not writable.
Apr 26 07:10:11 proxmox1 kernel: device tap313i0 entered promiscuous mode
Apr 26 07:10:11 proxmox1 systemd-udevd[1585241]: ethtool: autonegotiation is unset or enabled, the speed and duplex are not writable.
Apr 26 07:10:11 proxmox1 systemd-udevd[1585241]: ethtool: autonegotiation is unset or enabled, the speed and duplex are not writable.
Apr 26 07:10:11 proxmox1 systemd-udevd[1585244]: ethtool: autonegotiation is unset or enabled, the speed and duplex are not writable.
Apr 26 07:10:11 proxmox1 systemd-udevd[1585244]: Using default interface naming scheme 'v247'.
Apr 26 07:10:11 proxmox1 kernel: vmbr0: port 11(fwpr313p0) entered blocking state
Apr 26 07:10:11 proxmox1 kernel: vmbr0: port 11(fwpr313p0) entered disabled state
Apr 26 07:10:11 proxmox1 kernel: device fwpr313p0 entered promiscuous mode
Apr 26 07:10:11 proxmox1 kernel: vmbr0: port 11(fwpr313p0) entered blocking state
Apr 26 07:10:11 proxmox1 kernel: vmbr0: port 11(fwpr313p0) entered forwarding state
Apr 26 07:10:11 proxmox1 kernel: fwbr313i0: port 1(fwln313i0) entered blocking state
Apr 26 07:10:11 proxmox1 kernel: fwbr313i0: port 1(fwln313i0) entered disabled state
Apr 26 07:10:11 proxmox1 kernel: device fwln313i0 entered promiscuous mode
Apr 26 07:10:11 proxmox1 kernel: fwbr313i0: port 1(fwln313i0) entered blocking state
Apr 26 07:10:11 proxmox1 kernel: fwbr313i0: port 1(fwln313i0) entered forwarding state
Apr 26 07:10:11 proxmox1 kernel: fwbr313i0: port 2(tap313i0) entered blocking state
Apr 26 07:10:11 proxmox1 kernel: fwbr313i0: port 2(tap313i0) entered disabled state
Apr 26 07:10:11 proxmox1 kernel: fwbr313i0: port 2(tap313i0) entered blocking state
Apr 26 07:10:11 proxmox1 kernel: fwbr313i0: port 2(tap313i0) entered forwarding state
Apr 26 07:10:29 proxmox1 pvedaemon[986765]: <root@pam> successful auth for user 'root@pam'
Apr 26 07:11:50 proxmox1 pvedaemon[985405]: <root@pam> successful auth for user 'root@pam'
Apr 26 07:13:32 proxmox1 kernel: fwbr313i0: port 2(tap313i0) entered disabled state
Apr 26 07:13:32 proxmox1 kernel: fwbr313i0: port 1(fwln313i0) entered disabled state
Apr 26 07:13:32 proxmox1 kernel: vmbr0: port 11(fwpr313p0) entered disabled state
Apr 26 07:13:32 proxmox1 kernel: device fwln313i0 left promiscuous mode
Apr 26 07:13:32 proxmox1 kernel: fwbr313i0: port 1(fwln313i0) entered disabled state
Apr 26 07:13:32 proxmox1 kernel: device fwpr313p0 left promiscuous mode
Apr 26 07:13:32 proxmox1 kernel: vmbr0: port 11(fwpr313p0) entered disabled state
Apr 26 07:13:32 proxmox1 qmeventd[1807]: read: Connection reset by peer
Apr 26 07:13:32 proxmox1 pvedaemon[985405]: VM 313 qmp command failed - VM 313 not running
Apr 26 07:13:32 proxmox1 systemd[1]: 313.scope: Succeeded.
Apr 26 07:13:32 proxmox1 systemd[1]: 313.scope: Consumed 58.056s CPU time.
Apr 26 07:13:33 proxmox1 qmeventd[1586467]: Starting cleanup for 313
Apr 26 07:13:33 proxmox1 qmeventd[1586467]: Finished cleanup for 313
Apr 26 07:13:34 proxmox1 pvedaemon[1585206]: INFO: Finished Backup of VM 313 (00:03:25)
Apr 26 07:13:34 proxmox1 pvedaemon[1585206]: INFO: Backup job finished successfully
Apr 26 07:13:34 proxmox1 pvedaemon[1349644]: <root@pam> end task UPID:proxmox1:00183036:93AE3D38:662B3731:vzdump:313:root@pam: OK
Apr 26 07:13:53 proxmox1 pvedaemon[985405]: <root@pam> starting task UPID:proxmox1:00183570:93AE94A9:662B3811:imgdel:313@vmbackup:root@pam:
Apr 26 07:13:53 proxmox1 pvedaemon[985405]: <root@pam> end task UPID:proxmox1:00183570:93AE94A9:662B3811:imgdel:313@vmbackup:root@pam: OK
Apr 26 07:14:12 proxmox1 pvedaemon[1349644]: <root@pam> starting task UPID:proxmox1:001835EA:93AE9C19:662B3824:qmrestore:313:root@pam:
Apr 26 07:15:17 proxmox1 pvestatd[2146]: VM 329 qmp command failed - VM 329 qmp command 'query-proxmox-support' failed - got timeout
Apr 26 07:15:18 proxmox1 pveproxy[1489011]: worker exit
Apr 26 07:15:18 proxmox1 pveproxy[2181]: worker 1489011 finished
Apr 26 07:15:18 proxmox1 pveproxy[2181]: starting 1 worker(s)
Apr 26 07:15:18 proxmox1 pveproxy[2181]: worker 1587001 started
Apr 26 07:15:27 proxmox1 pvestatd[2146]: storage 'iso' is not online
Apr 26 07:15:37 proxmox1 pvestatd[2146]: storage 'vmbackup' is not online
Apr 26 07:15:45 proxmox1 pvedaemon[986765]: worker exit
Apr 26 07:15:45 proxmox1 pvedaemon[2172]: worker 986765 finished
Apr 26 07:15:45 proxmox1 pvedaemon[2172]: starting 1 worker(s)
Apr 26 07:15:45 proxmox1 pvedaemon[2172]: worker 1587045 started
Apr 26 07:15:47 proxmox1 pvestatd[2146]: storage 'vmtemp' is not online
Apr 26 07:15:47 proxmox1 pvestatd[2146]: status update time (38.313 seconds)
Apr 26 07:16:45 proxmox1 pvestatd[2146]: VM 304 qmp command failed - VM 304 qmp command 'query-proxmox-support' failed - got timeout
Apr 26 07:16:50 proxmox1 pvestatd[2146]: VM 334 qmp command failed - VM 334 qmp command 'query-proxmox-support' failed - got timeout
Apr 26 07:16:55 proxmox1 pvestatd[2146]: VM 329 qmp command failed - VM 329 qmp command 'query-proxmox-support' failed - got timeout
Apr 26 07:17:00 proxmox1 pvestatd[2146]: VM 109 qmp command failed - VM 109 qmp command 'query-proxmox-support' failed - got timeout
Apr 26 07:17:01 proxmox1 CRON[1587312]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Apr 26 07:17:01 proxmox1 CRON[1587313]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Apr 26 07:17:01 proxmox1 CRON[1587312]: pam_unix(cron:session): session closed for user root
Apr 26 07:17:05 proxmox1 pvestatd[2146]: VM 333 qmp command failed - VM 333 qmp command 'query-proxmox-support' failed - got timeout
Apr 26 07:17:10 proxmox1 pvestatd[2146]: VM 343 qmp command failed - VM 343 qmp command 'query-proxmox-support' failed - got timeout
Apr 26 07:17:15 proxmox1 pvestatd[2146]: VM 302 qmp command failed - VM 302 qmp command 'query-proxmox-support' failed - got timeout
Apr 26 07:17:25 proxmox1 pvestatd[2146]: storage 'vmbackup' is not online
Apr 26 07:17:35 proxmox1 pvestatd[2146]: storage 'vmtemp' is not online
Apr 26 07:17:45 proxmox1 pvestatd[2146]: storage 'iso' is not online
Apr 26 07:17:45 proxmox1 pvestatd[2146]: status update time (68.377 seconds)
Apr 26 07:17:54 proxmox1 pvestatd[2146]: status update time (8.884 seconds)
Apr 26 07:17:57 proxmox1 pvedaemon[1349644]: <root@pam> end task UPID:proxmox1:001835EA:93AE9C19:662B3824:qmrestore:313:root@pam: OK

Snap2.jpg
Snap3.jpg

Da scheint in der Tat in der Tat etwas nicht zu stimmen, aber mir fehlt das KnowHow das zu deuten.

Die Netzwerkprobleme beginnen übrigens schon während der Übertragung des Backup und nicht erst nachdem 100% übertragen wurden.

Die Logs von Dump und Restore sind beigefügt.
 

Attachments

Last edited:

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!