Server 2019 reagiert nicht

Nov 12, 2021
70
9
13
46
Hallo zusammen,

kurz die Fakten:

Kernelversion

Linux 5.15.60-1-pve #1 SMP PVE 5.15.60-1 (Mon, 19 Sep 2022 17:53:17 +0200)
PVE-Manager-Version

pve-manager/7.2-11/b76d3178
Repository-Status

Proxmox VE Updates Produktionsreifes Enterprise Repository aktiviert

Derzeit kein Update verfügbar, somit up2date.



Proxmox läuft auf einem Lenovo M910q, 16 GB RAM // i5-7600T // 250GB NVMe

- Ein Dietpi für Wireguard (VPN) & ngnx (Reverse Proxy) [1GB RAM]
- Ein Windows Server 2019, DHCP, DNS, DC & AD etc. [12 GB RAM]
Für 4 PCs die mit 2 User arbeiten.

Die Kiste läuft seit April problemlos, hat kaum was zu tun. Daten werden auf Netzlaufwerken gespeichert (NAS).

Heute war der Server nicht erreichbar. Laut Proxmox Serveransicht lief er. Über Proxmox Konsole, rdp oder Teamviewer nicht erreichbar.
Konsole sagt "Failed to connect to server", im Teamviewer als offline.

Ich konnte die vm weder neustarten, noch stoppen etc.

trying to acquire lock...
TASK ERROR: can't lock file '/var/lock/qemu-server/lock-100.conf' - got timeout

Ich hab via ssh probiert, die VMID 100 zu "unlock"en und zu stoppen. Ging nichts.


Final konnte ich nur den kompletten Host neustarten, danach lief der Server wieder.

Das ist vor 1-2 Monaten schonmal passiert, da war ich zum Glück in der Nähe.
Danach hab ich mir gleich nen zweiten Proxmox in die Ecke gestellt und ein Win10 drauf. Der kommt ohne DHCP & DNS-Server aus und ist mein Backup, falls der Server wieder streikt.

Gibts ein Logfile, dass den Neustart überlebt, in dem ich Anhaltspunkte finden könnte?


Gruß Timo
 
Ich konnte in der Ereignisanzeige den Zeitraum eingrenzen.

13.10.22 System wurde um 20.59 Uhr unerwartet heruntergefahren.
Zwischen 13.10 21 Uhr und 14.10. 8.30Uhr (mein erzwungener Neustart) gab es quasi keine Einträge.

Im PVW Syslog sehe ich, dass um 21 Uhr ein Backup (snapshot) laufen soll.

Fehler:
Code:
Oct 13 21:00:01 pve pvescheduler[1065275]: INFO: starting new backup job: vzdump 100 --mode snapshot --mailnotification always --quiet 1 --compress zstd --storage DatenSSD --prune-backups 'keep-last=3' --node pve
Oct 13 21:00:01 pve pvescheduler[1065275]: INFO: Starting Backup of VM 100 (qemu)
Oct 13 21:00:14 pve pvestatd[921]: VM 100 qmp command failed - VM 100 qmp command 'query-proxmox-support' failed - got timeout
Oct 13 21:00:15 pve pvestatd[921]: status update time (7.262 seconds)

Der fehler geht die ganze Nacht durch, ohne Pause.
Erst zum Neustart 8.30 Uhr hört das auf...

Ich vermute, dass dadurch die vm lahmgelegt wurde.

Ich schau mal, was da Sache war bzgl. Backup
 
Hi,
was ist die Ausgabe von pveversion -v? Was steht im Task-Log vom Backup-Job (in der UI bei der VM unter Task History zu finden). Wie war die Auslastung vom Server (in der UI Node auswählen und dann Summary)?

Liefen die Backups bisher immer problemlos? Würde kürzlich etwas diesbezüglich geändert?
 
  • Like
Reactions: kleinp
Hallo @fiona ,

danke für Deine Antwort.

pveversion -v ergibt:

Code:
proxmox-ve: 7.2-1 (running kernel: 5.15.60-1-pve)
pve-manager: 7.2-11 (running version: 7.2-11/b76d3178)
pve-kernel-helper: 7.2-12
pve-kernel-5.15: 7.2-11
pve-kernel-5.13: 7.1-9
pve-kernel-5.15.60-1-pve: 5.15.60-1
pve-kernel-5.15.53-1-pve: 5.15.53-1
pve-kernel-5.15.39-4-pve: 5.15.39-4
pve-kernel-5.15.39-1-pve: 5.15.39-1
pve-kernel-5.15.35-1-pve: 5.15.35-3
pve-kernel-5.13.19-6-pve: 5.13.19-15
pve-kernel-5.13.19-2-pve: 5.13.19-4
ceph-fuse: 15.2.15-pve1
corosync: 3.1.5-pve2
criu: 3.15-1+pve-1
glusterfs-client: 9.2-1
ifupdown2: 3.1.0-1+pmx3
ksm-control-daemon: 1.4-1
libjs-extjs: 7.0.0-1
libknet1: 1.24-pve1
libproxmox-acme-perl: 1.4.2
libproxmox-backup-qemu0: 1.3.1-1
libpve-access-control: 7.2-4
libpve-apiclient-perl: 3.2-1
libpve-common-perl: 7.2-3
libpve-guest-common-perl: 4.1-3
libpve-http-server-perl: 4.1-4
libpve-storage-perl: 7.2-10
libspice-server1: 0.14.3-2.1
lvm2: 2.03.11-2.1
lxc-pve: 5.0.0-3
lxcfs: 4.0.12-pve1
novnc-pve: 1.3.0-3
proxmox-backup-client: 2.2.6-1
proxmox-backup-file-restore: 2.2.6-1
proxmox-mini-journalreader: 1.3-1
proxmox-widget-toolkit: 3.5.1
pve-cluster: 7.2-2
pve-container: 4.2-2
pve-docs: 7.2-2
pve-edk2-firmware: 3.20220526-1
pve-firewall: 4.2-6
pve-firmware: 3.5-4
pve-ha-manager: 3.4.0
pve-i18n: 2.7-2
pve-qemu-kvm: 7.0.0-3
pve-xtermjs: 4.16.0-1
qemu-server: 7.2-4
smartmontools: 7.2-pve3
spiceterm: 3.2-2
swtpm: 0.7.1~bpo11+1
vncterm: 1.7-1
zfsutils-linux: 2.1.5-pve1

In der Task History steht quasi der Selbe Fehler:

Code:
INFO: starting new backup job: vzdump 100 --storage BackupNAS --mode snapshot --prune-backups 'keep-last=3' --mailnotification always --notes-template '{{guestname}}{{guestname}}' --compress zstd --quiet 1
ERROR: Backup of VM 100 failed - unable to create temporary directory '/mnt/pve/BackupNAS/dump/vzdump-qemu-100-2022_10_16-14_00_01.tmp' at /usr/share/perl5/PVE/VZDump.pm line 919.
INFO: Failed at 2022-10-16 14:00:01
INFO: Backup job finished with errors
TASK ERROR: job errors

Der Storage BackupNAS ist, wie der Name schon sagt das NAS. Eingebunden (mnt/pve/BackupNAS)


Das Backup hat er schonmal ausgeführt. Habe allerdings gesehen, dass das schon länger her ist.
Bisher hat das fehlgeschlagene Backup aber nicht den Server ausgebremst. Hab den Job erstmal deaktiviert.
Ein zweiter (auf ein anderes share) funktioniert.

Vermutlich (also ziemlich sicher) ist der Fehler auf dem NAS bzw bei der Freigabe zu suchen...
User/ Passwort & SMB Freigabe passen "eigentlich".
Ich denke ich lösche bei Gelegenheit die Freigabe und richte sie neu ein...
 
In der Task History steht quasi der Selbe Fehler:

Code:
INFO: starting new backup job: vzdump 100 --storage BackupNAS --mode snapshot --prune-backups 'keep-last=3' --mailnotification always --notes-template '{{guestname}}{{guestname}}' --compress zstd --quiet 1
ERROR: Backup of VM 100 failed - unable to create temporary directory '/mnt/pve/BackupNAS/dump/vzdump-qemu-100-2022_10_16-14_00_01.tmp' at /usr/share/perl5/PVE/VZDump.pm line 919.
INFO: Failed at 2022-10-16 14:00:01
INFO: Backup job finished with errors
TASK ERROR: job errors
Würde ich nicht als den selben Fehler bezeichnen ;) Der hier ist über die Storage, der andere war über die VM/QMP-Kommando. Passen die Berechtigungen für den Mount, i.e. ist es möglich manuell einen Ordner zu erstellen?

Wenn der Job so früh abbricht, sollte die VM eigentlich noch gar nicht vom Job beeinflusst worden sein. Befindet sich die Disk von der VM auch auf einem Netzwerk-Storage?

Vermutung: es könnte sein, dass der NAS-Mount hängen geblieben ist und daher der Server Probleme bekommen hat, aber würde dann mehr Nachrichten dazu im Syslog erwarten, hmm.

Der Storage BackupNAS ist, wie der Name schon sagt das NAS. Eingebunden (mnt/pve/BackupNAS)

Das Backup hat er schonmal ausgeführt. Habe allerdings gesehen, dass das schon länger her ist.
Bisher hat das fehlgeschlagene Backup aber nicht den Server ausgebremst. Hab den Job erstmal deaktiviert.
Ein zweiter (auf ein anderes share) funktioniert.

Vermutlich (also ziemlich sicher) ist der Fehler auf dem NAS bzw bei der Freigabe zu suchen...
User/ Passwort & SMB Freigabe passen "eigentlich".
Ich denke ich lösche bei Gelegenheit die Freigabe und richte sie neu ein...
 
Gestern abend ist es wieder aufgetreten, beim Backup

Code:
INFO: starting new backup job: vzdump 100 --node pve --prune-backups 'keep-last=3' --quiet 1 --storage DatenSSD --compress zstd --mailnotification always --mode snapshot
INFO: Starting Backup of VM 100 (qemu)
INFO: Backup started at 2022-12-13 21:00:01
INFO: status = running
INFO: VM Name: Server2019
INFO: include disk 'ide0' 'local-lvm:vm-100-disk-0' 100G
INFO: backup mode: snapshot
INFO: ionice priority: 7
INFO: creating vzdump archive '/mnt/pve/DatenSSD/dump/vzdump-qemu-100-2022_12_13-21_00_01.vma.zst'
INFO: issuing guest-agent 'fs-freeze' command
INFO: issuing guest-agent 'fs-thaw' command
ERROR: VM 100 qmp command 'guest-fsfreeze-thaw' failed - got timeout
ERROR: got timeout
INFO: aborting backup job
ERROR: VM 100 qmp command 'backup-cancel' failed - unable to connect to VM 100 qmp socket - timeout after 5967 retries
INFO: resuming VM again
ERROR: Backup of VM 100 failed - VM 100 qmp command 'cont' failed - unable to connect to VM 100 qmp socket - timeout after 449 retries
INFO: Failed at 2022-12-13 21:14:19
INFO: Backup job finished with errors
TASK ERROR: job errors

Status:

Die VM "läuft", hab aber keinerlei Zugriff.

Final hilft nur ein reboot des Host.
 
Ist da zufällig ein Schloss an der VM?
Schon mal mit qm unlock versucht?
 
Ist ein LVM-thin auf einer Samsung NVMe


Mich wundert nur, dass nach der Meldung die VM nicht mehr erreichbar ist.
Keine Konsole, kein Teamviewer, kein rdp


Code:
INFO: issuing guest-agent 'fs-freeze' command
INFO: issuing guest-agent 'fs-thaw' command
ERROR: VM 100 qmp command 'guest-fsfreeze-thaw' failed - got timeout
ERROR: got timeout
INFO: aborting backup job
ERROR: VM 100 qmp command 'backup-cancel' failed - unable to connect to VM 100 qmp socket - timeout after 5967 retries
INFO: resuming VM again
ERROR: Backup of VM 100 failed - VM 100 qmp command 'cont' failed - unable to connect to VM 100 qmp socket - timeout after 449 retries
INFO: Failed at 2022-12-13 21:14:19
 
Irgendwie friert die VM ein. Hast du mal die NVMe auf Fehler überprüft? Irgendwie drängt sich mir da ein Storagefehler auf.
 
  • Like
Reactions: kleinp
Hallo @fmtech

hier die Ausgabe:

Code:
root@pve:~# qm config 100
agent: 0
boot: order=ide0;ide2;net0;ide1
cores: 4
description: S2019  Essentials
ide0: local-lvm:vm-100-disk-0,cache=writeback,discard=on,size=100G
ide1: local:iso/virtio-win-0.1.217.iso,media=cdrom,size=519096K
ide2: local:iso/SERVER-2019_ESSENTIALS_x64.iso,media=cdrom
machine: pc-i440fx-6.1
memory: 12288
meta: creation-qemu=6.1.1,ctime=1650289753
name: Server2019
net0: virtio=2A:12:AA:A8:4A:5A,bridge=vmbr0,firewall=1
numa: 0
onboot: 1
ostype: win10
scsihw: virtio-scsi-pci
smbios1: uuid=783dc0f0-dde2-4693-86e5-745cd68e79c7
sockets: 1
startup: order=1
vmgenid: eb2a544d-c00e-427b-b44b-24b76237c5ca
root@pve:~#
 
Last edited:
So, das Problem trat bisher wieder einmal auf.

Hatte eh viel um die Ohren, daher gut, dass es erst jetzt wieder kam ;-)

Danke für Eure Hinweise @fmtech & @ITT

Gibt es eine "einfache" Möglichkeit, auf scsi-single umzustellen? Ohne Neuinstallation des Servers?
 
So, das Problem trat bisher wieder einmal auf.

Hatte eh viel um die Ohren, daher gut, dass es erst jetzt wieder kam ;-)

Danke für Eure Hinweise @fmtech & @ITT

Gibt es eine "einfache" Möglichkeit, auf scsi-single umzustellen? Ohne Neuinstallation des Servers?
Afaik ging das mit einem Trick. VM runterfahren, eine neue virtuelle HDD als scsi-single hinzufügen, VM wieder starten, aktuellen vioscsi Treiber in der VM installieren, VM runterfahren, 2. HDD wieder löschen und die virtuelle OS HDD umstellen.
 
  • Like
Reactions: mow, kleinp and ITT
Das mit der kleinen HDD hinzufügen & Treiberinstallation hat geklappt.
Konnte dem Laufwerk einen Buchstaben zuweisen etc.

Leider klappt es beim Punkt umstellen auf SCSI nicht...

ide_scsi.JPG
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!