Server 2019 reagiert nicht

kleinp · Oct 14, 2022

Hallo zusammen,

kurz die Fakten:

Kernelversion

Linux 5.15.60-1-pve #1 SMP PVE 5.15.60-1 (Mon, 19 Sep 2022 17:53:17 +0200)

PVE-Manager-Version

pve-manager/7.2-11/b76d3178

Repository-Status

Proxmox VE Updates Produktionsreifes Enterprise Repository aktiviert

Derzeit kein Update verfügbar, somit up2date.

Proxmox läuft auf einem Lenovo M910q, 16 GB RAM // i5-7600T // 250GB NVMe

- Ein Dietpi für Wireguard (VPN) & ngnx (Reverse Proxy) [1GB RAM]
- Ein Windows Server 2019, DHCP, DNS, DC & AD etc. [12 GB RAM]
Für 4 PCs die mit 2 User arbeiten.

Die Kiste läuft seit April problemlos, hat kaum was zu tun. Daten werden auf Netzlaufwerken gespeichert (NAS).

Heute war der Server nicht erreichbar. Laut Proxmox Serveransicht lief er. Über Proxmox Konsole, rdp oder Teamviewer nicht erreichbar.
Konsole sagt "Failed to connect to server", im Teamviewer als offline.

Ich konnte die vm weder neustarten, noch stoppen etc.

trying to acquire lock...
TASK ERROR: can't lock file '/var/lock/qemu-server/lock-100.conf' - got timeout

Ich hab via ssh probiert, die VMID 100 zu "unlock"en und zu stoppen. Ging nichts.

Final konnte ich nur den kompletten Host neustarten, danach lief der Server wieder.

Das ist vor 1-2 Monaten schonmal passiert, da war ich zum Glück in der Nähe.
Danach hab ich mir gleich nen zweiten Proxmox in die Ecke gestellt und ein Win10 drauf. Der kommt ohne DHCP & DNS-Server aus und ist mein Backup, falls der Server wieder streikt.

Gibts ein Logfile, dass den Neustart überlebt, in dem ich Anhaltspunkte finden könnte?

Gruß Timo

kleinp · Oct 15, 2022

Ich konnte in der Ereignisanzeige den Zeitraum eingrenzen.

13.10.22 System wurde um 20.59 Uhr unerwartet heruntergefahren.
Zwischen 13.10 21 Uhr und 14.10. 8.30Uhr (mein erzwungener Neustart) gab es quasi keine Einträge.

Im PVW Syslog sehe ich, dass um 21 Uhr ein Backup (snapshot) laufen soll.

Fehler:

Code:

Oct 13 21:00:01 pve pvescheduler[1065275]: INFO: starting new backup job: vzdump 100 --mode snapshot --mailnotification always --quiet 1 --compress zstd --storage DatenSSD --prune-backups 'keep-last=3' --node pve
Oct 13 21:00:01 pve pvescheduler[1065275]: INFO: Starting Backup of VM 100 (qemu)
Oct 13 21:00:14 pve pvestatd[921]: VM 100 qmp command failed - VM 100 qmp command 'query-proxmox-support' failed - got timeout
Oct 13 21:00:15 pve pvestatd[921]: status update time (7.262 seconds)

Der fehler geht die ganze Nacht durch, ohne Pause.
Erst zum Neustart 8.30 Uhr hört das auf...

Ich vermute, dass dadurch die vm lahmgelegt wurde.

Ich schau mal, was da Sache war bzgl. Backup

fiona · Oct 17, 2022

Hi,
was ist die Ausgabe von pveversion -v? Was steht im Task-Log vom Backup-Job (in der UI bei der VM unter Task History zu finden). Wie war die Auslastung vom Server (in der UI Node auswählen und dann Summary)?

Liefen die Backups bisher immer problemlos? Würde kürzlich etwas diesbezüglich geändert?

kleinp · Oct 17, 2022

Hallo @fiona ,

danke für Deine Antwort.

pveversion -v ergibt:

Code:

proxmox-ve: 7.2-1 (running kernel: 5.15.60-1-pve)
pve-manager: 7.2-11 (running version: 7.2-11/b76d3178)
pve-kernel-helper: 7.2-12
pve-kernel-5.15: 7.2-11
pve-kernel-5.13: 7.1-9
pve-kernel-5.15.60-1-pve: 5.15.60-1
pve-kernel-5.15.53-1-pve: 5.15.53-1
pve-kernel-5.15.39-4-pve: 5.15.39-4
pve-kernel-5.15.39-1-pve: 5.15.39-1
pve-kernel-5.15.35-1-pve: 5.15.35-3
pve-kernel-5.13.19-6-pve: 5.13.19-15
pve-kernel-5.13.19-2-pve: 5.13.19-4
ceph-fuse: 15.2.15-pve1
corosync: 3.1.5-pve2
criu: 3.15-1+pve-1
glusterfs-client: 9.2-1
ifupdown2: 3.1.0-1+pmx3
ksm-control-daemon: 1.4-1
libjs-extjs: 7.0.0-1
libknet1: 1.24-pve1
libproxmox-acme-perl: 1.4.2
libproxmox-backup-qemu0: 1.3.1-1
libpve-access-control: 7.2-4
libpve-apiclient-perl: 3.2-1
libpve-common-perl: 7.2-3
libpve-guest-common-perl: 4.1-3
libpve-http-server-perl: 4.1-4
libpve-storage-perl: 7.2-10
libspice-server1: 0.14.3-2.1
lvm2: 2.03.11-2.1
lxc-pve: 5.0.0-3
lxcfs: 4.0.12-pve1
novnc-pve: 1.3.0-3
proxmox-backup-client: 2.2.6-1
proxmox-backup-file-restore: 2.2.6-1
proxmox-mini-journalreader: 1.3-1
proxmox-widget-toolkit: 3.5.1
pve-cluster: 7.2-2
pve-container: 4.2-2
pve-docs: 7.2-2
pve-edk2-firmware: 3.20220526-1
pve-firewall: 4.2-6
pve-firmware: 3.5-4
pve-ha-manager: 3.4.0
pve-i18n: 2.7-2
pve-qemu-kvm: 7.0.0-3
pve-xtermjs: 4.16.0-1
qemu-server: 7.2-4
smartmontools: 7.2-pve3
spiceterm: 3.2-2
swtpm: 0.7.1~bpo11+1
vncterm: 1.7-1
zfsutils-linux: 2.1.5-pve1

In der Task History steht quasi der Selbe Fehler:

Code:

INFO: starting new backup job: vzdump 100 --storage BackupNAS --mode snapshot --prune-backups 'keep-last=3' --mailnotification always --notes-template '{{guestname}}{{guestname}}' --compress zstd --quiet 1 ERROR: Backup of VM 100 failed - unable to create temporary directory '/mnt/pve/BackupNAS/dump/vzdump-qemu-100-2022_10_16-14_00_01.tmp' at /usr/share/perl5/PVE/VZDump.pm line 919. INFO: Failed at 2022-10-16 14:00:01 INFO: Backup job finished with errors TASK ERROR: job errors

Der Storage BackupNAS ist, wie der Name schon sagt das NAS. Eingebunden (mnt/pve/BackupNAS)

Das Backup hat er schonmal ausgeführt. Habe allerdings gesehen, dass das schon länger her ist.
Bisher hat das fehlgeschlagene Backup aber nicht den Server ausgebremst. Hab den Job erstmal deaktiviert.
Ein zweiter (auf ein anderes share) funktioniert.

Vermutlich (also ziemlich sicher) ist der Fehler auf dem NAS bzw bei der Freigabe zu suchen...
User/ Passwort & SMB Freigabe passen "eigentlich".
Ich denke ich lösche bei Gelegenheit die Freigabe und richte sie neu ein...

fiona · Oct 17, 2022

kleinp said:

In der Task History steht quasi der Selbe Fehler:

Code:

INFO: starting new backup job: vzdump 100 --storage BackupNAS --mode snapshot --prune-backups 'keep-last=3' --mailnotification always --notes-template '{{guestname}}{{guestname}}' --compress zstd --quiet 1 ERROR: Backup of VM 100 failed - unable to create temporary directory '/mnt/pve/BackupNAS/dump/vzdump-qemu-100-2022_10_16-14_00_01.tmp' at /usr/share/perl5/PVE/VZDump.pm line 919. INFO: Failed at 2022-10-16 14:00:01 INFO: Backup job finished with errors TASK ERROR: job errors

Würde ich nicht als den selben Fehler bezeichnen

Der hier ist über die Storage, der andere war über die VM/QMP-Kommando. Passen die Berechtigungen für den Mount, i.e. ist es möglich manuell einen Ordner zu erstellen?

Wenn der Job so früh abbricht, sollte die VM eigentlich noch gar nicht vom Job beeinflusst worden sein. Befindet sich die Disk von der VM auch auf einem Netzwerk-Storage?

Vermutung: es könnte sein, dass der NAS-Mount hängen geblieben ist und daher der Server Probleme bekommen hat, aber würde dann mehr Nachrichten dazu im Syslog erwarten, hmm.

kleinp said:
Der Storage BackupNAS ist, wie der Name schon sagt das NAS. Eingebunden (mnt/pve/BackupNAS)

Das Backup hat er schonmal ausgeführt. Habe allerdings gesehen, dass das schon länger her ist.
Bisher hat das fehlgeschlagene Backup aber nicht den Server ausgebremst. Hab den Job erstmal deaktiviert.
Ein zweiter (auf ein anderes share) funktioniert.

Vermutlich (also ziemlich sicher) ist der Fehler auf dem NAS bzw bei der Freigabe zu suchen...
User/ Passwort & SMB Freigabe passen "eigentlich".
Ich denke ich lösche bei Gelegenheit die Freigabe und richte sie neu ein...

kleinp · Dec 14, 2022

Gestern abend ist es wieder aufgetreten, beim Backup

Code:

INFO: starting new backup job: vzdump 100 --node pve --prune-backups 'keep-last=3' --quiet 1 --storage DatenSSD --compress zstd --mailnotification always --mode snapshot
INFO: Starting Backup of VM 100 (qemu)
INFO: Backup started at 2022-12-13 21:00:01
INFO: status = running
INFO: VM Name: Server2019
INFO: include disk 'ide0' 'local-lvm:vm-100-disk-0' 100G
INFO: backup mode: snapshot
INFO: ionice priority: 7
INFO: creating vzdump archive '/mnt/pve/DatenSSD/dump/vzdump-qemu-100-2022_12_13-21_00_01.vma.zst'
INFO: issuing guest-agent 'fs-freeze' command
INFO: issuing guest-agent 'fs-thaw' command
ERROR: VM 100 qmp command 'guest-fsfreeze-thaw' failed - got timeout
ERROR: got timeout
INFO: aborting backup job
ERROR: VM 100 qmp command 'backup-cancel' failed - unable to connect to VM 100 qmp socket - timeout after 5967 retries
INFO: resuming VM again
ERROR: Backup of VM 100 failed - VM 100 qmp command 'cont' failed - unable to connect to VM 100 qmp socket - timeout after 449 retries
INFO: Failed at 2022-12-13 21:14:19
INFO: Backup job finished with errors
TASK ERROR: job errors

Status:

Die VM "läuft", hab aber keinerlei Zugriff.

Final hilft nur ein reboot des Host.

Falk R. · Dec 14, 2022

Ist da zufällig ein Schloss an der VM?
Schon mal mit qm unlock versucht?

kleinp · Dec 14, 2022

Moin,

ja, hab ich probiert. Kein Schloss.

Falk R. · Dec 14, 2022

Auf was für einem Storage liegt denn die VM?

kleinp · Dec 14, 2022

Ist ein LVM-thin auf einer Samsung NVMe

Mich wundert nur, dass nach der Meldung die VM nicht mehr erreichbar ist.
Keine Konsole, kein Teamviewer, kein rdp

Code:

INFO: issuing guest-agent 'fs-freeze' command
INFO: issuing guest-agent 'fs-thaw' command
ERROR: VM 100 qmp command 'guest-fsfreeze-thaw' failed - got timeout
ERROR: got timeout
INFO: aborting backup job
ERROR: VM 100 qmp command 'backup-cancel' failed - unable to connect to VM 100 qmp socket - timeout after 5967 retries
INFO: resuming VM again
ERROR: Backup of VM 100 failed - VM 100 qmp command 'cont' failed - unable to connect to VM 100 qmp socket - timeout after 449 retries
INFO: Failed at 2022-12-13 21:14:19

Falk R. · Dec 14, 2022

Irgendwie friert die VM ein. Hast du mal die NVMe auf Fehler überprüft? Irgendwie drängt sich mir da ein Storagefehler auf.

kleinp · Dec 15, 2022

Ich hab mal diesen Thread gefunden

https://forum.proxmox.com/threads/g...mand-breaks-the-system-on-backup.69605/page-2

Ich hab mal guest agent deaktiviert, mal schauen...

fmtech · Dec 15, 2022

die Konfiguration der VM wäre da mal interessant: qm config und die ID der VM, z.B.

qm config 100

kleinp · Dec 15, 2022

Hallo @fmtech

hier die Ausgabe:

Code:

root@pve:~# qm config 100
agent: 0
boot: order=ide0;ide2;net0;ide1
cores: 4
description: S2019  Essentials
ide0: local-lvm:vm-100-disk-0,cache=writeback,discard=on,size=100G
ide1: local:iso/virtio-win-0.1.217.iso,media=cdrom,size=519096K
ide2: local:iso/SERVER-2019_ESSENTIALS_x64.iso,media=cdrom
machine: pc-i440fx-6.1
memory: 12288
meta: creation-qemu=6.1.1,ctime=1650289753
name: Server2019
net0: virtio=2A:12:AA:A8:4A:5A,bridge=vmbr0,firewall=1
numa: 0
onboot: 1
ostype: win10
scsihw: virtio-scsi-pci
smbios1: uuid=783dc0f0-dde2-4693-86e5-745cd68e79c7
sockets: 1
startup: order=1
vmgenid: eb2a544d-c00e-427b-b44b-24b76237c5ca
root@pve:~#

ITT · Dec 15, 2022

Schon mal auf 7.3 upgedated?
Warum verwendest du bei Server2019 IDE? Warum i440fx?
Richtig wäre scsi-single und q35.

fmtech · Dec 15, 2022

ITT said:
Schon mal auf 7.3 upgedated?
Warum verwendest du bei Server2019 IDE? Warum i440fx?
Richtig wäre scsi-single und q35.

dachte ich mir auch,
und bitte den Agent installieren, aktuelle Version wäre 0.1.225:

https://fedorapeople.org/groups/vir...ownloads/archive-virtio/virtio-win-0.1.225-2/

fmtech · Dec 16, 2022

kleinp said:
Final hilft nur ein reboot des Host.

mit "qm list" die PID der VM feststellen und dann "kill -9 PID" den Prozess killen, da ist kein Neustart notwendig

kleinp · Feb 11, 2023

So, das Problem trat bisher wieder einmal auf.

Hatte eh viel um die Ohren, daher gut, dass es erst jetzt wieder kam ;-)

Danke für Eure Hinweise @fmtech & @ITT

Gibt es eine "einfache" Möglichkeit, auf scsi-single umzustellen? Ohne Neuinstallation des Servers?

cwt · Feb 12, 2023

kleinp said:
So, das Problem trat bisher wieder einmal auf.

Hatte eh viel um die Ohren, daher gut, dass es erst jetzt wieder kam ;-)

Danke für Eure Hinweise @fmtech & @ITT

Gibt es eine "einfache" Möglichkeit, auf scsi-single umzustellen? Ohne Neuinstallation des Servers?

Afaik ging das mit einem Trick. VM runterfahren, eine neue virtuelle HDD als scsi-single hinzufügen, VM wieder starten, aktuellen vioscsi Treiber in der VM installieren, VM runterfahren, 2. HDD wieder löschen und die virtuelle OS HDD umstellen.

kleinp · Feb 27, 2023

Das mit der kleinen HDD hinzufügen & Treiberinstallation hat geklappt.
Konnte dem Laufwerk einen Buchstaben zuweisen etc.

Leider klappt es beim Punkt umstellen auf SCSI nicht...

Server 2019 reagiert nicht

Member

Member

Proxmox Staff Member

Member

Proxmox Staff Member

Member

Distinguished Member

Member

Distinguished Member

Member

Distinguished Member

Member

Member

Member

Renowned Member

Member

Member

Member

Renowned Member

Member

We value your privacy