MSSQL Instanzen frieren ein

ugf

New Member
Dec 8, 2023
6
0
1
Hallo,

wir haben mehrere MSSQL-Instanzen, die sporadisch und nicht reproduzierbar immer mal wieder einfrieren.
Per VNC kann dann noch die Maus bewegt werden.

- Die Serverzeit bleibt stehen
- Kein Login (STRG+ALT+ENT) möglich
- Keine Logs in der VM werden geschrieben
- Egal ob lokaler ZFS oder CEPH Storage

Die VMs wurden von VMWare auf Proxmox migriert, zusammen mit anderen Windows VMs ohne MSSQL.
Lediglich die MSSQL Server scheinen Probleme zu haben.

Version der Node :

Code:
proxmox-ve: 7.4-1 (running kernel: 5.15.107-2-pve)
pve-manager: 7.4-17 (running version: 7.4-17/513c62be)
pve-kernel-5.15: 7.4-9
pve-kernel-5.13: 7.1-9
pve-kernel-5.15.131-2-pve: 5.15.131-3
pve-kernel-5.15.107-2-pve: 5.15.107-2
pve-kernel-5.13.19-6-pve: 5.13.19-15
pve-kernel-5.13.19-1-pve: 5.13.19-3
ceph: 16.2.14-pve1
ceph-fuse: 16.2.14-pve1
corosync: 3.1.7-pve1
criu: 3.15-1+pve-1
glusterfs-client: 9.2-1
ifupdown2: 3.1.0-1+pmx4
ksm-control-daemon: 1.4-1
libjs-extjs: 7.0.0-1
libknet1: 1.24-pve2
libproxmox-acme-perl: 1.4.4
libproxmox-backup-qemu0: 1.3.1-1
libproxmox-rs-perl: 0.2.1
libpve-access-control: 7.4.1
libpve-apiclient-perl: 3.2-1
libpve-common-perl: 7.4-2
libpve-guest-common-perl: 4.2-4
libpve-http-server-perl: 4.2-3
libpve-rs-perl: 0.7.7
libpve-storage-perl: 7.4-3
libspice-server1: 0.14.3-2.1
lvm2: 2.03.11-2.1
lxc-pve: 5.0.2-2
lxcfs: 5.0.3-pve1
novnc-pve: 1.4.0-1
proxmox-backup-client: 2.4.6-1
proxmox-backup-file-restore: 2.4.6-1
proxmox-kernel-helper: 7.4-1
proxmox-mail-forward: 0.1.1-1
proxmox-mini-journalreader: 1.3-1
proxmox-offline-mirror-helper: 0.5.2
proxmox-widget-toolkit: 3.7.3
pve-cluster: 7.3-3
pve-container: 4.4-6
pve-docs: 7.4-2
pve-edk2-firmware: 3.20230228-4~bpo11+2
pve-firewall: 4.3-5
pve-firmware: 3.6-6
pve-ha-manager: 3.6.1
pve-i18n: 2.12-1
pve-qemu-kvm: 7.2.0-8
pve-xtermjs: 4.16.0-2
qemu-server: 7.4-4
smartmontools: 7.2-pve3
spiceterm: 3.2-2
swtpm: 0.8.0~bpo11+3
vncterm: 1.7-1
zfsutils-linux: 2.1.14-pve1

VM-Config (Aus einem Snapshot):
Code:
[TMP_SNAP]
agent: 1
balloon: 0
boot: order=scsi0;ide2;net0
cores: 8
cpu: host
ide2: none,media=cdrom
machine: pc-q35-7.2
memory: 81920
meta: creation-qemu=7.2.0,ctime=1700145002
name: Problemkind
net0: e1000=E2:4F:65:C3:65:48,bridge=vmbr1,tag=2484
numa: 0
ostype: win10
runningcpu: host,hv_ipi,hv_relaxed,hv_reset,hv_runtime,hv_spinlocks=0x1fff,hv_stimer,hv_synic,hv_time,hv_vapic,hv_vpindex,+kvm_pv_eoi,+kvm_pv_unhalt
runningmachine: pc-q35-7.2+pve0
scsi0: nvmetank:vm-5013-disk-0,size=100G
scsi1: nvmetank:vm-5013-disk-1,backup=0,size=99G
scsi2: nvmetank:vm-5013-disk-2,backup=0,size=300G
scsi3: nvmetank:vm-5013-disk-4,backup=0,size=810G
scsi4: nvmetank:vm-5013-disk-5,backup=0,size=800G
scsihw: pvscsi
smbios1: uuid=d34e8e9e-b556-4523-abbe-c471fe2b0898
snaptime: 1709299217
sockets: 1
vmgenid: 96a785b2-d0a3-420b-ba5b-2a072eed480d
vmstate: nvmetank:vm-5013-state-TMP_SNAP


Aktueller Plan ist ein Upgrade auf PVE8, jedoch ist unklar, ob das Erfolg haben wird.
 
Findest du was in den Logs auf dem Proxmox Servern? Eventuell mal mit "journalctl -e" durchschauen ob zum Zeitpunkt des Einfrierens der VM dort etwas zu finden ist? Wie siehts aus mit den Eventlogs im Windows Server?
 
Hallo,

der Windows Log ist leer und wird dann auch nicht weiter beschrieben.

Im Journal findet sich nichts, außer die ohnehin immer mal wieder auftretenden Warnungen :
Code:
 x86/split lock detection: #AC: CPU 5/KVM/944702 took a split_lock trap at address: 0x72da08dd
 x86/split lock detection: #AC: CPU 6/KVM/944703 took a split_lock trap at address: 0x72da08dd
 VM 5013 qmp command failed - VM 5013 qmp command 'guest-ping' failed - got timeout

Außerdem:
VM 5013 qmp command failed - VM 5013 qmp command 'guest-ping' failed - unable to connect to VM 5013 qga socket - timeout after 31 retries

Wobei der letzte fehler durch mich verursacht wurde, da ich per qm monitor einen Memorydump versucht habe zu ziehen.
 
Afaik konnte man die Warnungen immer ignorieren(Andere Windows-VMs haben diese auch und crashen nicht), ich habe jetzt mal einen Server entsprechend angepasst, sodass die Detektierung aus ist.
 
Sind das ggf. von VMWare migrierte Systeme? Falls ja, sind die Tools deinstalliert worden?
 
Ja, die Tools sollten deinstalliert sein. Kann aber sein, dass noch Artefakte drauf sind (Treiber?), da bin ich mir nicht so sicher.
Auf einer VM ist auch der qemu-ga drauf, die VM freezed trotzdem.
 
Gibt es denn in den Logs der VMs selbst noch Fehlereinträge? SQL VSS aktiv?
 
Gibt es einen speziellen Grund für die HV Enlightments in den CPU Optionen? Habt ihr diese testweise bei einer VM mal weggelassen?
 
Windows Speicherabbild einschalten und dann mit den Developer Tools auf die Suche gehen, das wäre meine Massnahme.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!