VM mit GPU über PCI-E Passthrough stürzt zwischendurch ab

Skankhunt42

Member
May 25, 2021
24
0
6
24
Münster - NRW, Germany
Hallo zusammen,

ich habe eine Windows Server 2022 Standard VM, an welche ich eine GPU über PCI-E Passthrough durchgereicht habe.
Es handelt sich dabei um ein X99 Mainboard mit einer GTX 1050 Ti. Die GTX ist die einzige GPU im System. Ich habe im Proxmox Host natürlich alles notwendige getan, damit die Karte nicht im Host verwendet wird. Wird Sie anscheinend auch nicht.
Die GPU Funktioniert an der Windows VM, doch stürzt nach einiger Zeit (unregelmäßig mal nach wenigen Minuten mal nach 7 Tagen) einfach mit einem BSOD ab.
Das Gastsystem kann die GPU nutzen, und läuft auch stabil während diese zum encodieren von Video Daten genutzt wird.
Ich habe bereits verschiedene (neuere und ältere GPU Treiber Studio und Game-Ready) ausprobiert, das System stürzt leider immer irgendwann ab.

Hier ist zu sehen, dass die GPU im Gastsystem stabil genutzt werden kann.

Der Fehler laut Ereignislog lautet immer gleich:


Code:
Der Computer wurde nach einem schwerwiegenden Fehler neu gestartet. Der Fehlercode war: 0x00000119 (0x0000000000000002, 0xffffffffc000000d, 0xffffce02464298b0, 0xffff928bc0989760). 

VIDEO_SCHEDULER_INTERNAL_ERROR

1662413078109.png



Ich hoffe hier Hilfe zu erhalten, vielleicht hatte das Problem ja schon jemand. :confused:

Vielen Dank schon einmal für alle Antworten.
 
Hi,

gibt es während dem bluescreen irgendwelche Einträge am host syslog?
Firmware/Bios von allen Komponenten ist aktuell?
 
Hi,

gibt es während dem bluescreen irgendwelche Einträge am host syslog?
Firmware/Bios von allen Komponenten ist aktuell?
Tatsächlich habe ich zum letzten absturz timestamp im syslog folgendes gefunden:

Code:
Sep  5 22:00:39 (hostname) kernel: [85831.452752] kvm [2182]: ignored rdmsr: 0x10f data 0x0
Sep  5 22:00:39 (hostname) kernel: [85831.452877] kvm [2182]: ignored rdmsr: 0x123 data 0x0
Sep  5 22:00:39 (hostname) kernel: [85831.452903] kvm [2182]: ignored rdmsr: 0xc0011020 data 0x0
Sep  5 22:03:01 (hostname) pvedaemon[344698]: <root@pam> successful auth for user 'root@pam'
Sep  5 22:17:01 (hostname) CRON[722921]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Sep  5 22:18:01 (hostname) kernel: [86873.092937] kvm [2182]: ignored rdmsr: 0x10f data 0x0
Sep  5 22:18:01 (hostname) kernel: [86873.093590] kvm [2182]: ignored rdmsr: 0x123 data 0x0
Sep  5 22:18:01 (hostname) kernel: [86873.094124] kvm [2182]: ignored rdmsr: 0xc0011020 data 0x0
Sep  5 22:18:04 (hostname) kernel: [86876.846299] kvm [2182]: ignored rdmsr: 0x64d data 0x0

Firmware/Bios von allen Komponenten ist aktuell?

Mainboard BIOS ist aktuell, das VBios wahrscheinlich nicht, habe ich nicht geprüft. Möchte auch ungerne das Vbios der Karte flashen.

Edit: "options kvm ignore_msrs=1" ist in der /etc/modprobe.d/kvm.conf bereits gesetzt.
 
Last edited:
Auf dem gast gibt es keine weiteren logs.
Wenn die VM das nächste mal abschmiert werde ich nochmal ins syslog des Host systems schauen.
Ich hatte wie oben bereits genannt verschiedene Treiber Versionen durchinstalliert immer mit dem selben Ergebnis, dass die VM irgendwann abschmiert. Ich kann mir fast nicht mehr vorstellen, dass es am treiber liegt, außer vielleicht es gibt eine inkompatibilität bezgl. des OS, da Windows Server eingesetzt wird und der treiber nur für Win 10/11 ausgelegt ist.
 
Die VM ist mittlerweile nach 5 Tagen erneut abgestürzt, nach 12 Stunden dann noch einmal.

Diese Meldunden scheinen definitiv mit dem Problem im Zusammenhang zu stehen, diese Tauchen nur zu dem Zeitpunkt auf, wenn die VM abstürzt.

Code:
Sep  5 22:18:01 (hostname) kernel: [86873.092937] kvm [2182]: ignored rdmsr: 0x10f data 0x0
Sep  5 22:18:01 (hostname) kernel: [86873.093590] kvm [2182]: ignored rdmsr: 0x123 data 0x0
Sep  5 22:18:01 (hostname) kernel: [86873.094124] kvm [2182]: ignored rdmsr: 0xc0011020 data 0x0
Sep  5 22:18:04 (hostname) kernel: [86876.846299] kvm [2182]: ignored rdmsr: 0x64d data 0x0[/CODE

Die aktuellen Meldungen im Syslog lauten wie folgt:


Code:
Sep 12 10:51:38 (HOSTNAME) kernel: [650489.284687] kvm [761253]: ignored rdmsr: 0x10f data 0x0
Sep 12 10:51:38 (HOSTNAME) kernel: [650489.285162] kvm [761253]: ignored rdmsr: 0x123 data 0x0
Sep 12 10:51:38 (HOSTNAME) kernel: [650489.285504] kvm [761253]: ignored rdmsr: 0xc0011020 data 0x0
Sep 12 10:51:42 (HOSTNAME) kernel: [650493.033805] kvm [761253]: ignored rdmsr: 0x64d data 0x0
Sep 12 10:52:33 (HOSTNAME) kernel: [650543.623598] kvm [1821]: ignored rdmsr: 0x10f data 0x0
Sep 12 10:52:33 (HOSTNAME) kernel: [650543.624100] kvm [1821]: ignored rdmsr: 0x123 data 0x0
Sep 12 10:52:33 (HOSTNAME) kernel: [650543.624450] kvm [1821]: ignored rdmsr: 0xc0011020 data 0x0
 
Last edited:
wie sieht denn die ganze vm config aus? (qm config ID) ?
 
Code:
agent: 1,type=virtio
balloon: 4086
bios: ovmf
boot: order=virtio0;net0
cores: 4
cpu: Broadwell
efidisk0: Internal_Storage-SSD:vm-114-disk-0,efitype=4m,pre-enrolled-keys=1,size=4M
hostpci0: 0000:07:00,pcie=1
machine: pc-q35-5.1
memory: 6144
meta: creation-qemu=6.2.0,ctime=1657956222
name: MADLEN-WS2022
net0: virtio=42:FB:C6:B1:25:D0,bridge=vmbr0
net1: e1000=AE:44:E5:DB:4E:AC,bridge=vmbr40
numa: 0
onboot: 1
ostype: win11
sata1: hostname:0.0.0.scsi-36e843b61941b952ded39d4id,backup=0,size=11234816M
scsihw: virtio-scsi-pci
smbios1: uuid=91947b44-9e9d-427a-b3e5-0b98160d3511
sockets: 1
startup: order=4,up=10,down=24
tpmstate0: Internal_Storage-SSD:vm-114-disk-2,size=4M,version=v2.0
vga: std,memory=128
virtio0: Internal_Storage-SSD:vm-114-disk-1,size=160G
vmgenid: 89ac369a-606d-4776-b1dc-078788481d2a
 
ok das einzige was mir potentiell dazu einfällt ist dass sich der cpu typ vielleicht nicht mit der echten cpu (welche ist es denn?) verträgt... vielleicht mal zum testem 'kvm64' oder 'host' versuchen
die 'rdmsr' meldungen sind versuche auf bestimmte cpu register zuzugreifen, offenbar ist hier die interaktion zwischen gast-treiber, virtueller cpu, kvm und windows nicht in ordnung
 
Die VM lief bisher ohne Probleme stabil seit 6 Tagen..
Ich beobachte dies noch etwas weiter, ich hoffe es bliebt alles so.
Geändert wurde die Chipsatz Einstellung von q35-5.2 auf 4.2, es wird der aktuellste treiber für die GPU verwendet.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!