Hallo zusammen
Ich arbeite aktuell an der Implementation von virutal GPU auf einem Proxmox Host. Mit der älteren Chiparchitektur "Turing" konnte ich bereits ein Setup erfolgreich in Betrieb nehmen. Die neuste Chiparchitektur "Apmere" nutzt aber SR-IOV, welches mich vor ein Problem stellt. Für die Umsetzung bin ich wie folgt vorgegangen:
Die erste Maschine startet problemlos, Grafikkarte wird erkannt. Sobald die zweie Maschine gestartet wird, rebootet der Proxmox Host.
Im Anhang noch die Aufzeichnug der Logfiles, bis der Host crashed. Leider erkenne ich dort keinen Fehler.
Gibt es sonst noch Logfiles welche konsoliudiert werden können? Hat jemand sonst eine Idee?
Danke vielmals und beste Grüsse
Ich arbeite aktuell an der Implementation von virutal GPU auf einem Proxmox Host. Mit der älteren Chiparchitektur "Turing" konnte ich bereits ein Setup erfolgreich in Betrieb nehmen. Die neuste Chiparchitektur "Apmere" nutzt aber SR-IOV, welches mich vor ein Problem stellt. Für die Umsetzung bin ich wie folgt vorgegangen:
- displaymodeselector --gpumode compute --auto
Schaltet meine NVIDIA RTX A6000 in den "physical_display_disabled" Modus, welcher für vGPU erforderlich ist.
- ./NVIDIA-Linux-x86_64-470.63-vgpu-kvm.run
Treiber Installation als Kernelmodul
- /usr/lib/nvidia/sriov-manage -e 000000:03:00.0
Virtuelle Funktionen der GPU einschalten (SR-IOV)
- mdevctl types
Zeigt nun alle SR-IOV Geräte an. Total 32 - dies ist die maximale Anzahl der virtuellen Instanzen, welche die Karte handeln kann
- Definition der Profile für VM (pro VM eine UUID) - diese habe ich mittels uuidgen generiert)
mdevctl undefine --uuid 8f3c0c79-7c5a-43a7-9a2e-9bbce38366c6
mdevctl start -u 8f3c0c79-7c5a-43a7-9a2e-9bbce38366c6 -p 0000:03:00.4 --type nvidia-529
mdevctl define --auto --uuid 8f3c0c79-7c5a-43a7-9a2e-9bbce38366c6
- vi /etc/pve/qemu-server/100.conf mit folgendem args bestücken
args: -device 'vfio-pci,sysfsdev=/sys/bus/mdev/devices/8f3c0c79-7c5a-43a7-9a2e-9bbce38366c6,display=off,id=hostpci0.0,bus=ich9-pcie-port-1,addr=0x0.0,x-pci-vendor-id=0x10de,x-pci-device-id=0x2230,x-pci-sub-vendor-id=0x10de,x-pci-sub-device-id=0x1459' -uuid 8f3c0c79-7c5a-43a7-9a2e-9bbce38366c6
Die erste Maschine startet problemlos, Grafikkarte wird erkannt. Sobald die zweie Maschine gestartet wird, rebootet der Proxmox Host.
Im Anhang noch die Aufzeichnug der Logfiles, bis der Host crashed. Leider erkenne ich dort keinen Fehler.
Gibt es sonst noch Logfiles welche konsoliudiert werden können? Hat jemand sonst eine Idee?
Danke vielmals und beste Grüsse