Probleme mit Proxmox 9

JoeRambo

New Member
Feb 28, 2024
8
0
1
Habe Probleme mit Proxmox 8.x gehabt mit I/O Fehler und Proxmox hat sich öfters aufgehangen. Festplatten waren in Ordnung. Mirror mit 2x 2TV NVME. I9 Intel CPU 20 Kerne. 96GB Ram. Habe nur 3 VMS am laufen 1. VM Linunx DHPC Server, 2 VM Unifi Controller, 3 VM FMC von Cisco für die Firewall.

Habe auf Proxmox neu geupgradet, dachte es würde besser werden. Scheint aber nicht so.
Ich vermute das es an der 3 VM FMC liegt wenn die mit der Firewall Ihre Events checkt das I/O Überlastet.

Nun hab ich auch das Problem das ich keine VM ohne Fehler, mehr Rebooten kann.

Oct 04 11:19:32 hive pvedaemon[269372]: shutdown VM 100: UPID:hive:00041C3C:0067D137:68E0E6A4:qmshutdown:100:root@pam:
Oct 04 11:19:32 hive pvedaemon[260104]: <root@pam> starting task UPID:hive:00041C3C:0067D137:68E0E6A4:qmshutdown:100:root@pam:
Oct 04 11:20:32 hive pvedaemon[269372]: VM quit/powerdown failed - got timeout
Oct 04 11:20:32 hive pvedaemon[260104]: <root@pam> end task UPID:hive:00041C3C:0067D137:68E0E6A4:qmshutdown:100:root@pam: VM quit/powerdown failed - got timeout
Oct 04 11:20:44 hive kernel: zd0: p1 p2 p3 < p5 p6 p7 >
Oct 04 11:20:44 hive kernel: tap100i0: left allmulticast mode
Oct 04 11:20:44 hive kernel: vmbr1: port 4(tap100i0) entered disabled state
Oct 04 11:20:44 hive qmeventd[1386]: read: Connection reset by peer
Oct 04 11:20:44 hive systemd[1]: 100.scope: Deactivated successfully.
Oct 04 11:20:44 hive systemd[1]: 100.scope: Consumed 3h 4.898s CPU time, 14.3G memory peak.
Oct 04 11:20:44 hive qmeventd[269693]: Starting cleanup for 100
Oct 04 11:20:44 hive qmeventd[269693]: Finished cleanup for 100
Oct 04 11:21:25 hive login[269301]: pam_unix(login:session): session closed for user root
Oct 04 11:21:25 hive pvedaemon[261636]: <root@pam> end task UPID:hive:00041BF2:0067CC76:68E0E698:vncshell::root@pam: OK
Oct 04 11:21:25 hive systemd[1]: session-36.scope: Deactivated successfully.
Oct 04 11:21:25 hive systemd-logind[1387]: Session 36 logged out. Waiting for processes to exit.
Oct 04 11:21:25 hive systemd-logind[1387]: Removed session 36.

Error: VM quit/powerdown failed - got timeout

Einstellung der VM

Screenshot 2025-10-04 114104Problem.jpg


Im FMC kann ich keine Einstellung wie ein QEMU Guest Agent erstellen.


Das Problem mit dem I/O ist nicht immer einfach zu reproduzieren da es sporadisch Auftritt.
Proxmox kann ich anpingen aber die GUI nicht mehr erreichen.

Wenn ich über SSH draufgehen möchte, funktioniert es kurz und dann geht nichts mehr.
Muss dann die Note neu starten und dann gehts wieder.

Langsam weiß ich nicht mehr weiter.

Bitte um um Hilfe.

Beste Grüße

Joe
 
Gerade bei I/O Fehlern könnte es an einer Netzwerkkarte liegen oder die Disks haben schon Fehler. Hast du mal die smart Werte gecheckt?
 
Hallo,

Ich hab das Gerät Minis Forums MS-01 und 96GB Ram und 2x 2TB Samsung 990Pro Smart Werte sind soweit ok.

Der Minisforum MS-01 verwendet Netzwerkkarten von Intel. Genauer gesagt, sind die beiden 10-Gbps SFP+ Netzwerkanschlüsse vom Modell Intel X710. Die beiden 2,5-Gbps RJ45 Netzwerkanschlüsse sind vom Modell Intel I226-LM und I226-V

Ist nur immer ein Problem wenn ich das FMC am laufen habe.

die 2 x 2 TB hab ich im ZFS Mirror die anderen 2 x 2 TB hab ich mal ersetzt durch diese beim aufsetzen von Proxmox 8 zu 9, weil ich auch dachte es liegt daran. Aber das Problem ist noch da. Können I/O Fehler auch bei defekt CPU auftauchen. ?

Beste Grüße

Joe

Screenshot 2025-10-04 114104Problem.jpgScreenshot 2025-10-04 194605A.jpgScreenshot 2025-10-04 194625B.jpgScreenshot 2025-10-04 194700.jpgScreenshot 2025-10-04 194711.jpg
 
Hallo @JoeRambo,

danke für die S.M.A.R.T. Werte. Die bestätigen zwar, dass die SSDs in Ordnung sind, aber die hohe Anzahl an "Unsafe Shutdowns" zeigt auch, wie oft das System hängt. Ein CPU-Problem halte ich für weniger wahrscheinlich.

Zwei konkrete Ansätze, die du weiterverfolgen könntest:
  1. Firmware: Prüfe, ob es für deinen Minisforum MS-01 ein aktuelles BIOS/UEFI-Update gibt. Solche Updates beheben oft Stabilitätsprobleme mit NVMe-Laufwerken unter hoher Last. Gleiches gilt für die Firmware deiner Samsung 990 Pro SSDs.
  2. VM-Konfiguration: In deinem Screenshot der VM-Hardware ist mir bei der Festplatte die Option jothread=1 aufgefallen. Dies ist keine Standardeinstellung. Falls du diese nicht bewusst gesetzt hast, versuche sie zu entfernen. Bearbeite dazu die Konfigurationsdatei der VM unter /etc/pve/qemu-server/100.conf und lösche beim Eintrag für virtio0 den Teil jothread=1.
 
Ich kenne FMC nicht, aber versuche mal mit weniger Kernen zu starten oder die virtuelle CPU zu maskieren mit z.B. x86_64v3 statt host.
Bei den Intel Consumer CPUs sind Probleme durch P+E Cores bei einigen anwendungen bekannt, wenn man virtualisiert.
Die Software erkennt beim starten dass ein P-Core mit mehr Features verfügbar ist und nutzt diese CPU Features. Während der Laufzeit bekommt die VM auch mal E-Cores zugewiesen, denen dann ein paar Instruktionen fehlen. Damit kann eine Software crashen und unter umständen den ganzen Host beeinträchtigen.
 
  • Like
Reactions: MarkusKo