I had the same issue. The VM with huge vitual CPU resources (2 sockets, 24 cores, 48 VCPUs) sometimes had 60-80% of packet loss. VMs with less CPU resources are not affected. Rolling back to kernel 6.2 seems to solve the problem.
Ja, an OSDs in Server mit unterbrochener Verbindung sind die OSD Latenzen etwas mehr als an anderen. Etwa 4-7 ms an Server welches kurz nicht erreichbar war. 1-3 ms an anderen.
Könnte die Ursache zu wenige PGs per OSD sein? Es sind ungefähr 60 pro OSD.
Ja. Mehrmals. 4 Server Prozesse an einem Server gestartet (da ein Prozess nicht 40Gb/s voll nutzen kann) und 4 client Prozesse an anderem Server. Testergebnis liegt bei etwa 38-39 Gb/s.
Nachtrag:
Während recovery Netzwerk ist nur minimal ausgelastet. Nicht mal 1 Gb/s. Es ist eher unwahrscheinlich, dass Netzwerk in in diesem Fall die Ursache ist.
Ich habe mclock scheduler Parameter geändert (wie @aaron empfohlen hat). Nämlich osd_mclock_scheduler_background_recovery_lim und...
Hallo @aaron ,
Die OSDs sind Samsung pm9a3 Datacenter NVMes. Keine Desktop NVMes. Sowohl CPU, als auch RAM ist ausreichend vorhanden. Etwa 30 % von CPU und 50 % vom RAM ist in jedem Server immer frei. Jeder Server hat 128 CPU cores und 512 GB bis 1 TB RAM. IO delay ist in Normalbetrieb nahe 0...
Hallo,
Wir haben ein relative großes Hyperkonvergentes Cluster. 17 server jeweils mit 8 NVMe OSDs. Proxmox Version ist 7.4.17, Kernel ist
5.15.126-1-pve. CEPH Version ist 17.2.6 (quincy).
CEPH cluster/public Netzwerke nutzen zwei eigene 40Gb/s Interfaces gebündelt in LACP bond. MTU ist 9000...
Thanks for your really great work. I have question about CEPH Quincy. Softiron storage vendor which uses CEPH for commercial product, says that there are some problems with Quincy:
https://softiron.com/blog/our-approach-to-adopting-upstream-ceph-releases/
I'm interested if you encountered the...
As in my case, if "qemu-img check" reports errors like:
1027 leaked clusters were found on the image. This means waste of disk space, but no harm to data.
qcow2 image is damaged.
Image can be repaired with following steps:
1. Create new VM (for example VM 121).
2. Shutdwon production VM with...
qcow2 image is corrupt.qemu-img check vm-120-disk-1.qcow2
Leaked cluster 5013 refcount=1 reference=0
Leaked cluster 5014 refcount=1 reference=0
Leaked cluster 21903 refcount=1 reference=0
...
1027 leaked clusters were found on the image.
This means waste of disk space, but no harm to data...
Same problem here.
Only one KVM-VM will not backup. Backups of all other VMs on the same proxmox-node (and on the same local storage) ends successful.
Mar 12 02:00:01 INFO: Starting Backup of VM 120 (qemu)
Mar 12 02:00:01 INFO: status = running
Mar 12 02:00:02 INFO: backup mode: snapshot
Mar...
This site uses cookies to help personalise content, tailor your experience and to keep you logged in if you register.
By continuing to use this site, you are consenting to our use of cookies.