IO Performance auf VMs auf Ceph ist extrem schlecht

Welchen CPU Typ nutzt du und welchen Controller Typ in der VM?
So sieht die VM gerade aus:
Code:
boot: order=scsi0;ide2;net0
cores: 2
cpu: host
ide2: none,media=cdrom
memory: 1024
name: test
net0: virtio=0E:F2:92:FB:E4:5C,bridge=vmbr0,firewall=1,tag=xy
numa: 0
ostype: l26
scsi0: <cephpoolname>:vm-154-disk-0,discard=on,iothread=1,ssd=1,size=20G
scsi1: <cephpoolname>:vm-154-disk-2,discard=on,iothread=1,ssd=1,size=50G
scsihw: virtio-scsi-single
smbios1: uuid=randomstuff
sockets: 1
vga: qxl
vmgenid: randomstuff
 
So sieht die VM gerade aus:
Code:
boot: order=scsi0;ide2;net0
cores: 2
cpu: host
ide2: none,media=cdrom
memory: 1024
name: test
net0: virtio=0E:F2:92:FB:E4:5C,bridge=vmbr0,firewall=1,tag=xy
numa: 0
ostype: l26
scsi0: <cephpoolname>:vm-154-disk-0,discard=on,iothread=1,ssd=1,size=20G
scsi1: <cephpoolname>:vm-154-disk-2,discard=on,iothread=1,ssd=1,size=50G
scsihw: virtio-scsi-single
smbios1: uuid=randomstuff
sockets: 1
vga: qxl
vmgenid: randomstuff
Sieht soweit OK aus. Dann passt irgend etwas anderes nicht, wenn du immer identische Performance hast.
 
wenn du immer identische Performance hast.
Bis zu 10% hin und her geht es schon manchmal. Aber das tut's auch, wenn ich unter gleichen Bedingungen mehrmals oder zu unterscheidlichn Zeiten teste. Haben andere denn auch die Erfahrung gemacht, dass die IOPS-Performance von Ceph davon abhängt, wie viele vCPUs und RAM eine VM hat? Ich sehe während der Tests, dass fio lediglich 20% einer vCPU verwendet. Das sieht mir erstmal nicht danach aus, als gäbe es hier ein Nadelöhr.
 
Bis zu 10% hin und her geht es schon manchmal. Aber das tut's auch, wenn ich unter gleichen Bedingungen mehrmals oder zu unterscheidlichn Zeiten teste. Haben andere denn auch die Erfahrung gemacht, dass die IOPS-Performance von Ceph davon abhängt, wie viele vCPUs und RAM eine VM hat? Ich sehe während der Tests, dass fio lediglich 20% einer vCPU verwendet. Das sieht mir erstmal nicht danach aus, als gäbe es hier ein Nadelöhr.
Ich vermute dann eher Probleme im Netzwerksetup
 
Wie sieht denn die Auslastung auf der NIC und dem Node generell aus?

Theoretisch könnten 10 SSDs einen 40 G Link voll machen (einfach nur mal 10x 500 MB angenommen). Eventuell läufst du hier also in ein Bottleneck. Bei einem Switch mit LACP und L3+4 hast du den Vorteil, dass sich die Verbindungen der OSDs und Clients optimal auf alle verteilen. Beim Mesh Setup beschränkst du dich aber selbst.
Hast du den Jumbroframes aktiviert?
 
Beim Mesh Setup beschränkst du dich aber selbst.
Ja, wir sind durch das Mesh auf 25G beschränkt. Jammern auf hohem Niveau, würde ich sagen. :)
Wie sieht denn die Auslastung auf der NIC und dem Node generell aus?
Entspannt, würde ich sagen. Im normalen Produktivbetrieb gehen über die Mesh-NICs die meiste Zeit weniger als 100 MB/s. CPU der Nodes bei ca. 20%, RAM bei ca. 60%.
Jumbroframes
Jep, die MTU size der Mesh-NICs steht auf 9000.

Mit wieviel IOPS wärt ihr bei unserem Setup und dem genannten fio-Benchmark zufrieden?
 
Last edited:

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!