Proxmox für 500-1000 VMs

@Stefan123, wenn ihr ein dediziertes Ceph-Cluster nutzt, laufen auf den Compute-Nodes keine Storage-I/Os für die VMs — die lokalen Platten dienen dort nur als Boot-/OS-Laufwerke für Proxmox selbst. Dafür reichen SAS-SSDs locker, selbst SATA-SSDs wären kein Flaschenhals.

Die Performance-relevanten Platten sitzen ausschließlich in euren Ceph-Nodes. Dort solltet ihr auf NVMe setzen — sowohl für die OSDs als auch für WAL/DB. Das ist der Punkt, wo sich die Investition auszahlt.

Kurz: Spart bei den Compute-Nodes an den Platten und investiert das Budget in die Ceph-Nodes (NVMe, RAM, 100G-Anbindung).
 
Eine kurze Frage hätte ich tatsählich. Wir schauen gerade grob nach HW-Preisen.
Wenn wir ein zentrales NVME Ceph-Storage hätten, ist die Geschwindigkeit der Platten in den Nodes relavant. Also könnte man hier auch SAS-SDDs statt NVME nutzen ohne eine Flaschenhals zu haben.

Viele Grüße

Es kommt darauf an. :)

und zwar auf das Netzwerksetup das ihr am Ende fahrt. Die Geschwindigkeiten im Netzwerk (Bonding/LACP) für das Ceph sollten mit den IO-Geschwindigkeiten der Disks passen (in Abhängigkeit zur Art und Anzahl der Disks).
Wenn ihr an der richtigen Stelle Geld sparen wollt.

In der Vergangenheit habe ich auch Cluster gesehen, wo die Betreiber mit SATA SSDs und 2*10G zufrieden waren. Das hängt dann aber vom Usecase ab.

Für ein reines convergte Setup, haben die Platten in den Servern für das OS kaum einen Performance Bedeutung.

BG, Lucas
 
Last edited:
@Stefan123, wenn ihr ein dediziertes Ceph-Cluster als Storage nutzt, laufen auf den Compute-Nodes keine Ceph-OSDs. Die lokalen Platten in den Nodes brauchen dann nur das Proxmox-OS und ggf. ISOs/Templates — dafür sind SAS-SSDs völlig ausreichend, die sind kein Flaschenhals.

Der relevante Flaschenhals ist das Netzwerk zwischen Compute-Nodes und Ceph-Cluster. Deshalb ist die 100G-Empfehlung von @Falk R. hier umso wichtiger — bei einem dedizierten Ceph-Cluster gehen alle I/O-Operationen (Reads und Writes) über das Netzwerk, während bei HCI zumindest die Primary-Reads lokal bedient werden können.

Kurz: Spart euch NVMe in den Compute-Nodes und investiert das Budget lieber in die Netzwerkanbindung zum Ceph-Cluster.