Neuer Proxmox/Ceph Cluster

Fladi

Renowned Member
Feb 27, 2015
31
9
73
Hallo miteinander!

Wir haben ein bisschen Hardware und ein bisschen Budget und wollen damit einen kleinen Proxmox/Ceph Cluster bauen. Mich würde interessieren, ob das aus Eurer Sicht so Sinn macht, bzw. was wir noch ändern können/sollten.

Vorhandene Hardware:
3 x HP DL360 G7 (für Proxmox VM)
- 64GB
- 2 x Intel X5675 @3.07Ghz (6 Core - also 24 Threads pro Node)
- 120GB Samsung SM863 SSD für OS (oder alternativ 2 x kleine SAS)
- IBM M1015 als HBA im IT-Mode

dazu wollen wir noch:
3 x HP SE326M1 (für (Proxmox) Ceph)
- 12 LFF 3,5" HDD Einschübe (nur teilweise bestückt - siehe unten)
- 24 GB
- 2 x Quad Core CPU (also 16 Threads)
- IBM M1015 als HBA
- Samsung SM863 als OS und pro 4-5 OSD eine als Journal

Grob gesagt soll auf den SE326 eine Proxmox-Installation mit Ceph laufen und einen HDD-Pool bilden. Wir starten mit 3 x 4 TB pro Node (Hitachi 4GB mit 7.200). Wenn alles rund läuft wird hier zeitnah nachgelegt.

Auf den DL360 sollen primär die VM laufen. Zum Start etwa 5 x Windows 2012 und 5-10 Linux VM als KVM/LXC. RAM würden wir ggf. noch nachrüsten falls nötig.

Zusätzlich soll auf diesen (da noch 2,5" Slots frei sind) ein Ceph-SSD-Pool eingerichtet werden. Pro DL360 2 x 480GB Samsung SM863. Auf diesem SSD-Pool sollen dann auch alle VM-Images liegen sodass wir diese tendenziell alle als HA laufen lassen können. Ebenso würde ich hier die Monitore laufen lassen.

Sofern Ceph Jewel verfügbar ist wäre CephFS sicherlich auch mal einen Test wert. Wir hätten noch einen Storage-Server mit identischen CPU/RAM wie die HP DL360 den wir anstelle eines SE326 nehmen könnten (wg. mehr CPU-Power für CephFS sinnvoll?).

Für das CEPH-Netzwerk (Ceph-Traffic und VM-Anbindung) wollen wir auf Infiniband gehen. Angedacht ist ein HP Voltaire 4036-Switch und in jeden Host ConnectX-2 Karten.

Jeder VM-Server hat noch 4 x 1 Gbit Uplink zur Verfügung die ich je nach Bedarf an die VM weiter reichen würde.

Noch ein paar Fragen die mir im Sinn sind:
- Kann ich das IB-Netz zusammen mit Ethernet 1GB bonden zwecks Ausfallsicherheit? Für Infiband muss ich ja ohnehin IBoIP nutzen (?)
- Sollten es Dual-IB-Karten sein, damit CEPH Replikationstraffic und der VM-Traffic über getrennte Interface laufen?
- Sollten die OS-Platten gespiegelt sein (macht halt gleich nochmal 600,- zusätzlich)?
- SSD für OS notwendig oder SAS/SATA ausreichend (wg. Monitor-Logs ...)
- Reichen die Cluster-Reserven um mal einen Tag über die Runden zu kommen bei einem Ausfall eines Nodes? Wir wollen nächtliche Rufbereitschafseinsätze möglichst vermeiden wenn mal etwas ausfällt. In Zukunft würden wir die restlichen Komponenten soweit noch nicht vorhanden dann auch noch redundant auslegen.

Macht das alles halbwegs Sinn?

Danke für Eure Mühen und Gruß
Tim
 
Hi
- Kann ich das IB-Netz zusammen mit Ethernet 1GB bonden zwecks Ausfallsicherheit? Für Infiband muss ich ja ohnehin IBoIP nutzen (?)
IIRC, Bonding geht mit dem gleichen Link Layer, zbs nur zwischen Ethernet NIC . Mit IB habe ich weniger erfahrung.
- - Sollten es Dual-IB-Karten sein, damit CEPH Replikationstraffic und der VM-Traffic über getrennte Interface laufen?
Ja ein getrenntester netzwerk für Storage ist auf jedem fall zu empfehlen.
- Sollten die OS-Platten gespiegelt sein (macht halt gleich nochmal 600,- zusätzlich)?
Ja. Hardware Raid1 wäre hier zu empfhelen.
- SSD für OS notwendig oder SAS/SATA ausreichend (wg. Monitor-Logs ...)
SATA/ SAS soll reichen.
Was witchtiger ist für ceph ist die menge von OSD, je mehr desto besser.
Die Meisten Ceph setups fangen mit 6-8 OSD servers an.
 
  • Like
Reactions: Fladi
Moin!

Ich bin so frech und kapere dieser Thread mal kurz, denn mein Setup ist ähnlich (SE326M1 und SE316M1, allerdings mit 2,5" SSDs):
Momentan 4 PVE Knoten, 2 davon kombiniert mit ~ 1,2TB RAID 5 unter GlusterFS Replika.

Performance ist soso-lala.

Ceph scheint hier die richtige Lösung.
Ich würde nun also eher einen zus. 326M1 gleich bestücken wie die beiden anderen.

Alle 3 Knoten hätten dann:
2x 146GB SAS RAID1 fürs OS.
2x 146GB SAS RAID1 (Als Journal?)
6x 300GB SAS ... RAID diskutabel

Endlich dann die konkrete Fragen:
1) Mehr OSDs ist besser. Also lieber 6 300GB OSDs? Oder sollte man wirklich (!) 3 RAID1 pro Server einrichten? (Dann wird Speicher doch ganz schön teuer ;) )
2) Ist die Wiki-Anleitung bzgl. Ceph noch aktuell bzw. gültig? Sie bezieht sich auf PVE 2.x.
- Das Problem mit dem Array Controller (P400) konnte ich nicht nachvollziehen.
- Andererseits weigerte PVE 4.x sich beharrlich das -angeblich sauber- eingerichtete Test-Volume einzubinden. Anzeigen ja, aber zugreifen endete immer im TimeOut. (3 Monitore, 2 OSDs, alles online, 1 Pool mit 2 / 1)
*** EDIT: Vergisst diese Frage... ich sehe gerade auf der Englische seite, dass ein neuer Wiki-Artikel hierzu publiziert wurde. (Allerdings finde ich die Anforderungen bzgl. SSDs schon happig!)

Danke & Gruß
JK
 
Last edited:
Hallo Jeroen,

mein armer Thread. Einfach so gekapert ;-)

Also mein Cluster läuft seit kurzer Zeit. Allerdings sind wir noch an andere Hardware gekommen, sodass sich das alles etwas geändert hat.

2x 146gb als Raid für das Journal macht meiner Meinung nach nur wenig Sinn. Sind dann ja auch drehende Platten, sodass da wohl kaum Performance-Zuwachs zu erwarten sind. Bei Raid 1 hast Du dann ausserdem ja noch zwei Schreibzyklen. Wir haben pro 4 OSD eine SSD als Journal.

zu 1) Mehr OSD ist immer besser. Unter 3x4 sollte man wohl nicht starten, wenn ich das recht in Erinnerung habe. Aber mit 6x300gb pro Server ist das ja kein Problem bei Dir. Raid an sich brauchst Du bei CEPH ja nicht mehr (ausser ggf. für OS).

zu 2) Anleitung unter https://pve.proxmox.com/wiki/Ceph_Server ist aktuell. Timeout hatte ich zu Anfang auch. Lag zum einen daran, dass ich von einem "nicht-ceph" proxmox drauf zu gegriffen habe. Zum anderen gab es bei mir noch irgendwie Probleme mit den Zertifikaten, die ich dann nochmal erneuert habe.

Gruß
Tim
 
  • Like
Reactions: Jeroen Keerl
Beim Gedanken an Ceph musst du dich von RAID lösen. Wir haben nur das Proxmox System auf einem RAID 1 laufen, damit der Server nicht direkt ausfällt falls eine der Platten ausfällt.

Ergo binde alle zukünftigen OSDs per JBOD an dein System an. Wenn du in einem Server ein RAID drauf setzt und darüber Ceph die OSDs ansteuern lässt, hast du einen großen Performance Verlust.

Für das Journaling empfehle ich dir eine einzelne schnelle PCIE SSD zu nutzen. Jeder Schreibvorgang im Ceph Cluster beginnt zuerst im Journal. Wir nutzen die Intel SSD DC P3700 400GB.

Angefangen haben wir mit 4 Nodes ( siehe meinen Thread). Wir haben jetzt den fünften Server in Betrieb und die Lage hat sich merklich gebessert. Ich bin bei der Erstellung des Cluster genau den Anweisungen des Wikis gefolgt.

Was wir aber festgestellt haben ist: Benutze große Platten wenn du viele VMDisks speichern willst. Wir nutzen 600GB 15k HDDs, da diese vorrätig waren. Brutto klingen in unserem Fall 17,46 TiB viel, da wir aber eine Pool Size von 3 nutzen (jede Datei ist dreifach vorhanden) haben wir Netto nur noch 5,82 TiB bei 32 OSDs. Daher werden wir Schrittweise dazu übergehen 2TB 7k HDDs zu verbauen.

Ceph wird erst schnell bei vielen OSDs verteilt auf viele Nodes, also kratzt zusammen was ihr habt. ;)
 
  • Like
Reactions: Jeroen Keerl
Um zu berechnen wieviel Platz man effektiv nutzen kann/soll habe ich http://florian.ca/ceph-calculator/ genutzt.

Wir haben jetzt zu Beginn bei 3 Ceph-Servern momentan nur je 4x3TB drin. Macht also 12TB/Server oder 8TB maximal, wenn man auf Nummer sicher gehen will. Da aber die restlichen 36*3TB auch schon bereit liegen bin ich gespannt wie sich das noch ändert, wenn wir mehr Platz brauchen.

Platten sind bei uns auch einfach per JBOD vom Raid-Controller durchgeschleift. SSD fürs Journal sind von Intel mit 120GB.
 
  • Like
Reactions: Jeroen Keerl
Moin!

Tim: ich gelobe Besserung und beuge mein schuldiges Haupt in Reumut! (Naja...)

Aus Euer Beiden Reaktionen sehe ich schon:
Der P400 kann ich quasi in die Tonne treten: JBOD all the way.

Da die SE326 ja 25 Slots hat, kann ich erstmal meine 300er SAS Platten einsetzen. Die "übrigen" 146G Platten würde ich dann gegen SSDs austauschen. (Mal eine Fangfrage zwischendurch: Die Specs des SA P400 sagen, dass SAS Platten mit 6GB/s laufen, SATA aber nur mit 3GB/s. SAS SSDs sind irre teuer. Würde sich das überhaupt lohnen?)

Die Zahl der VM Disks hält sich vorerst noch in Grenzen. Es sind momentan 2, später werden es nur 4 bis 5 wichtige VMs sein, die allerdings etwas mehr Data generieren. (Mit der Grund weshalb GlusterFS bald nicht mehr funktionieren wird)

Tim: Bzgl. Eure SE-Server: Habt Ihr die noch im Einsatz oder sind die komplett "verschwunden" aus der Konfig? Erfahrungen mit Hardware (10GB NICs, SSDs)?

*seufz* Wieder mal zurück an den Planungstisch ...

JK
 
Also bevor Du da in SAS SDD investiert würde ich vielleicht eher nach ein paar HBA-Controllern schauen. IBM M1015 oder Dell H310 sind beiden von LSI und die kannst Du in den IT-Mode flashen. Bekommst Du in der Bucht zw. 50 und 120,-. Da kannst du dann pro Controller 8 Platten anschliessen (mit entsprechenden Kabeln auch noch mehr denke ich).

Wir haben als reine VM-Server noch 3 HP DL360. Beim Netzwerk sind wir den Infiniband-Weg gegangen. Das hat problemlos funktioniert und läuft quasi "out-of-the-box" mit den richtigen Karten. Ohne jegliches Tuning sagt mir iPerf hier was von 17,7Gbit.

Für neue SSD hatte ich leider auch kein Budget mehr, sodass ich sämtliche Server SDD (Intel) aus der alten Hardware gesammelt habe (3G und 6G SSD). Die 6G habe ich als Journal verwendet und mit den 3G will ich jetzt noch einen SDD-Pool im Ceph bauen. Ein paar Samsung 830 habe ich auch noch, die ich vielleicht auch noch rein stecke für die ein oder andere VM.

An neuen SSD habe ich zuletzt Samsung SM863 gekauft. Für einen P3700 wie von Gorgon wäre ich aber auch zu haben - war aber halt vom Budget zur Zeit nicht drin.

Ich hätte da noch einen Storage mit 48 x 3,5" (bestückt mit 2TB Hitachis) über ;-)
 
  • Like
Reactions: Jeroen Keerl
Moin!

Tim: ich gelobe Besserung und beuge mein schuldiges Haupt in Reumut! (Naja...)

Aus Euer Beiden Reaktionen sehe ich schon:
Der P400 kann ich quasi in die Tonne treten: JBOD all the way.

Da die SE326 ja 25 Slots hat, kann ich erstmal meine 300er SAS Platten einsetzen. Die "übrigen" 146G Platten würde ich dann gegen SSDs austauschen. (Mal eine Fangfrage zwischendurch: Die Specs des SA P400 sagen, dass SAS Platten mit 6GB/s laufen, SATA aber nur mit 3GB/s. SAS SSDs sind irre teuer. Würde sich das überhaupt lohnen?)

Die Zahl der VM Disks hält sich vorerst noch in Grenzen. Es sind momentan 2, später werden es nur 4 bis 5 wichtige VMs sein, die allerdings etwas mehr Data generieren. (Mit der Grund weshalb GlusterFS bald nicht mehr funktionieren wird)

Tim: Bzgl. Eure SE-Server: Habt Ihr die noch im Einsatz oder sind die komplett "verschwunden" aus der Konfig? Erfahrungen mit Hardware (10GB NICs, SSDs)?

*seufz* Wieder mal zurück an den Planungstisch ...

JK
Wir nutzen fürs System zwei Intel 80GB SATA SSDs. Die reichen vollkommen aus. Fürs Ceph selber: Im Ceph würd ich nutzen was am billigsten ist. Die meisten betreiben Ceph ja mit 7k rpm HDDs, da diese im Preis aktuell nicht zu unterbieten sind. Es macht meiner Ansicht nach überhaupt keinen Sinn für Ceph SAS SSDs zu holen. Zu dem musst du auch drauf achten, was dein Netzwerk und der SAS Controller leisten können. Was bringen dir 20 SAS SSDs mit 6GB/s in einem Node, wenn du nur ein 3G Netzwerk hast?

Wir nutzen 10G Ethernet fürs Cluster. Die Performance ist gut. Gefühlt laufen die VMs schneller als vorher. Dort liefen diese auf jedem Server lokal auf einem RAID 10 mit allen zur Verfügung stehenden Platten.
Ich habe auch mit 1G getestet, die Performance war viel schlechter. Wenn unser 10GB Switch (10 Ports) voll ist (da hängt noch andere Sachen wie Backup Server dran), dann werden wir aber schon auf ein 20G Aufrüsten.

Ganz wichtig bei Ceph ist noch: Homogenität. Versuche möglichst drauf zu achten alles gleich zu halten. Also gleich schnelle OSDs, möglichst gleich große Server (Anzahl an HDD Schächte). Was passieren kann wenn du nicht drauf achtest, siehst du ja in meinem vorher verlinkten Thread ;).

Gruß
Dennis
 
  • Like
Reactions: Jeroen Keerl
Wir nutzen fürs System zwei Intel 80GB SATA SSDs. Die reichen vollkommen aus. Fürs Ceph selber: Im Ceph würd ich nutzen was am billigsten ist. Die meisten betreiben Ceph ja mit 7k rpm HDDs, da diese im Preis aktuell nicht zu unterbieten sind. Es macht meiner Ansicht nach überhaupt keinen Sinn für Ceph SAS SSDs zu holen. Zu dem musst du auch drauf achten, was dein Netzwerk und der SAS Controller leisten können. Was bringen dir 20 SAS SSDs mit 6GB/s in einem Node, wenn du nur ein 3G Netzwerk hast?

Wir nutzen 10G Ethernet fürs Cluster. Die Performance ist gut. Gefühlt laufen die VMs schneller als vorher. Dort liefen diese auf jedem Server lokal auf einem RAID 10 mit allen zur Verfügung stehenden Platten.
Ich habe auch mit 1G getestet, die Performance war viel schlechter. Wenn unser 10GB Switch (10 Ports) voll ist (da hängt noch andere Sachen wie Backup Server dran), dann werden wir aber schon auf ein 20G Aufrüsten.

Ganz wichtig bei Ceph ist noch: Homogenität. Versuche möglichst drauf zu achten alles gleich zu halten. Also gleich schnelle OSDs, möglichst gleich große Server (Anzahl an HDD Schächte). Was passieren kann wenn du nicht drauf achtest, siehst du ja in meinem vorher verlinkten Thread ;).

Gruß
Dennis

Jo,

so hatte ich das dann auch gedacht.

Momentan sieht es aus, alsob ich dann doch eher noch eine SE326 dazu hole mit SFF SAS Platten.
3 SSDs hinein, den Rest mit 7.2 300G SAS Platten.
Dann habe ich halt 3 identische Knoten mit 1 2 GBit Bond für Management und Public und entweder Infiniband oder 10G Eth für Ceph.

infiniband scheint momentan um längen günstiger als 10G, denn wenn 10G, dann will ich auch redundante Switches inkl. Stacking etc.

JK
 
So, alea iacta est.
3x Intel 520-T, 'n Haufen SAS-HDDs und SSDs sowie einen zus. SE326M1 bestellt.

Jetzt am Wochenende mal Gedanken machen, wie ich a) die VMs kurz "wegmigriere" damit ich das vorhandene GlusterFS auflösen kann.

Hat noch jemanden Bedarf an HP SE316M1 Server? Habe wohl bald 3 übrig :D
 
So, alea iacta est.
3x Intel 520-T, 'n Haufen SAS-HDDs und SSDs sowie einen zus. SE326M1 bestellt.

Jetzt am Wochenende mal Gedanken machen, wie ich a) die VMs kurz "wegmigriere" damit ich das vorhandene GlusterFS auflösen kann.

Hat noch jemanden Bedarf an HP SE316M1 Server? Habe wohl bald 3 übrig :D

Schließ an den Servern ne externe Festplatte an, oder binde ein Netzlaufwerk ein und Backup jede VM dahin. Wenn alles wieder läuft kannst du die ganz bequem davon wiederherstellen.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!