Szenarien zur Erhöhung der Verfügabrkeit

digidax

Renowned Member
Mar 23, 2009
99
1
73
Hallo zusammen,

Ich bitte um Eure Meinung und Hinweise bezüglich einer zukünftigen Konfiguration. Ich habe sehr viel gelesen, was aber noch teilweise von PVE 4 ist. Einiges hat sich ja geändert, auch die verfügbare Hardware.

Hardware wie folgt:
- zwei Netzwerke: LAN und SAN Netzwerk mit je eigenem Switch
- im SAN 3 Knoten, die ein GlusterFS zur Verfügung stellen, ein weiterer Server der NFS zur Verfügung stellt
- zwei physikalische Knoten mit je zwei Festplatten für Proxmox für das PVE

Als CT's sollen unter Centos 7 nun 3 Systeme virtualisiert werden (bereits fertig auf Proxmox 5 eingerichtet und getestet):
S1: Mailserver: das Maildir im CT ist per NFS gemountet
S2: Webserver: das documen root vom Apache wird in der CT per NFS gemountet
S3: Datenbankserver: hier läuft MariaDB in dem CT

Die 3 CT's werden vom PVE in das gemountete GlusterFS per Dump gesichert. Den Mailserver hatte ich mal testweise auf das GlusterFS geschoben (root disk). Die Performance war nicht schlechter, als wenn der CT im lokalen LVM lag, nur beim Starten der CT dauert es natürlich etwas länger. Mit dem Webserver im GlusterFS müßte ich das noch testen, bei dem DB Server wird das wohl auf Grund der Latenz nichts werden. Der Versuch damals unter OpenVZ per iSCSI mount (1 Gbit Netzwerk) war zu unperformant, jedoch auf dem lokalen LVM des Knotens laufen hier seit 2008 mehrere Datenbanken stabil (OpenVZ).

Jetzt habe ich Einiges über die PVE Replikation gelesen. Basis dafür ist ein ZFS. Dieses könnte man auf Grundlage der zwei Festplatten in den Knoten als software RAID1 ausführen. Per Cronjob dann die CTs auf den anderen Knoten replizieren. Da bei Mail- und Webserver die Daten vom NFS kommen und auch dort gesichert werden, würde die Repliaktion reichen. Der Datenbankserver wird per MySQL Master-Slave Replikation und alle 30 min per mysql-dump gesichert. Fällt nun Knoten 1 aus, müßte man händisch die replizierten CT's starten. Die Knoten müßten nacheineander neu installiert werden, da aktuell auf eine der zwei verbauten Platten das PVE auf LVM installiert ist.

Variante 2 wäre das, per HA Cluster zu lösen. Wie müßte man die Hardware erweitern (10 Gig im SAN für Ceph), iSCSI nutzen ? Macht es Sinn dann das GlusterFS parallel zu Ceph oder iSCSI zu betreiben oder sollte man einem dem Vorrang geben - wie sind da Eure Erfahrungen? Für HA braucht man ja als Schiedsrichter noch einen 3. Knoten (der keine Leistung haben muss). Hat Jemand Erfahrung, Datenbanken auch über Ceph oder iSCSI auslagern?

Danke für Anregungen und Hinweise.
Frank
 
Also von GlusterFS würde ich komplett abraten, ich sehe da keine mögliche Verbindung zwischen GlusterFS und HA. Aus meiner Erfahrung heraus ist GlusterFS mehr schlecht als irgendwas anderes.

CEPH und Datenbanken, geht, je nach Workload. Es kommt auch viel auf die Hardware an (steckt man billige Hardware rein, bekommt man keine Performance zurück). Wie es bei Netzwerkspeichern üblich ist, ist es für höhere DB Anforderungen eher weniger geeignet. Gegen Baremetal hat kaum eine andere Lösung eine Chance, daher muss man Performance gegen Verfügbarkeit und Sicherheit abwägen.

Für ein CEPH Cluster reichen 2x 10GbE per Node vollkommen aus, da ein paar VLANs drauf und gut ist.

Fur mich persönlich ist weder GlusterFS noch iSCSI eine wirkliche Storage Alternative, gerade iSCSI hat meiner Meinung nach mehr Nachteile als Vorteile (ein Fehler und das LUN ist zerstört). Ich bin definitiv ein CEPH Fan und kann es nur jedem empfehlen, auch in kleinen Setup bringt CEPH eine akzeptabel Performance.
 
Für ein CEPH Cluster reichen 2x 10GbE per Node vollkommen aus, da ein paar VLANs drauf und gut ist.
.

Der Ceph Cluster Storage sollte aus 3 Nodes bestehen, dazu dann zwei Nodes als Herberge für die CT's.
Wäre man dann bei 5 NIC's und einen 10 GB Switch mit mindestens 10 Ports. Jetzt bleibt noch die Frage Kupfer oder LWL, Single oder Dual NIC? Preislich kommt da Einiges zusammen und die Mainboards müssen mindestens einen x8 PCIe Slot noch frei haben. Wie ist da Eure Meinung?
 
Der Ceph Cluster Storage sollte aus 3 Nodes bestehen, dazu dann zwei Nodes als Herberge für die CT's.
3 Nodes reichen auch aus als HCI oder eben HCI Cluster mit 5 Nodes. In kleineren Umgebungen würde ich es nicht trennen, da geht zu viel Performance verloren.

Jetzt bleibt noch die Frage Kupfer oder LWL, Single oder Dual NIC?
Das musst du selbst wissen, ist eine Glaubensfrage :D
Cat 5e Kabel können auf 2 - 3m auch ohne weiteres 10GbE, grundsätzlich ist Kupfer günstiger als LWL. Bei LWL kann man sich zudem noch streiten ob Singlemode oder Multimode.
Wenn du "harte" Redundanz willst, dann nimmst du zwei Single Port NICs und packst die jeweils auf die PCIe Lanes der anderen CPU. Ich persönlich würde aber einfach eine Dual Port NIC nehmen und gut ist. Ein PCIe Port kann maximal eh nur 62,5GB - also für 2x 10GbE vollkommen ausreichend, vorher wird sicherlich auch noch was anderes limitieren ;)

Preislich kommt da Einiges zusammen und die Mainboards müssen mindestens einen x8 PCIe Slot noch frei haben. Wie ist da Eure Meinung?
Hast du schon Hardware?
Grundsätzlich würde ich zu Supermicro raten, da gibt es auch 1HE Gehäuse mit 10x 2,5" Bays, die neuen X11DDW-NT haben zwei Sockets, 12 DIMMs und direkt 2x 10GbE RJ45 onboard.
 
OK, dann werde ich das mal auf der Basis von 10 GB Kupfer kalkulieren. Gibt es bezüglich der NICs eine Empfehlung? Habe gelesen, dass es bei einigen Herstellern Probleme mit der Teriberkonfiguration gab.

Habe ausschließlich Supermicro Boards im Einsatz, mit nur 1 GigE on board, muss also eh entsprechende 10 GigE NICs aufrüsten.
Aktuell läuft ein Cluster aus 3 Knoten mit GlusterFS, dort lagern alle Backups. Eine node steht in einem anderen Gebäude / Brandabschnitt, läuft seit 3 Jahren problemlos.
Die 3 nodes müsste ich nun auf Ceph umstellen, also PVE drauf installieren, da diese je 16 HDD Bays haben mit entsprechenden BBU Hardware Raid Controller bestückt sind.

Kann ich einen Ceph Cluster erst mal nur aus 2 Knoten bauen, dann die Daten vom letzten, verbliebenen GlusterFS Knoten ins Ceph Storage kopieren und dann den freigewordenen GlusterFS Knoten als 3. in den Ceph Cluster einbringen?

Vielen Dank,
Frank
 
Gibt es bezüglich der NICs eine Empfehlung?
Ich würde da einfach die X550-T2 nehmen.

da diese je 16 HDD Bays haben mit entsprechenden BBU Hardware Raid Controller bestückt sind.
Die müssten dann raus. CEPH mag keine RAID Controller, nur HBA's sind das wahre :D

Kann ich einen Ceph Cluster erst mal nur aus 2 Knoten bauen
Grundsätzlich kannst du CEPH auch mit einem Node bauen (habe ich ebenfalls für Backups mit Replika 2 per OSD, nicht Host). Ich würde hier dann die Crushmap auf Verteilung per Host anpassen und den CEPH Pool erst mal mit 2/1 anlegen, wenn der andere dann drin ist, würde ich auf 3/2 umstellen.
 
Okay, danke. Dann würde ich statt dem Raid-5 was der HW Raid controller aktuell macht, die Platten als JBOD zu konfigurieren. Damit sollte doch Ceph dann glücklich sein?
 
Habe gerade nachgesehen, die verwendeten Controller von Adaptec können sowohl RAID RAW (aktuell) als auch HBA mode.
Danke für die Hilfe.
 
HBA Mode ist nicht zwangsweise === HBA
Oftmals wird dann trotzdem ein VD pro Disk gemacht oder die Queue Depth is deutlich kastriert. Am besten setzt man einen richtigen HBA ein oder flasht den Controller als HBA mit der IT Firmware.
 
Nur zur Info, ich habe mal 10 G Kupfer und 10 G Glasfaser Setup gegenüber gestellt.
Glas ist genau so teuer wie Kupfer. Werde das Setup mit Glasfaser aufbauen oder gibt es ein no go?
 
Es spricht nichts gegen Fibre oder gegen RJ45 beides kann 10G.
Wenn man entsprechende Lieferanten hat, kommt man an 10G RJ45 Switche deutlich günstiger, dazu kann man dann auch 1G Ports direkt ohne zusätzliche Switche anbinden wenn nötig und kann normale CAT 5e Kabel nehmen - das wären so die Vorteile von RJ45.
Fibre hat weniger Latenz, verbraucht weniger Strom ist aber wegen der Transceiver bzw DAC Kabel etwas teurer in der Anschaffung, mal eben IPMI oder einen normalen Server zu Migration rein klemmen ist dann schwieriger, entweder auch ne SFP+ Karte rein oder so einen Adapter für SFP+ kaufen.
 
Ich hab mich mit einer Excel Tabelle und Heise Presivergleich hingesetzt und alles von Amazon ignoriert, Preis ist zu billig, chinesicher Händler, wahrschenlich gefälschte Ware.

Es sind 4 Storage Nodes und 3 Server Nodes, die in das neue 10 G SAN sollen. Im Post:
https://forum.proxmox.com/threads/nfs-10g-direkt-verbinden.54223
habe ich mich nun auch mit der Konfiguratuion beschäftigt. Zuerst soll das SAN mit nur einem Switch laufen, der 2. um dem SPOF zu entgehen später dazu kommen. Eine Dual NIC ist günstiger als zwei Single NICs. Aber eigentlich reicht ja eine die Dual NIC, wenn diese kaputt geht, gibt es ja noch eine andere Node oder habe ich einen Denkfehler?
 
Ich empfehle alles über 2x 10GbE zu bedienen. Ich möchte mal mutmaßen, dass HA von PVE nicht mehr funktioniert, wenn nur das Storage Backend ausfällt. Da die Nodes sich weiterhin erreichen wird es vermutlich nachher so sein, dass deine VM stehen aber nichts gefenced wird. Sollte also nur die NIC in dem einen Server kaputt gehen, hättest du Pech.

Aber ja, grundsätzlich reicht eine Dual Port Karte vollkommen aus.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!