Hallo Alle.
Ich habe mir einen Cluster mit 4 Nodes aufgesetzt.
Jeder Node hat neben der Boot-Platte noch vier 1TB-Platten, die jede ein OSD hat.
insgesamt also 16 OSDs.
Auf jedem Node läuft auch ein Monitor.
Alles nach Anleitung und Default aufgesetzt.
Ich hatte von der Dokumentation her den Eindruck, dass immer mindest eine Replication von 2 eingestellt ist. Nachdem wir den Cluster wegen Arbeiten an der Stromversorgung komplett runter fahren mussten, und ein Node wegen einem Filesystemcheck nicht hoch kam, war auch das ganze Ceph-Storage weg. Ich habe mir die Crushmap nun etwas genauer angesehen, und finde unter #rules:
Ein min_size 1 bedeutet doch, dass nur mindest eine Kopei der Daten vorhanden sein muss, was mir den Ausfall des Storage erklären würde.
Da ich aus der ganzen Doku nicht wirklich schlau werde, weil mir wohl an irgendeiner Stelle ein grundsätzliches Verständniss fehlt, möchte ich mal schreiben, was ich erreichen will, und hoffe jemand kann mir erklären, wie ich das erreiche.
Alle Daten sollten auf allen Nodes gleich sein, so dass ein oder zwei Nodes ausfallen können, der Storage aber immer noch online ist.
ist das ggf. gar nicht möglich?
In meinem Kopf vergleiche ich immer Ceph mit einem Software Raid, so gesprochen hätte ich gerne zwischen den Nodes Raid1 (Mirror) und auf jedem Node Raid0 (Stripe).
Ist das ggf. der falsche Gedankenansatz?
Noch ein paar Infos:
Für Corosync und Ceph gibt es ein 10GBE Netzwerk, Kontakt zur Aussenwelt geht über 1GBE.
Im Moment laufen zwei VMs auf dem Cluster.
Hier der Anfang der Crushmap:
Fragen?
Tipps?
Beste Grüße aus Berlin,
Franziskus
Ich habe mir einen Cluster mit 4 Nodes aufgesetzt.
Jeder Node hat neben der Boot-Platte noch vier 1TB-Platten, die jede ein OSD hat.
insgesamt also 16 OSDs.
Auf jedem Node läuft auch ein Monitor.
Alles nach Anleitung und Default aufgesetzt.
Ich hatte von der Dokumentation her den Eindruck, dass immer mindest eine Replication von 2 eingestellt ist. Nachdem wir den Cluster wegen Arbeiten an der Stromversorgung komplett runter fahren mussten, und ein Node wegen einem Filesystemcheck nicht hoch kam, war auch das ganze Ceph-Storage weg. Ich habe mir die Crushmap nun etwas genauer angesehen, und finde unter #rules:
Code:
# rules
rule replicated_ruleset {
ruleset 0
type replicated
min_size 1
max_size 10
step take default
step chooseleaf firstn 0 type host
step emit
}
Ein min_size 1 bedeutet doch, dass nur mindest eine Kopei der Daten vorhanden sein muss, was mir den Ausfall des Storage erklären würde.
Da ich aus der ganzen Doku nicht wirklich schlau werde, weil mir wohl an irgendeiner Stelle ein grundsätzliches Verständniss fehlt, möchte ich mal schreiben, was ich erreichen will, und hoffe jemand kann mir erklären, wie ich das erreiche.
Alle Daten sollten auf allen Nodes gleich sein, so dass ein oder zwei Nodes ausfallen können, der Storage aber immer noch online ist.
ist das ggf. gar nicht möglich?
In meinem Kopf vergleiche ich immer Ceph mit einem Software Raid, so gesprochen hätte ich gerne zwischen den Nodes Raid1 (Mirror) und auf jedem Node Raid0 (Stripe).
Ist das ggf. der falsche Gedankenansatz?
Noch ein paar Infos:
Für Corosync und Ceph gibt es ein 10GBE Netzwerk, Kontakt zur Aussenwelt geht über 1GBE.
Im Moment laufen zwei VMs auf dem Cluster.
Hier der Anfang der Crushmap:
Code:
# begin crush map
tunable choose_local_tries 0
tunable choose_local_fallback_tries 0
tunable choose_total_tries 50
tunable chooseleaf_descend_once 1
tunable straw_calc_version 1
Fragen?
Tipps?
Beste Grüße aus Berlin,
Franziskus