VM friert für etwa 15 Sekunden ein, Ceph Storage

Gandalf123

Well-Known Member
May 21, 2018
32
1
48
41
Hallo zusammen,

ich wollte mich nun einmal mit dem Thema Ceph in Proxmox vertraut machen und habe mir für diesen Zweck einmal einen kleinen 3 Node Cluster für Testzwecke gebaut. Auf diesem habe ich pro Node 2x SSDs für Ceph verbaut (gesamt 3x2). Das Ceph Netzwerk habe ich einmal in Public und Cluster auf 2 Lan Schnittstellen verteilt. Und Ceph klassisch als 3 Versionen und min. 2 konfiguriert. Auf allen 3 Nodes läuft jeweils ein Monitor. Das läuft auch alles soweit einwandfrei und ohne Probleme.

Nun wollte ich natürlich mal diverse Szenarien testen um zu sehen wie das ganze so läuft. Und dabei passiert es wenn ich einen der Nodes neustarte oder ausschalte das dann die Test Windows VM einfach für etwa 15 Sekunden einfriert und dann wieder normal weiterläuft. Das gleiche passiert auch wenn der Neustart des Hosts abgeschlossen ist. Ich habe bereits diesbezüglich einige Posts im Internet gefunden und diverses probiert (ISCSI HDD in der VM, write Back und direkt IO eingestellt) aber das alles ändert nichts am Verhalten, es sind immer so etwa 15 Sek.

Ist dies technisch bedingt weil der Cluster nur 3 Nodes hat oder kann/muss ich noch etwas spezielles konfigurieren damit dies nicht mehr auftritt bzw. verkürzt wird. Wie sind denn eure Erfahrungen?

Viele Grüße
Marco
 
Sind das Ceph Public und Cluster Netz in jeweils einem anderen Subnet?
Wie schnell sind die Schnittstellen? Hast du ein Monitoring? Wie ausgelastet ist das Netzwerk, vor allem in der Zeit?
Es gibt diverse CLI Tools wie zum Beispiel iftop, bmon, ...

Normal ist das Verhalten nicht. Irgendwo ist da was, und ich vermute mal, dass das Netzwerk ein starker Kandidat ist :)
 
Sorry für die späte Rückmeldung. Ich habe nun noch einige Tests durchgeführt.

Als ertes hatte ich den 3er Cluster als 3 VMs eingerichtet. Das Ceph Public und Clsuter Netz hatte ich erst separat in 2 Subnetze und dann auch mal nur als 1 Subnetz ausprobiert. In beiden Fällen ändert sich am Frezing nichts, es sind immer etwa 15 Sek.

Als weiteren Test habe ich nun mal 3 Rechner mit je 3 NICs aufgebaut, diese sind alle von Intel

Nic1 1Gbit= Management und Coro
NIC2 1Gbit= CEPH Public
NIC3 1Gbit= CEPH Cluster

In jedem Rechner habe ich eine SSD für CEPH als 3/2 eingerichtet. Der Cluster läuft einwandfrei und ich habe etwa 80-100 MBs an Leistung.
Allerdings kommt es auch hier einem Neustart eines Nodes zu einem Frezing von etwa 10-12 Sek in der Windows VM

Testweise habe ich mal versucht das CEPH Public und Cluster Netzwerk auf einer NIC zu betreiben und auch mal die 2 CEPH NICs als Bond.
Auch hier habe ich immer beim Neustart eines Nodes ein Frezing von 10-12 Sek in der VM. Der Ping im Netzwerk läuft völlig stabil und es kommt zu keinerlei Aussetzer bei den beiden verbleibenen Nodes.

Nun frage ich mich was ich noch anders einstellen und konfigurieren könnte damit die VMs nicht frezen. Ich würde nämlich nach erfolgreichen Tests gerne CEPH in Zukunft produktiv auf entspechender Serverhardware betreiben.

Grüße
Marco
 
Sorry für die späte Rückmeldung. Ich habe nun noch einige Tests durchgeführt.

Als ertes hatte ich den 3er Cluster als 3 VMs eingerichtet. Das Ceph Public und Clsuter Netz hatte ich erst separat in 2 Subnetze und dann auch mal nur als 1 Subnetz ausprobiert. In beiden Fällen ändert sich am Frezing nichts, es sind immer etwa 15 Sek.

Als weiteren Test habe ich nun mal 3 Rechner mit je 3 NICs aufgebaut, diese sind alle von Intel

Nic1 1Gbit= Management und Coro
NIC2 1Gbit= CEPH Public
NIC3 1Gbit= CEPH Cluster

In jedem Rechner habe ich eine SSD für CEPH als 3/2 eingerichtet. Der Cluster läuft einwandfrei und ich habe etwa 80-100 MBs an Leistung.
Allerdings kommt es auch hier einem Neustart eines Nodes zu einem Frezing von etwa 10-12 Sek in der Windows VM

Testweise habe ich mal versucht das CEPH Public und Cluster Netzwerk auf einer NIC zu betreiben und auch mal die 2 CEPH NICs als Bond.
Auch hier habe ich immer beim Neustart eines Nodes ein Frezing von 10-12 Sek in der VM. Der Ping im Netzwerk läuft völlig stabil und es kommt zu keinerlei Aussetzer bei den beiden verbleibenen Nodes.

Nun frage ich mich was ich noch anders einstellen und konfigurieren könnte damit die VMs nicht frezen. Ich würde nämlich nach erfolgreichen Tests gerne CEPH in Zukunft produktiv auf entspechender Serverhardware betreiben.

Grüße
Marco
Das mit dem Freeze ist in einer Labor-Umgebung in der die CEPH-Nodes als VMs laufen an sich erstmal gar nichts neues.
Wenn ein Node bootet passiert ja im PROXMOX bisschen was mit den Netzwerkkarten. Je nachdem wie die VMs das Netzwerk erreichen, müssen da einige "stellen" erst verstehen das Node und Ceph-Dienste speziell Monitor und ggf. Manager nicht mehr da sind.

Das hickst bei VMs dann schon mal. Bei echter Hardware ist das aber kein Problem, sofern alles richtig aufgesetzt ist.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!