Hallo,
Wir haben ein relative großes Hyperkonvergentes Cluster. 17 server jeweils mit 8 NVMe OSDs. Proxmox Version ist 7.4.17, Kernel ist
5.15.126-1-pve. CEPH Version ist 17.2.6 (quincy).
CEPH cluster/public Netzwerke nutzen zwei eigene 40Gb/s Interfaces gebündelt in LACP bond. MTU ist 9000. CEPH ist ziemlich ausgelastet:
1.4 GiB/s rd, 345 MiB/s wr, 44.85k op/s rd, 20.07k op/s wr
Wenn ein Server für mehr als 10 Minuten nicht erreichbar ist (letzter Zeit weil Mainboard in einem Server den Geist aufgegeben hat), ist CEPH nicht wie erwartet voll funktionsfähig. Klar, recovery wird angestoßen (das ist ja auch zu erwarten), aber das eigentliche Problem sind mehrere tausend slow ops. Sehr viele VMs sind deswegen nicht mehr ansprechbar. Das Problem löst sich irgendwann selbst, aber es dauert manchmal 20-30 Minuten.
Ich habe es an gesundem CEPH cluster ausprobiert. Einfach mal von einem der Server Netzwerkkabels gezogen und 10 Minuten gewartet. Das gleiche wie beim Serverausfall. CEPH blockt tausende von OPS wegen slow ops und viele VMs sind nicht mehr ansprechbar. Sollte CEPH den Ausfall eines der Server nicht einfach wegstecken? So dass VMs gar nichts davon mitbekommen?
Ich wäre für jede Hilfe dankbar.
Wir haben ein relative großes Hyperkonvergentes Cluster. 17 server jeweils mit 8 NVMe OSDs. Proxmox Version ist 7.4.17, Kernel ist
5.15.126-1-pve. CEPH Version ist 17.2.6 (quincy).
CEPH cluster/public Netzwerke nutzen zwei eigene 40Gb/s Interfaces gebündelt in LACP bond. MTU ist 9000. CEPH ist ziemlich ausgelastet:
1.4 GiB/s rd, 345 MiB/s wr, 44.85k op/s rd, 20.07k op/s wr
Wenn ein Server für mehr als 10 Minuten nicht erreichbar ist (letzter Zeit weil Mainboard in einem Server den Geist aufgegeben hat), ist CEPH nicht wie erwartet voll funktionsfähig. Klar, recovery wird angestoßen (das ist ja auch zu erwarten), aber das eigentliche Problem sind mehrere tausend slow ops. Sehr viele VMs sind deswegen nicht mehr ansprechbar. Das Problem löst sich irgendwann selbst, aber es dauert manchmal 20-30 Minuten.
Ich habe es an gesundem CEPH cluster ausprobiert. Einfach mal von einem der Server Netzwerkkabels gezogen und 10 Minuten gewartet. Das gleiche wie beim Serverausfall. CEPH blockt tausende von OPS wegen slow ops und viele VMs sind nicht mehr ansprechbar. Sollte CEPH den Ausfall eines der Server nicht einfach wegstecken? So dass VMs gar nichts davon mitbekommen?
Ich wäre für jede Hilfe dankbar.