Corosync oder pve-cluster alle host finden sich nicht mehr

bonkersdeluxe · Jul 12, 2021

Hallo,
Ich habe ein riesen problem und weiß nicht wie ich corosync neu initialiseren lassen kann.
Wie sieht die Umgebung aus:

3 Hosts im Cluster Verbund mit einem Ceph Stoarge jede Node hat auch den Ceph Damoen mit den OSDs
Auf den 3 Hosts laufen VMs verteilt.

Was ist passierst.
Der scheiß backupfad von der USB Festplatte war nicht mehr verfügbar und hat somit das rootlaufwerk vollgemüllt.
Somit wurde der Host von den anderen nicht mehr gefunden.
Also in der Oberfläche stand bei dem Host dann ein rotes symbol offline.
Ich habe den Fehler ja gefunden, root Dateisystem voll, normaler weise nicht schlimmes, sollte man annhemen.

Was hab ich gemacht.
Speicher geräumt. Rott Laufwerk hat wieder Platz.
Da der host nicht mehr angezeigt wurde, ist meist pve-proxy schuld. Also den neu gestartet.
Bekam wenn ich inder webgui den host anklicke auch invalid ticket. Wenn ich den Fehler sehe, ersmal pve-proxy neustarten
Das hat nix gebracht und nun kam glaub ich der schlimmste Fehler, ich auf der offline Host (Die VMs laufen ja wenn man sich direkt auf dem Host einloggt)
Ich habe service corosync restart eingehauen, dachte eigentlich nur der soll sich bei den anderen melden und neuanmelden.
Sorry für die aussprache, aber am Arsch. Damit hats mir mein Corosync zerhauen.
jetzt erkennen sich alle nicht mehr.
Host eins kennt 2 und 3 nicht
2 kannte ja sowieso alle nicht, war ja das sorgenkind mit der großen Platte
3 kennt 1 auch nicht mehr 2 ja sowieso.
Ok dachte ich starte den host 2 mal neu
Nix gebracht
nun konnte ich die vms darauf nach dem neustart nicht starten, kein qorum. Die maschinen mussten wieder laufen. also erstmal egal.
pcecm expected 1
Nun konnte ich die maschinen erstmal starten. Da ein ceph cluster drunter hängt, sind die vm Daten ja konsistent. Allerdings wird warscheinlich durch corosync host zwei der mit der vollen platte als down erkannt im ceph, die osd lassen sich nicht starten, aber ertsmal egal, der laden läuft erstmal abgesehen vom nicht integer cluster.
Wegschieben konnte ich die vms ja auch nicht, cluster war broken. Jetzt hab ich erstmal ein Dump von den VMs gemacht, ja theoretisch könnte man alles neuinstallieren.

Lösung? Gibts eine möglichkeit, das der erste Node einfach master vom corosync also mit Qorum und die anderen hosts einfach nochmals zu rejoinen, sprich reristrieren, vergiss was ich im pve habe, hols nochmals vom anderen. Denn ich habe sonst nix geändert was im konflikt stehen könnte.
Ich bin für jede Hilfe Dankbar.
ich hoffe ich konnte erklöären was ich angestellt habe und wie mein System aussieht.
Vielen vielen Dank!
Liebe Grüße Bonkersdeluxe

bonkersdeluxe · Jul 15, 2021

HiHo,
keiner ne Idee ?
Will nicht noch mehr kaputt machen ;-)
Liebe Grüße Bonkersdeluxe

bonkersdeluxe · Jul 21, 2021

HiHo,
so wie es ausschaut hatte noch keiner das problem, corosync neu aufzusetzten / initialiseren?
Es gibt bei pvecm leider ja kein rejoin.
Ich bin für jede Hilfe Dankbar.
Liebe Grüße Bonkersdeluxe

Search

Search

Corosync oder pve-cluster alle host finden sich nicht mehr

bonkersdeluxe

Renowned Member

Attachments

bonkersdeluxe

Renowned Member

bonkersdeluxe

Renowned Member

We value your privacy