Hallo,
wir haben seit einigen Monaten PVE 5 im Einsatz, der Cluster mit derzeit 17 Nodes lief stabil und zuverlässig. Es gab 2 HA Gruppen auf dem Server mit über hundert Maschinen.
Vor kurzem haben wir das Update auf Debian Buster / PVE 6 gemäß der offiziellen Anleitung durchgeführt. Zunächst wurde Corosync upgedated, was problemlos funktioniert hat. Ich habe mir 2 leere Nodes vorbereitet und diese upgedated. Da es keine Downtime geben sollte habe ich per Bulk Migration die Nodes eines Servers auf einen der freien Server migriert (immer 2 Server parallel). Dann habe ich die 2 freigewordenen Server upgedated, neu gestartet und wieder zurück migriert. Dann ging der Vorgang von vorne los. Alles verlief zunächst problemlos und ohne Ausfälle. Es waren noch 7 Nodes zu machen. Bei der jüngsten Live-Migration kam es dann zum Worst Case: Es waren plötzlich um die 10 Server offline. Alle zur selben Zeit, ich habe vermutet, dass es am Fencing lag. Nachdem alle Nodes neu gestartet wurden, wurde der Cluster wieder "grün" und alles hat gepasst. 4 Server waren noch offline, als plötzlich wieder fast alle Nodes offline waren. Also wieder neu gestartet. Dann blieb zum Glück alles stabil. Ich habe dann versucht einen einzigen Server zu migrieren, dann kam erneut eine Fehlermeldung wegen eines Locks. Beim zweiten Versuch war die Migration "on-going" und der Speicher wurde abgeglichen, als der Servernode (auf dem sonst noch keine Maschine lief) wieder einen Neustart gemacht hat. Beim Booten wurde dann vom bnx2x Netzwerk-Treiber (HP Proliant Server, Firmware ist aktuell) ein Fehler ausgegeben.
Ich habe jetzt vorsorglich die HA Ressourcen aus der Gruppe entfernt und die HA Gruppen gelöscht in der Hoffnung, dass die Server jetzt stabiler laufen. An der Konfiguration hat sich nichts verändert (außer das Update von Debian und PVE). Unter Stretch / PVE5 lief alles stabil. Es hat wohl irgendwas mit der Live-Migration zu tun.
Wie können wir den Fehler näher eingrenzen und beheben? Hat oder hatte jemand ähnliche Probleme?
wir haben seit einigen Monaten PVE 5 im Einsatz, der Cluster mit derzeit 17 Nodes lief stabil und zuverlässig. Es gab 2 HA Gruppen auf dem Server mit über hundert Maschinen.
Vor kurzem haben wir das Update auf Debian Buster / PVE 6 gemäß der offiziellen Anleitung durchgeführt. Zunächst wurde Corosync upgedated, was problemlos funktioniert hat. Ich habe mir 2 leere Nodes vorbereitet und diese upgedated. Da es keine Downtime geben sollte habe ich per Bulk Migration die Nodes eines Servers auf einen der freien Server migriert (immer 2 Server parallel). Dann habe ich die 2 freigewordenen Server upgedated, neu gestartet und wieder zurück migriert. Dann ging der Vorgang von vorne los. Alles verlief zunächst problemlos und ohne Ausfälle. Es waren noch 7 Nodes zu machen. Bei der jüngsten Live-Migration kam es dann zum Worst Case: Es waren plötzlich um die 10 Server offline. Alle zur selben Zeit, ich habe vermutet, dass es am Fencing lag. Nachdem alle Nodes neu gestartet wurden, wurde der Cluster wieder "grün" und alles hat gepasst. 4 Server waren noch offline, als plötzlich wieder fast alle Nodes offline waren. Also wieder neu gestartet. Dann blieb zum Glück alles stabil. Ich habe dann versucht einen einzigen Server zu migrieren, dann kam erneut eine Fehlermeldung wegen eines Locks. Beim zweiten Versuch war die Migration "on-going" und der Speicher wurde abgeglichen, als der Servernode (auf dem sonst noch keine Maschine lief) wieder einen Neustart gemacht hat. Beim Booten wurde dann vom bnx2x Netzwerk-Treiber (HP Proliant Server, Firmware ist aktuell) ein Fehler ausgegeben.
Ich habe jetzt vorsorglich die HA Ressourcen aus der Gruppe entfernt und die HA Gruppen gelöscht in der Hoffnung, dass die Server jetzt stabiler laufen. An der Konfiguration hat sich nichts verändert (außer das Update von Debian und PVE). Unter Stretch / PVE5 lief alles stabil. Es hat wohl irgendwas mit der Live-Migration zu tun.
Wie können wir den Fehler näher eingrenzen und beheben? Hat oder hatte jemand ähnliche Probleme?