Hallo Zusammen,
Bei meiner Frage geht es um die standard Prozedur im Wartungsfall.
Aktuell hatten wir wieder den Fall dass eine OSD mit einem Defekt verabschiedet hat. Bisher haben wir das mit der Wartung so gehandhabt:
Benötigte VMs von dem Knoten mit der defekten OSD auf einen anderen Knoten migiriert
Set osdnoout um dem Ausgleich zu stoppen
Dann den Knoten mit der defekten OSD heruntergefahren, SSD Getauscht etc.
Bisher hat das immer ganz gut so funktioniert, das heißt alle anderen Knoten liefen normal weiter und es konnte ohne Probleme auf deren VMs gearbeitet werden.
Seit Anfang des Jahres sind wir auf Proxmox 7 umgestiegen und hatten eben wieder mal einen Fall mit defekter SSD/OSD.
Hier haben wir die gleiche Prozedur wie immer durchgeführt, nur leider wurden die OSDs des entsprechenden Knoten obwohl wir vorher den Ausgleich gestoppt hatten und der Knoten heruntergefahren war immer noch als up&in angezeigt. Als Folge gab es einen kompletten Freeze aller VMs und es konnte nichtmehr gearbeitet werden. Erst als wir den Knoten mit der ausgetauschten SSD/OSD wieder hochgefahren hatten war der Freeze weg, Ausgleich lief und alle VMs konnten normal benutzt werden.
Müssen wir hier bei Proxmox bzw. Ceph weitere schritte durchführen bevor ein Knoten kurzzeitig aus dem Cluster genommen wird?
Danke und Gruß
Ronny
Bei meiner Frage geht es um die standard Prozedur im Wartungsfall.
Aktuell hatten wir wieder den Fall dass eine OSD mit einem Defekt verabschiedet hat. Bisher haben wir das mit der Wartung so gehandhabt:
Benötigte VMs von dem Knoten mit der defekten OSD auf einen anderen Knoten migiriert
Set osdnoout um dem Ausgleich zu stoppen
Dann den Knoten mit der defekten OSD heruntergefahren, SSD Getauscht etc.
Bisher hat das immer ganz gut so funktioniert, das heißt alle anderen Knoten liefen normal weiter und es konnte ohne Probleme auf deren VMs gearbeitet werden.
Seit Anfang des Jahres sind wir auf Proxmox 7 umgestiegen und hatten eben wieder mal einen Fall mit defekter SSD/OSD.
Hier haben wir die gleiche Prozedur wie immer durchgeführt, nur leider wurden die OSDs des entsprechenden Knoten obwohl wir vorher den Ausgleich gestoppt hatten und der Knoten heruntergefahren war immer noch als up&in angezeigt. Als Folge gab es einen kompletten Freeze aller VMs und es konnte nichtmehr gearbeitet werden. Erst als wir den Knoten mit der ausgetauschten SSD/OSD wieder hochgefahren hatten war der Freeze weg, Ausgleich lief und alle VMs konnten normal benutzt werden.
Müssen wir hier bei Proxmox bzw. Ceph weitere schritte durchführen bevor ein Knoten kurzzeitig aus dem Cluster genommen wird?
Danke und Gruß
Ronny