[SOLVED] lange nicht verwendeten Node aus Cluster entfernen, Hardware wechseln und neu hinzufügen

crmspezi

Well-Known Member
Sep 5, 2019
384
28
48
44
Germany/Thueringen
Hallo,
ein lange nicht verwendeter Node aus einem Cluster (11 Nodes) mit alter Hardware (MBR, nicht UEFI) soll mit der Systemplatte in einem neuen Node umziehen.

Nach dem Wechsel der Systemplatte (ZFS, rpool - Ausbau alter Node, Einbau neuer Node) hatte ich erst Probleme beim boot, da der alte Node MBR war, der neue UEFI. Mit dem Rescue Proxmox- Boot war dies schnell erledigt (EFI Partition gemacht, etc.).

Der Node bootete, allerdings hatte ich im Cluster von den anderen Nodes Fehler mit "invalid Ticket 401". Auch die Verbindungen untereinander rissen scheinbar zur Weboberfläche ständig ab, so das ich aus Sicherheitsgründen den neuen Node erstmal vom Netz genommen habe. Ich möchte nicht den Node neu installieren. Der Name, die IP, die Keys können alle bleiben.

Normalerweise hätte dies nach meinem Verständnis funktionieren müssen. Ich hatte schon einmal lange Zeit einen anderen Node Offline, allerdings habe ich hier die Hardware nicht gewechselt. Ich habe alles versucht, Zeiten/RTC/etc. um den 401 Fehler zu beheben. Nichts hat geholfen. Da gingen mir allerdings die Ideen aus.

Eine andere Möglichkeit wäre ja das Entfernen und hinzufügen zum Cluster.

Laut:
https://pve.proxmox.com/pve-docs/pve-admin-guide.html#_remove_a_cluster_node

kann man dies auch ohne Neuinstallation tun.

Meine Frage:
Aus Sicherheitsgründen möchte ich den alten PVE nicht mehr Online nehmen ohne vorher den Node "sauber gemacht zu haben". Laut Doku soll dies aber noch im bestehenden Cluster gemacht werden (Online?)

Gibt es eine Möglichkeit Offline auf dem pve03
systemctl stop pve-cluster
systemctl stop corosync
pmxcfs -l
rm /etc/pve/corosync.conf
rm -r /etc/corosync/*
killall pmxcfs
systemctl start pve-cluster

dann erst: pvecm delnode oldnode von einem anderen Node auszuführen?

Laut Doku kann man den alten Node genau so rausnehmen NUR wenn man diesen neu installiert.

Ich bitte hier um Hilfe.
Vielen Dank.
 
Last edited:
In der Doku [0] aus der du die Befehle hast, steht doch genau das:
Code:
You can also separate a node from a cluster without reinstalling it from
scratch.
Mit den Befehlen oben wird jegliche Corosync Config gelöscht. Somit ist die Node wieder `standalone`. Das pvecm delnode ist dann vor dem Hinzufügen zum Cluster notwendig, da dieser den gleichen Namen und die gleiche IP besitzt.


Wichtig ist, dass keine VMs/CTs mehr laufen, und nicht auf die geteilten Storages zugegriffen wird.


[0] https://pve.proxmox.com/pve-docs/pve-admin-guide.html#_remove_a_cluster_node
 
  • Like
Reactions: itNGO
Vielen Dank für Deine Antwort.
Allerdings lese ich die Reihenfolge so wie im Post beschrieben.

Ich möchte den alten Node vor dem pvecm delnode nicht im gleichen Netzwerk online nehmen müssen. Aber genau das ist laut Ablauf der Doku meiner Meinung nach notwendig. Ich hatte die Schritte hierein kopiert.

Was ist nun korrekt?

Viele Grüße
 
Sobald die Corosync Config von der Node entfernt ist, ist diese nicht mehr teil des Clusters. Selbst wenn die anderen Cluster Nodes diese noch sehen, können sie nicht mehr kommunizieren.


Wenn es wichtig ist, dass absolut kein Netzwerktraffic möglich ist, können die entsprechenden Interfaces auch deaktiviert werden mit `ifdown <interface>`.

Eventuell verstehe ich auch nicht genau was das Problem ist. Kannst du es eventuell nochmal genau beschreiben was du mit `online nehmen` und `offline` in dem Fall meinst? Und was du dir genau erwartest?
 
Hallo Mira,
zur Vorgeschichte. Ich hatte mal ein kleines Cluster unter 5.4 mit einem Node der Probleme beim hinzufügen macht. Das ging dann so weit, das dieser Host bei den ganzen Versuchen des hinzufügen die anderen Nodes ohne Vorwarnung zum reboot gebracht haben. Das war der Supergau bei mir.

Um das zu vermeiden, möchte ich den Node, der nach 6 Monaten wieder Online ging (mit neuer Hardware) und im WEB GUI nur Fragezeichen anzeigt, dann willkürlich die Webverbindungen trennt (wenn er Online ist) und scheinbar auch die Clusterkommunikation bei ZFS Replizierungen, etc. stört, lieber aus dem Cluster nehmen, "sauber machen" und wieder hinzufügen (gleiche IP, gleicher Name, andere Hardware).

Nun steht in der Doku, das man genau das tun kann, aber erst am Ende ein "pvecm delnode oldnode" .

Ich habe die Doku so gelesen, das der Host im Cluster Online bleiben muss mit dem Ausführen der Befehle:

systemctl stop pve-cluster
systemctl stop corosync
pmxcfs -l
rm /etc/pve/corosync.conf
rm -r /etc/corosync/*
killall pmxcfs
systemctl start pve-cluster

# und erst dann von einem anderen Node
pvecm delnode oldnode


Wenn es irgendwie geht würde ich gern den Host bei den Operationen ohne Netzwerkkabel betreiben um das Cluster nicht in Probleme rennen zu lassen wie oben beschrieben.

Viele Grüße
 
Die Node muss nicht verbunden sein mit dem Rest des Clusters.

Wichtig ist nur, dass kein HA aktiv ist. Solltest du HA verwenden, kannst du vor dem Trennen der Netzwerkverbindung die beiden Services pve-ha-lrm und pve-ha-crm stoppen:
systemctl stop pve-ha-lrm.service pve-ha-crm.service
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!