Node unsauber aus cluster entfernt

dejhost · Aug 20, 2021

Hallo,

Ich habe ein Cluster bestehend auf 3 nodes gehabt. Nachdem ich 2 der Server ("proxmox02" und "proxmox03") von pve 6.4 auf pve 7 geupdatet habe, wollte ich den Server der noch auf 6.4 lief ("proxmox01") aus dem cluster entfernen, und frisch von USB installieren. Dabei habe ich bei der Vorgehensweise etwas vergeigt:

1) Alle VM's vom proxmox01 zu proxmox03 migriert.
2) proxmox01 heruntergefahren
3) Per USB-stick PVE 7 auf proxmox01 neuinstalliert. Dabei wurde das group-volume neu aufgesetzt, und das alte umbenannt.
4) proxmox01 aus dem cluster entfernt.

Den beiden letzten Punkt hätte ich in der Reihenfolge vertauscht durchführen müssen. Das wird wohl der Grund dafür sein, dass es jetzt reichlich hakt:

Könntet ihr mir bitte helfen, den Schaden zu beheben? Raid1 enthält kritische Daten.

proxmox03 läuft, und mind. eine VM auch (mein Router). Sonst hätte ich kein Zugang zum Internet.
ceph -s gibt keine Antwort auf den beiden servern.

dejhost · Aug 20, 2021

Inzwischen sind die Fragezeichen bei proxmox03 verschwunden. Das GUI ergibt also wieder mehr Sinn.

Code:

root@proxmox03:~# ceph --version
ceph version 15.2.13 (de5fc19f874b2757d3c0977de8b143f6146af132) octopus (stable)
root@proxmox03:~# systemctl status corosync
● corosync.service - Corosync Cluster Engine
     Loaded: loaded (/lib/systemd/system/corosync.service; enabled; vendor >
     Active: active (running) since Fri 2021-08-20 09:22:07 CEST; 1h 49min >
       Docs: man:corosync
             man:corosync.conf
             man:corosync_overview
   Main PID: 1033 (corosync)
      Tasks: 9 (limit: 38185)
     Memory: 145.9M
        CPU: 43.673s
     CGroup: /system.slice/corosync.service
             └─1033 /usr/sbin/corosync -f

Aug 20 09:22:10 proxmox03 corosync[1033]:   [KNET  ] host: host: 2 (passive>
Aug 20 09:22:10 proxmox03 corosync[1033]:   [KNET  ] pmtud: Global data MTU>
Aug 20 09:22:11 proxmox03 corosync[1033]:   [QUORUM] Sync members[2]: 2 3
Aug 20 09:22:11 proxmox03 corosync[1033]:   [QUORUM] Sync joined[1]: 2

Code:

root@proxmox02:~# pveceph status
command 'ceph -s' failed: got timeout
root@proxmox02:~# cat /etc/pve/ceph.conf
[global]
         auth_client_required = cephx
         auth_cluster_required = cephx
         auth_service_required = cephx
         cluster_network = 192.168.1.5/24
         fsid = d269cad9-8364-4ecb-bc31-855098a3583a
         mon_allow_pool_delete = true
         mon_host = 192.168.1.5 192.168.1.7
         osd_pool_default_min_size = 2
         osd_pool_default_size = 3
         public_network = 192.168.1.5/24

[client]
         keyring = /etc/pve/priv/$cluster.$name.keyring

[mds]
         keyring = /var/lib/ceph/mds/ceph-$id/keyring

[mds.proxmox01]
         host = proxmox01
         mds_standby_for_name = pve

[mds.proxmox03]
         host = proxmox03
         mds_standby_for_name = pve

[mon.proxmox01]
         public_addr = 192.168.1.5

[mon.proxmox03]
         public_addr = 192.168.1.7

root@proxmox02:~#

Da proxmox01 nicht mehr im cluster ist, sollte da doch jetzt auch nichts mehr über proxmox01 zu lesen sein!?

Search

Search

Node unsauber aus cluster entfernt

dejhost

Active Member

dejhost

Active Member