Node unsauber aus cluster entfernt

dejhost

Member
Dec 13, 2020
64
1
13
45
Hallo,

Ich habe ein Cluster bestehend auf 3 nodes gehabt. Nachdem ich 2 der Server ("proxmox02" und "proxmox03") von pve 6.4 auf pve 7 geupdatet habe, wollte ich den Server der noch auf 6.4 lief ("proxmox01") aus dem cluster entfernen, und frisch von USB installieren. Dabei habe ich bei der Vorgehensweise etwas vergeigt:

1) Alle VM's vom proxmox01 zu proxmox03 migriert.
2) proxmox01 heruntergefahren
3) Per USB-stick PVE 7 auf proxmox01 neuinstalliert. Dabei wurde das group-volume neu aufgesetzt, und das alte umbenannt.
4) proxmox01 aus dem cluster entfernt.

Den beiden letzten Punkt hätte ich in der Reihenfolge vertauscht durchführen müssen. Das wird wohl der Grund dafür sein, dass es jetzt reichlich hakt:

1629445711546.png

Könntet ihr mir bitte helfen, den Schaden zu beheben? Raid1 enthält kritische Daten.
  1. proxmox03 läuft, und mind. eine VM auch (mein Router). Sonst hätte ich kein Zugang zum Internet.
  2. ceph -s gibt keine Antwort auf den beiden servern.
 
Last edited:
Inzwischen sind die Fragezeichen bei proxmox03 verschwunden. Das GUI ergibt also wieder mehr Sinn.

Code:
root@proxmox03:~# ceph --version
ceph version 15.2.13 (de5fc19f874b2757d3c0977de8b143f6146af132) octopus (stable)
root@proxmox03:~# systemctl status corosync
● corosync.service - Corosync Cluster Engine
     Loaded: loaded (/lib/systemd/system/corosync.service; enabled; vendor >
     Active: active (running) since Fri 2021-08-20 09:22:07 CEST; 1h 49min >
       Docs: man:corosync
             man:corosync.conf
             man:corosync_overview
   Main PID: 1033 (corosync)
      Tasks: 9 (limit: 38185)
     Memory: 145.9M
        CPU: 43.673s
     CGroup: /system.slice/corosync.service
             └─1033 /usr/sbin/corosync -f

Aug 20 09:22:10 proxmox03 corosync[1033]:   [KNET  ] host: host: 2 (passive>
Aug 20 09:22:10 proxmox03 corosync[1033]:   [KNET  ] pmtud: Global data MTU>
Aug 20 09:22:11 proxmox03 corosync[1033]:   [QUORUM] Sync members[2]: 2 3
Aug 20 09:22:11 proxmox03 corosync[1033]:   [QUORUM] Sync joined[1]: 2

Code:
root@proxmox02:~# pveceph status
command 'ceph -s' failed: got timeout
root@proxmox02:~# cat /etc/pve/ceph.conf
[global]
         auth_client_required = cephx
         auth_cluster_required = cephx
         auth_service_required = cephx
         cluster_network = 192.168.1.5/24
         fsid = d269cad9-8364-4ecb-bc31-855098a3583a
         mon_allow_pool_delete = true
         mon_host = 192.168.1.5 192.168.1.7
         osd_pool_default_min_size = 2
         osd_pool_default_size = 3
         public_network = 192.168.1.5/24

[client]
         keyring = /etc/pve/priv/$cluster.$name.keyring

[mds]
         keyring = /var/lib/ceph/mds/ceph-$id/keyring

[mds.proxmox01]
         host = proxmox01
         mds_standby_for_name = pve

[mds.proxmox03]
         host = proxmox03
         mds_standby_for_name = pve

[mon.proxmox01]
         public_addr = 192.168.1.5

[mon.proxmox03]
         public_addr = 192.168.1.7

root@proxmox02:~#


Da proxmox01 nicht mehr im cluster ist, sollte da doch jetzt auch nichts mehr über proxmox01 zu lesen sein!?
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!