[SOLVED] Cluster hat 3 Nodes aber denkt selber, dass kein Cluster bestünde

flowmotion

Member
Apr 28, 2019
24
0
6
36
Hallo, ich kämpfe mit meinem Cluster seit ich es erstellt habe.. ich sag nur ich lass die finger von Clustern! Bis mir jemand den Nutzen erklären kann, denn so wie es sich bei mir zeigt hat man nur mehr Problem als ohne...

Aktuell wird im Cluster angezeigt "Standalone Node - No Cluster defined". Aber es befinden sich 3 Nodes im Cluster ein Node davon "PSX-02" wurde schon lange entfernt


Chronologischer Hergang (Siehe auch Screenshot):

  1. Ich habe im Node "flowmox" einen Cluster erstellt. Danach die Nodes "ProxSystemX-01" und "ProxSystemX-02" hinzugefügt.
  2. Ich habe den Node "ProxSystemX-02"entfernt.
    1. pvecm nodes
      pvecm delnode NodeName
      ls -l /etc/pve/nodes/
      mv /etc/pve/nodes/NodeName /root/NodeName
  3. Danach wurde der Node "ProxSystemX-02" mehrere Tage immer noch im WebGui angezeigt.
  4. Ich habe einen neuen Node "PSX-02" mit der selben IP (10.0.0.14) wie der alte "ProxSystemX-02" erstellt - ohne diesen dem Cluster hinzuzufügen.
  5. Der Node wurde im Cluster anstatt des "ProxSystemX-02" angezeigt - wie gesagt ich habe diesen nie dem Cluster hinzugefügt!
  6. Ich habe den Node "PSX-02" also die komplette Festplatte aus dem Server entfernt.
  7. ich habe erneut Schritt 2 ausgeführt
  8. Nun wird der nie dem Cluster hinzugefügte Node "PSX-02" immer noch offline angezeigt...
  9. Ich habe mehrere Tipps aus Google Probiert:
    1. Kontrolle von "/etc/corosync/corosync.conf"
    2. Kontrolle von "/etc/pve/.members"
    3. Kontrolle von "/etc/pve/ha/manager_status" -> Existiert bei mir nicht!
    4. pve-cluster restart
    5. corosync.service restart
    6. Alle Nodes restarten
  10. Nun wird - Siehe Screenshot - im Cluster "Standalone Node - No Cluster defined" angezeigt.
  11. Wenn ich pvecm status eingebe sind aber "expected 3".




Outputs:

/etc/corosync/corosync.conf

Bash:
logging {
  debug: off
  to_syslog: yes
}

nodelist {
  node {
    name: PSX-02
    nodeid: 3
    quorum_votes: 1
    ring0_addr: 10.0.0.14
  }
  node {
    name: ProxSystemX-01
    nodeid: 2
    quorum_votes: 1
    ring0_addr: 10.0.0.15
  }
  node {
    name: flowmox
    nodeid: 1
    quorum_votes: 1
    ring0_addr: 10.0.0.3
  }
}

quorum {
  provider: corosync_votequorum
}

totem {
  cluster_name: omniflow
  config_version: 5
  interface {
    bindnetaddr: 10.0.0.3
    ringnumber: 0
  }
  ip_version: ipv4
  secauth: on
  version: 2
}


/etc/pve/.members
Bash:
{
"nodename": "flowmox",
"version": 8,
"cluster": { "name": "omniflow", "version": 5, "nodes": 3, "quorate": 1 },
"nodelist": {
  "ProxSystemX-01": { "id": 2, "online": 1, "ip": "10.0.0.15"},
  "PSX-02": { "id": 3, "online": 0},
  "flowmox": { "id": 1, "online": 1, "ip": "10.0.0.3"}
  }
}


service pve-cluster status
Bash:
● pve-cluster.service - The Proxmox VE cluster filesystem
   Loaded: loaded (/lib/systemd/system/pve-cluster.service; enabled; vendor preset: enabled)
   Active: active (running) since Sat 2019-12-07 21:05:31 CET; 1 day 22h ago
  Process: 11069 ExecStart=/usr/bin/pmxcfs (code=exited, status=0/SUCCESS)
Main PID: 11071 (pmxcfs)
    Tasks: 13 (limit: 4915)
   Memory: 55.5M
   CGroup: /system.slice/pve-cluster.service
           └─11071 /usr/bin/pmxcfs

Dec 09 10:05:30 flowmox pmxcfs[11071]: [dcdb] notice: data verification successful
Dec 09 11:05:30 flowmox pmxcfs[11071]: [dcdb] notice: data verification successful
Dec 09 12:05:30 flowmox pmxcfs[11071]: [dcdb] notice: data verification successful


Vielen Dank für jede noch so kleine Hilfe!!!
 

Attachments

  • Proxmox_2019-12-08 205844.png
    Proxmox_2019-12-08 205844.png
    169.6 KB · Views: 9
Last edited:
was sagt denn: 'pvesh get /cluster/config/join' ?
 
am 10.0.0.3 (master)
root@flowmox:~# pvesh get /cluster/config/join
'/etc/pve/nodes/PSX-02/pve-ssl.pem' does not exist!

am 10.0.0.15
root@ProxSystemX-01:~# pvesh get /cluster/config/join
unable to read '/etc/pve/nodes/PSX-02/pve-ssl.pem' - No such file or directory
 
am 10.0.0.3 (master)
root@flowmox:~# pvesh get /cluster/config/join
'/etc/pve/nodes/PSX-02/pve-ssl.pem' does not exist!

am 10.0.0.15
root@ProxSystemX-01:~# pvesh get /cluster/config/join
unable to read '/etc/pve/nodes/PSX-02/pve-ssl.pem' - No such file or directory

dass PSX-02 nicht existiert wäre ja eigentlich mein plan.. nur leider wirds ja trotzdem angezeigt... bzw aktuell ist der komplette cluster im A.....
 
läuft pmxcfs/pve-cluster.service?
* `systemctl status -l pve-cluster.service`
* `ps auxwf |grep pmxcfs`

falls nicht das service mal neustarten

sonst bitte auch das output von `pvecm status` pasten

Ich hoffe das hilft!
 
root@flowmox:~# systemctl status -l pve-cluster.service
● pve-cluster.service - The Proxmox VE cluster filesystem
Loaded: loaded (/lib/systemd/system/pve-cluster.service; enabled; vendor preset: enabled)
Active: active (running) since Sat 2019-12-07 21:05:31 CET; 5 days ago
Process: 11069 ExecStart=/usr/bin/pmxcfs (code=exited, status=0/SUCCESS)
Main PID: 11071 (pmxcfs)
Tasks: 13 (limit: 4915)
Memory: 52.5M
CGroup: /system.slice/pve-cluster.service
└─11071 /usr/bin/pmxcfs

Dec 12 12:05:30 flowmox pmxcfs[11071]: [dcdb] notice: data verification successful
Dec 12 13:05:30 flowmox pmxcfs[11071]: [dcdb] notice: data verification successful
Dec 12 14:05:30 flowmox pmxcfs[11071]: [dcdb] notice: data verification successful
Dec 12 15:05:30 flowmox pmxcfs[11071]: [dcdb] notice: data verification successful
Dec 12 16:05:30 flowmox pmxcfs[11071]: [dcdb] notice: data verification successful
Dec 12 17:05:30 flowmox pmxcfs[11071]: [dcdb] notice: data verification successful
Dec 12 18:05:30 flowmox pmxcfs[11071]: [dcdb] notice: data verification successful
Dec 12 19:05:30 flowmox pmxcfs[11071]: [dcdb] notice: data verification successful
Dec 12 20:05:30 flowmox pmxcfs[11071]: [dcdb] notice: data verification successful
Dec 12 21:05:30 flowmox pmxcfs[11071]: [dcdb] notice: data verification successful
root@flowmox:~# ps auxwf |grep pmxcfs
root 24983 0.0 0.0 6072 824 pts/2 S+ 21:50 0:00 \_ grep pmxcfs
root 11071 0.1 0.0 1272000 50708 ? Ssl Dec07 11:11 /usr/bin/pmxcfs
 
Cluster information
-------------------
Name: omniflow
Config Version: 5
Transport: knet
Secure auth: on

Quorum information
------------------
Date: Thu Dec 12 21:52:40 2019
Quorum provider: corosync_votequorum
Nodes: 2
Node ID: 0x00000001
Ring ID: 1.c14
Quorate: Yes

Votequorum information
----------------------
Expected votes: 2
Highest expected: 2
Total votes: 2
Quorum: 2
Flags: Quorate

Membership information
----------------------
Nodeid Votes Name
0x00000001 1 10.0.0.3 (local)
0x00000002 1 10.0.0.15
 
Was ist der inhalt von '/etc/pve/.members'?
was ist der output von `find /etc/pve`?
 
Was ist der inhalt von '/etc/pve/.members'?
was ist der output von `find /etc/pve`?

Danke für Antwort!

Zu Punkt, siehe Thread start aber hier nochmal:

/etc/pve/.members
Bash:
{
"nodename": "flowmox",
"version": 8,
"cluster": { "name": "omniflow", "version": 5, "nodes": 3, "quorate": 1 },
"nodelist": {
  "ProxSystemX-01": { "id": 2, "online": 1, "ip": "10.0.0.15"},
  "PSX-02": { "id": 3, "online": 0},
  "flowmox": { "id": 1, "online": 1, "ip": "10.0.0.3"}
  }
}

zu Punkt 2:

Bash:
root@flowmox:~# find /etc/pve
/etc/pve
/etc/pve/.debug
/etc/pve/local
/etc/pve/.version
/etc/pve/.rrd
/etc/pve/.vmlist
/etc/pve/openvz
/etc/pve/lxc
/etc/pve/.clusterlog
/etc/pve/qemu-server
/etc/pve/.members
/etc/pve/user.cfg
/etc/pve/corosync.conf
/etc/pve/pve-www.key
/etc/pve/priv
/etc/pve/priv/authorized_keys
/etc/pve/priv/lock
/etc/pve/priv/shadow.cfg
/etc/pve/priv/authkey.key
/etc/pve/priv/known_hosts
/etc/pve/priv/pve-root-ca.key
/etc/pve/priv/pve-root-ca.srl
/etc/pve/datacenter.cfg
/etc/pve/authkey.pub
/etc/pve/storage.cfg
/etc/pve/pve-root-ca.pem
/etc/pve/authkey.pub.old
/etc/pve/vzdump.cron
/etc/pve/nodes
/etc/pve/nodes/flowmox
/etc/pve/nodes/flowmox/priv
/etc/pve/nodes/flowmox/openvz
/etc/pve/nodes/flowmox/qemu-server
/etc/pve/nodes/flowmox/qemu-server/300.conf
/etc/pve/nodes/flowmox/qemu-server/108.conf
/etc/pve/nodes/flowmox/qemu-server/118.conf
/etc/pve/nodes/flowmox/qemu-server/102.conf
/etc/pve/nodes/flowmox/qemu-server/112.conf
/etc/pve/nodes/flowmox/qemu-server/107.conf
/etc/pve/nodes/flowmox/qemu-server/117.conf
/etc/pve/nodes/flowmox/qemu-server/111.conf
/etc/pve/nodes/flowmox/qemu-server/106.conf
/etc/pve/nodes/flowmox/qemu-server/116.conf
/etc/pve/nodes/flowmox/qemu-server/100.conf
/etc/pve/nodes/flowmox/qemu-server/110.conf
/etc/pve/nodes/flowmox/qemu-server/115.conf
/etc/pve/nodes/flowmox/qemu-server/114.conf
/etc/pve/nodes/flowmox/qemu-server/109.conf
/etc/pve/nodes/flowmox/qemu-server/103.conf
/etc/pve/nodes/flowmox/qemu-server/113.conf
/etc/pve/nodes/flowmox/pve-ssl.pem
/etc/pve/nodes/flowmox/pve-ssl.key
/etc/pve/nodes/flowmox/lrm_status
/etc/pve/nodes/flowmox/lxc
/etc/pve/nodes/flowmox/lxc/104.conf
/etc/pve/nodes/flowmox/lxc/105.conf
/etc/pve/nodes/ProxSystemX-01
/etc/pve/nodes/ProxSystemX-01/priv
/etc/pve/nodes/ProxSystemX-01/openvz
/etc/pve/nodes/ProxSystemX-01/qemu-server
/etc/pve/nodes/ProxSystemX-01/qemu-server/101.conf
/etc/pve/nodes/ProxSystemX-01/pve-ssl.pem
/etc/pve/nodes/ProxSystemX-01/lrm_status
/etc/pve/nodes/ProxSystemX-01/pve-ssl.key
/etc/pve/nodes/ProxSystemX-01/lxc
/etc/pve/firewall
 
nachdem ich mir den thread nochmals durchgelesen habe ist mir folgendes aufgefallen:



um eine node zu entfernen, bitte genau diese anleitung befolgen: https://pve.proxmox.com/wiki/Cluster_Manager#_remove_a_cluster_node

Diesen Node hatte ich aber nie einen Cluster hinzugefügt. Siehe Schritt 4 ;)
Daher habe ich ihn behandelt als sei er einfach nur ein PROXMOX Server.

Aber aktuell ist ja, das Problem, dass der Clustert angeblich nicht bestünde aber eindeutig einer besteht...
 
Würde es glaubt ihr helfen wenn ich nach anleitung den CLuster auflöse? also den letzten node entferne? udn dann den cluster irgendiwe lösche?
 
um zusammenzufassen:

im cluster befinden sich im moment 3 hosts (laut pvecm status), einer davon ist im moment nicht online und hat gar kein directory im /etc/pve (der grund warum das gui verwirrt ist)
-> den host den es nicht mehr gibt aus dem cluster entfernen laut anleitung
 
um zusammenzufassen:

im cluster befinden sich im moment 3 hosts (laut pvecm status), einer davon ist im moment nicht online und hat gar kein directory im /etc/pve (der grund warum das gui verwirrt ist)
-> den host den es nicht mehr gibt aus dem cluster entfernen laut anleitung

das hab ich schon x mal versucht :( ich probiere es nochmal ;)
 
das hab ich schon x mal versucht :( ich probiere es nochmal ;)
wenn es nicht gelingt, am besten alle schritte mit output hier posten, vielleicht sieht man dann wo das problem genau liegt
 
wenn es nicht gelingt, am besten alle schritte mit output hier posten, vielleicht sieht man dann wo das problem genau liegt

Hi!

Also ich habe nun die Node-Leiche entfernen können ich habe dazu alle pve services in den 2 laufenden aktiven Nodes heruntergefahren und dann die Datei /etc/corosync/corosync.conf ebenfalls in beiden Nodes bearbeitet (Node-Leiche gelöscht).

danach die services wieder hochgefahren und im Anschluss darauf ein pvecm delnode PSX-02 ausgeführt.


Danke für eure Hilfe ;)
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!