Proxmox Cluster (Corosync läuft nicht)

Ryuujin · Nov 30, 2016

Hallo,

ich weiß leider nicht mehr weiter, und hoffe das ihr mir Helfen könnt. Ich habe bereits einige Stunden mit suchen und Lesen von Foren Einträgen dazu verbracht aber keiner konnte mir wirklich helfen. Ich hatte unter Proxmox 3 bereits mal ein Cluster laufen, das lief auch Problemlos dieses anzulegen wie im Wiki erklärt. Das ist aber schon eine weile her und ich wollte nun meine neuen Systeme mit Proxmox 4 erneut in einem Cluster Verbinden zur einfacheren Verwaltung.

Da ich ja bereits Erfahrungen damit hatte dachte ich das ist ganz leicht machbar aber da habe ich wohl Falsch gedacht. Ich bekomme es einfach nicht hin das Zweite System mit dem Cluster zu Verbinden, da ich immer wieder den Fehler erhalte das Corosync nicht läuft.

In Verwendung auf den beiden Systemen ist:

Das Cluster haupt System:
root@Kutulu:~# pveversion
pve-manager/4.3-12/6894c9d9 (running kernel: 4.4.21-1-pve)

Die Node die nicht eingebunden werden kann (wurde auch schon neu Installiert da ich dachte dass das Problem ggf. da begraben ist):
root@Cartmans-mom:~# pveversion
pve-manager/4.3-10/7230e60f (running kernel: 4.4.21-1-pve)

root@Cartmans-mom:~# systemctl restart corosync.service
Job for corosync.service failed. See 'systemctl status corosync.service' and 'journalctl -xn' for details.

root@Cartmans-mom:~# systemctl status corosync.service
● corosync.service - Corosync Cluster Engine
Loaded: loaded (/lib/systemd/system/corosync.service; enabled)
Active: failed (Result: exit-code) since Wed 2016-11-30 23:23:33 CET; 21s ago
Process: 6558 ExecStart=/usr/share/corosync/corosync start (code=exited, status=1/FAILURE)

Nov 30 23:22:32 Cartmans-mom corosync[6565]: [TOTEM ] The network interface is down.
Nov 30 23:22:32 Cartmans-mom corosync[6565]: [SERV ] Service engine loaded: corosync configuration map access [0]
Nov 30 23:22:32 Cartmans-mom corosync[6565]: [QB ] server name: cmap
Nov 30 23:22:32 Cartmans-mom corosync[6565]: [SERV ] Service engine loaded: corosync configuration service [1]
Nov 30 23:22:32 Cartmans-mom corosync[6565]: [QB ] server name: cfg
Nov 30 23:22:32 Cartmans-mom corosync[6565]: [SERV ] Service engine loaded: corosync cluster closed process group service v1.01 [2]
Nov 30 23:23:33 Cartmans-mom corosync[6558]: Starting Corosync Cluster Engine (corosync): [FAILED]
Nov 30 23:23:33 Cartmans-mom systemd[1]: corosync.service: control process exited, code=exited status=1
Nov 30 23:23:33 Cartmans-mom systemd[1]: Failed to start Corosync Cluster Engine.
Nov 30 23:23:33 Cartmans-mom systemd[1]: Unit corosync.service entered failed state.

Corosync.conf:
logging {
debug: off
to_syslog: yes
}

nodelist {
node {
name: Kutulu
nodeid: 1
quorum_votes: 1
ring0_addr: Kutulu
}

node {
name: Cartmans-mom
nodeid: 2
quorum_votes: 1
ring0_addr: Cartmans-mom
}

}

quorum {
provider: corosync_votequorum
}

totem {
cluster_name: InterneSysteme
config_version: 4
ip_version: ipv4
secauth: on
version: 2
interface {
bindnetaddr: 163.172.218.193
ringnumber: 0
}

}

hat hier jemand eine Idee was das Problem sein könnte? mich Wundert etwas die Fehlermeldung von Totem mit dem Netzwerk Interface Down. Sollte ich etwas Vergessen haben bitte fragen ich trage es dann umgehend nach.

Gruß
Ryuujin

fireon · Dec 2, 2016

Poste doch bitte mal folgende Dateien:

Code:

cat /etc/network/interfaces
cat /etc/hosts

ip addr

Ryuujin · Dec 2, 2016

Hi,

das wäre wie folgt.

Haupsystem:

cat /etc/network/interfaces

auto lo
iface lo inet loopback

iface eth0 inet manual

iface eth1 inet manual

auto vmbr0
iface vmbr0 inet static
address 163.172.218.193
netmask 255.255.255.0
gateway 163.172.218.1
bridge_ports eth0
bridge_stp off
bridge_fd 0

cat /etc/hosts

127.0.0.1 localhost

163.172.26.239 cartmans-mom.multiplayerblog.de cartmans-mom
163.172.218.193 kutulu.multiplayerblog.de kutulu
212.83.173.251 cartman.multiplayerblog.de cartman
163.172.113.190 sip.multiplayerblog.de sip
163.172.227.107 dev-cityfu.multiplayerblog.de dev-cityfu
163.172.229.151 cityfu.multiplayerblog.de cityfu

# The following lines are desirable for IPv6 capable hosts
#::1 localhost ip6-localhost ip6-loopback
#ff02::1 ip6-allnodes
#ff02::2 ip6-allrouters

ip addr

1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
valid_lft forever preferred_lft forever
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq master vmbr0 state UP group default qlen 1000
link/ether 00:07:cb:04:06:65 brd ff:ff:ff:ff:ff:ff
3: eth1: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN group default qlen 1000
link/ether 00:07:cb:04:06:66 brd ff:ff:ff:ff:ff:ff
4: vmbr0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
link/ether 00:07:cb:04:06:65 brd ff:ff:ff:ff:ff:ff
inet 163.172.218.193/24 brd 163.172.218.255 scope global vmbr0
valid_lft forever preferred_lft forever
inet6 fe80::207:cbff:fe04:665/64 scope link
valid_lft forever preferred_lft forever
5: tap100i0: <BROADCAST,MULTICAST,PROMISC,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast master vmbr0 state UNKNOWN group default qlen 1000
link/ether 1e:5b:7e:bb:37:f8 brd ff:ff:ff:ff:ff:ff
6: tap101i0: <BROADCAST,MULTICAST,PROMISC,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast master vmbr0 state UNKNOWN group default qlen 1000
link/ether 96:3e:2f:2e:88:56 brd ff:ff:ff:ff:ff:ff
7: tap103i0: <BROADCAST,MULTICAST,PROMISC,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast master vmbr0 state UNKNOWN group default qlen 1000
link/ether 9e:f3:37:d2:61:8b brd ff:ff:ff:ff:ff:ff

Ryuujin · Dec 2, 2016

Da es nicht in ein Post gepasst hat, das Zweite System:

cat /etc/network/interfaces

auto lo
iface lo inet loopback

iface eth0 inet manual

iface eth1 inet manual

auto vmbr0
iface vmbr0 inet static
address 163.172.26.239
netmask 255.255.255.0
gateway 163.172.26.1
bridge_ports eth0
bridge_stp off
bridge_fd 0

cat /etc/hosts

127.0.0.1 localhost

163.172.26.239 cartmans-mom.multiplayerblog.de cartmans-mom
163.172.218.193 kutulu.multiplayerblog.de kutulu
212.83.173.251 cartman.multiplayerblog.de cartman
163.172.113.190 sip.multiplayerblog.de sip
163.172.227.107 dev-cityfu.multiplayerblog.de dev-cityfu
163.172.229.151 cityfu.multiplayerblog.de cityfu

# The following lines are desirable for IPv6 capable hosts
#::1 localhost ip6-localhost ip6-loopback
#ff02::1 ip6-allnodes
#ff02::2 ip6-allrouters

ip addr

1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
valid_lft forever preferred_lft forever
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq master vmbr0 state UP group default qlen 1000
link/ether 00:07:cb:04:06:65 brd ff:ff:ff:ff:ff:ff
3: eth1: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN group default qlen 1000
link/ether 00:07:cb:04:06:66 brd ff:ff:ff:ff:ff:ff
4: vmbr0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
link/ether 00:07:cb:04:06:65 brd ff:ff:ff:ff:ff:ff
inet 163.172.218.193/24 brd 163.172.218.255 scope global vmbr0
valid_lft forever preferred_lft forever
inet6 fe80::207:cbff:fe04:665/64 scope link
valid_lft forever preferred_lft forever
5: tap100i0: <BROADCAST,MULTICAST,PROMISC,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast master vmbr0 state UNKNOWN group default qlen 1000
link/ether 1e:5b:7e:bb:37:f8 brd ff:ff:ff:ff:ff:ff
6: tap101i0: <BROADCAST,MULTICAST,PROMISC,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast master vmbr0 state UNKNOWN group default qlen 1000
link/ether 96:3e:2f:2e:88:56 brd ff:ff:ff:ff:ff:ff
7: tap103i0: <BROADCAST,MULTICAST,PROMISC,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast master vmbr0 state UNKNOWN group default qlen 1000
link/ether 9e:f3:37:d2:61:8b brd ff:ff:ff:ff:ff:ff

Mir ist so eben noch etwas aufgefallen, könnte es ggf. daran liegen?

# /etc/init.d/cman start
-bash: /etc/init.d/cman: No such file or directory

so wie es scheint fehlt "cman" dies ist doch aber benötigt? wenn ich es nachinstallieren möchte bekomme ich eine Abhänigkeitsfehlermeldung.

apt-get install cman

Reading package lists... Done
Building dependency tree
Reading state information... Done
Some packages could not be installed. This may mean that you have
requested an impossible situation or if you are using the unstable
distribution that some required packages have not yet been created
or been moved out of Incoming.
The following information may help to resolve the situation:

The following packages have unmet dependencies:
cman : Depends: libdlmcontrol3 (>= 3.1.8) but it is not going to be installed
Depends: corosync (>= 1.2.1)
E: Unable to correct problems, you have held broken packages.

Edit:

es hängt wohl mit diesem Paket zusammen: "libdlm3" dass das "libdlmcontrol3" nicht Installiert wird.

fireon · Dec 3, 2016

Nein cman wird nicht benötigt. War das alte Corosync: https://pve.proxmox.com/wiki/Service_daemons#cman_.28corosync_1.x.29
Sag mal sind das alles unterschiedliche Netze? Ich wiederhol das jetzt, korrigiere mich wenn ich falsch lieg.

Also der erste Server wo du den Cluster erstellt hast hat 163.172.218.193. Der zweite Server 163.172.26.239. Ich seh da nirgens ein Netz für die Clusterkommunikation. Der Cluster kommuniziert für Multicast. Also bei mir sieht sowas z.b. so aus:

Code:

Quorum information 
------------------ 
Date:  Sat Dec  3 14:28:01 2016 
Quorum provider:  corosync_votequorum 
Nodes:  2 
Node ID:  0x00000002 
Ring ID:  1/40 
Quorate:  Yes 

Votequorum information 
---------------------- 
Expected votes:  2 
Highest expected: 2 
Total votes:  2 
Quorum:  2  
Flags:  Quorate  

Membership information 
---------------------- 
 Nodeid  Votes Name 
0x00000001  1 10.0.0.1 
0x00000002  1 10.0.0.2 (local)

Code:

logging { 
 debug: off 
 to_syslog: yes 
} 

nodelist { 
 node { 
 name: srv-virtu01 
 nodeid: 1 
 quorum_votes: 1 
 ring0_addr: 10.0.0.1 
 } 

 node { 
 name: srv-virtu02 
 nodeid: 2 
 quorum_votes: 1 
 ring0_addr: 10.0.0.2 
 } 

} 

quorum { 
 provider: corosync_votequorum 
} 

totem { 
 cluster_name: adlcluster01 
 config_version: 2 
 ip_version: ipv4 
 secauth: on 
 version: 2 
 interface { 
 bindnetaddr: 10.0.0.0 
 ringnumber: 0 
 } 

}

Code:

auto lo 
iface lo inet loopback 

iface eth0 inet manual 

iface eth1 inet manual 

iface eth2 inet manual 

auto bond0 
iface bond0 inet manual 
 slaves eth0 eth1 eth2 
 bond_miimon 100 
 bond_mode 802.3ad 
 bond_xmit_hash_policy layer2+3 


auto vmbr0 
iface vmbr0 inet static 
 address 172.18.20.9 
 netmask 255.255.255.0 
 gateway 172.18.20.254 
 bridge_ports bond0 
 bridge_stp off 
 bridge_fd 0 

auto eth3 
iface eth3 inet static 
 address 10.0.0.2 
 netmask 255.255.255.192 
#Clusternetzwerk

Wobei das Clusternetz wie empfohlen https://pve.proxmox.com/wiki/Proxmox_VE_4.x_Cluster#Requirements auf einem eigenen PHY Switch hängt.

Ryuujin · Dec 4, 2016

Hi,

vielen Dank für die Information, ich habe das mit dem Multicast schlicht überlesen, die Server selbst laufen in einem Rechenzentrum wo ich keinen Zugriff habe und daher auch keinen switch zwischen die Server schalten könnte. Nach meinem Plan wollte ich dies über das normale Netzwerk Interface laufen lassen (was ich bereits auch schon mal so aktiv hatte) aber wenn dort nun kein Multicast unterstützt werden sollte, erklärt das natürlich warum ich das nicht zum Laufen bekomme habe. Im alten RZ ging es noch (da war dann wohl Multicast auf den switches möglich) im neuen wohl nicht ich werde da mal nachhaken ggf. kann ich ja auch ein "internes vlan" buchen, dann werde ich das machen vielen Dank für deine hilfe.

Gruß
Ryuujin

fireon · Dec 4, 2016

Ja, VLAN geht auch, am besten ist natürlich phy getrennt damit nicht der Switch für für die normalen Daten mit Multicast überschwemmt wird. Kann dann halt auf die SwitchCPU gehen.

Search

Search

Proxmox Cluster (Corosync läuft nicht)

Ryuujin

New Member

fireon

Distinguished Member

Ryuujin

New Member

Ryuujin

New Member

fireon

Distinguished Member

Ryuujin

New Member

fireon

Distinguished Member