[SOLVED] Node nach reboot: Cannot initialize CMAP service

Chris-The-Tuner

New Member
Sep 1, 2018
9
0
1
30
Hallo zusammen,

gestern war ich im Rechenzentrum um eigentlich nur einen Switch zu tauschen damit ich ein weiteres Netz hinzufügen kann.
Nachdem ich den Switch getauscht hatte lief das Cluster (3 Nodes/nicht HA) ohne Murren weiter.
Dann habe ich wie gehabt die Netzwerkkonfig geändert damit der Interface als vmbr2 auch aktiv geht.
Node 3 und 2 sind ohne Probleme wieder hochgekommen und das Cluster war mit den beiden einsatzfähig.
Nur Node 1 macht jetzt Ärger.
Direkt beim Boot hängt er beim Aktivieren eines cciss für 1,5 min. und wechselt dann in den emergency boot, ergo nix geht online, der Rechner ist wech.

Ich habe alles rückgängig gemacht was ich geändert habe, ohne Erfolg, die Kiste bootet nichtmehr.

Wenn ich den Cluster status abrufen möchte bekomme ich ein "Cannot initialize CMAP service".
/etc/pve ist Read-Only sodass ich ncihtmal mit vzdump die VM's sichern und "umziehen" kann.

Ich stehe auf dem Schlauch, alles was ich gefunden habe im Forum und online hilft mir nicht weiter.
Weis jemand Rat ?
Zumindest wie ich die VM's und Container sicher da rausbekomme ?

Ich wäre euch unheimlich dankbar !
Gruß Chris
 
Hi!

welche version läuft dort?
Code:
pveversion -v

Wenn ich den Cluster status abrufen möchte bekomme ich ein "Cannot initialize CMAP service".
/etc/pve ist Read-Only sodass ich ncihtmal mit vzdump die VM's sichern und "umziehen" kann.

Corosync scheint nicht gestarten zu sein, möglicherweise wegen einem netzwerkproblem bzw. dessen Konfiguration (also /etc/network/interfaces <=> /etc/pve/corosync.conf passen nicht zusammen).

was passieert bei:
Code:
systemctl restart corosync
systemctl restart pve-cluster

Evtl. im syslog/journal nachschauen, etwa mit:
Code:
journalctl -u corosync -u pve-cluster -b
 
Ich muss leider mit nem Bild antworten, da ich die Kiste via SSH auch nicht mehr zu fassen bekomme da das OS nicht korrekt bootet.
Gut das der Server ILO hat :)
Bildschirmfoto zu 2018-11-06 15-29-47.png

Der Restart hängt ne Minute ca. und landet wieder im "emergency mode".

Einen minimalen Auszug vom Journal:
Nov 06 15:34:21 node001 pmxcfs[1360]: [dcdb] crit: cpg_initialize failed: 2
Nov 06 15:34:21 node001 pmxcfs[1360]: [status] crit: cpg_initialize failed: 2
Nov 06 15:34:27 node001 pmxcfs[1360]: [quorum] crit: quorum_initialize failed: 2
Nov 06 15:34:27 node001 pmxcfs[1360]: [confdb] crit: cmap_initialize failed: 2
Nov 06 15:34:27 node001 pmxcfs[1360]: [dcdb] crit: cpg_initialize failed: 2
Nov 06 15:34:27 node001 pmxcfs[1360]: [status] crit: cpg_initialize failed: 2
Nov 06 15:34:33 node001 pmxcfs[1360]: [quorum] crit: quorum_initialize failed: 2
Nov 06 15:34:33 node001 pmxcfs[1360]: [confdb] crit: cmap_initialize failed: 2
Nov 06 15:34:33 node001 pmxcfs[1360]: [dcdb] crit: cpg_initialize failed: 2
Nov 06 15:34:33 node001 pmxcfs[1360]: [status] crit: cpg_initialize failed: 2
Nov 06 15:34:39 node001 pmxcfs[1360]: [quorum] crit: quorum_initialize failed: 2
Nov 06 15:34:39 node001 pmxcfs[1360]: [confdb] crit: cmap_initialize failed: 2
Nov 06 15:34:39 node001 pmxcfs[1360]: [dcdb] crit: cpg_initialize failed: 2
Nov 06 15:34:39 node001 pmxcfs[1360]: [status] crit: cpg_initialize failed: 2
Nov 06 15:34:45 node001 pmxcfs[1360]: [quorum] crit: quorum_initialize failed: 2
Nov 06 15:34:45 node001 pmxcfs[1360]: [confdb] crit: cmap_initialize failed: 2
Nov 06 15:34:45 node001 pmxcfs[1360]: [dcdb] crit: cpg_initialize failed: 2
Nov 06 15:34:45 node001 pmxcfs[1360]: [status] crit: cpg_initialize failed: 2
 
Last edited:
Die Corosync Config ist 1:1 gleich mit den beiden anderen Nodes, die Netzwerkconfig ebenso :/
 
Last edited:
Ich hab weiter gesucht, jedoch nciht viel gefunden schätze ich.
Auf meinen 2 laufenden Nodes sagt:
/etc/pve/.members

Code:
{
"nodename": "node002",
"version": 5,
"cluster": { "name": "dus3", "version": 5, "nodes": 3, "quorate": 1 },
"nodelist": {
  "node001": { "id": 1, "online": 0},
  "node002": { "id": 2, "online": 1, "ip": "XX.XX.XX.XX"},
  "node003": { "id": 3, "online": 1, "ip": "XX.XX.XX.XX"}
  }
}

Jedoch auf dem "defekten" Node:

Code:
{
"nodename": "node001",
"version": 0
}

Weis nicht wie viel das bedeutet aber es fällt eben auf.
 
Last edited:
Mit pvecm expected 1 kann man das quorum erzwingen. Vielleicht hilft das.
 
Ich bin jetzt mal so "clever" gewesen und habe den Boot mit dem älteren Kernel gewählt, und siehe da, die Kiste läuft !
Bin mir nicht sicher warum das so ist, aber hey, er ist online und das reicht mir bis ich das Cluster durch das neuere ersetze :)
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!