[SOLVED] Node nach reboot: Cannot initialize CMAP service

Chris-The-Tuner · Nov 6, 2018

Hallo zusammen,

gestern war ich im Rechenzentrum um eigentlich nur einen Switch zu tauschen damit ich ein weiteres Netz hinzufügen kann.
Nachdem ich den Switch getauscht hatte lief das Cluster (3 Nodes/nicht HA) ohne Murren weiter.
Dann habe ich wie gehabt die Netzwerkkonfig geändert damit der Interface als vmbr2 auch aktiv geht.
Node 3 und 2 sind ohne Probleme wieder hochgekommen und das Cluster war mit den beiden einsatzfähig.
Nur Node 1 macht jetzt Ärger.
Direkt beim Boot hängt er beim Aktivieren eines cciss für 1,5 min. und wechselt dann in den emergency boot, ergo nix geht online, der Rechner ist wech.

Ich habe alles rückgängig gemacht was ich geändert habe, ohne Erfolg, die Kiste bootet nichtmehr.

Wenn ich den Cluster status abrufen möchte bekomme ich ein "Cannot initialize CMAP service".
/etc/pve ist Read-Only sodass ich ncihtmal mit vzdump die VM's sichern und "umziehen" kann.

Ich stehe auf dem Schlauch, alles was ich gefunden habe im Forum und online hilft mir nicht weiter.
Weis jemand Rat ?
Zumindest wie ich die VM's und Container sicher da rausbekomme ?

Ich wäre euch unheimlich dankbar !
Gruß Chris

t.lamprecht · Nov 6, 2018

Hi!

welche version läuft dort?

Code:

pveversion -v

Chris-The-Tuner said:
Wenn ich den Cluster status abrufen möchte bekomme ich ein "Cannot initialize CMAP service".
/etc/pve ist Read-Only sodass ich ncihtmal mit vzdump die VM's sichern und "umziehen" kann.

Corosync scheint nicht gestarten zu sein, möglicherweise wegen einem netzwerkproblem bzw. dessen Konfiguration (also /etc/network/interfaces <=> /etc/pve/corosync.conf passen nicht zusammen).

was passieert bei:

Code:

systemctl restart corosync
systemctl restart pve-cluster

Evtl. im syslog/journal nachschauen, etwa mit:

Code:

journalctl -u corosync -u pve-cluster -b

Chris-The-Tuner · Nov 6, 2018

Ich muss leider mit nem Bild antworten, da ich die Kiste via SSH auch nicht mehr zu fassen bekomme da das OS nicht korrekt bootet.
Gut das der Server ILO hat

Bildschirmfoto zu 2018-11-06 15-29-47.png

Der Restart hängt ne Minute ca. und landet wieder im "emergency mode".

Einen minimalen Auszug vom Journal:

Nov 06 15:34:21 node001 pmxcfs[1360]: [dcdb] crit: cpg_initialize failed: 2
Nov 06 15:34:21 node001 pmxcfs[1360]: [status] crit: cpg_initialize failed: 2
Nov 06 15:34:27 node001 pmxcfs[1360]: [quorum] crit: quorum_initialize failed: 2
Nov 06 15:34:27 node001 pmxcfs[1360]: [confdb] crit: cmap_initialize failed: 2
Nov 06 15:34:27 node001 pmxcfs[1360]: [dcdb] crit: cpg_initialize failed: 2
Nov 06 15:34:27 node001 pmxcfs[1360]: [status] crit: cpg_initialize failed: 2
Nov 06 15:34:33 node001 pmxcfs[1360]: [quorum] crit: quorum_initialize failed: 2
Nov 06 15:34:33 node001 pmxcfs[1360]: [confdb] crit: cmap_initialize failed: 2
Nov 06 15:34:33 node001 pmxcfs[1360]: [dcdb] crit: cpg_initialize failed: 2
Nov 06 15:34:33 node001 pmxcfs[1360]: [status] crit: cpg_initialize failed: 2
Nov 06 15:34:39 node001 pmxcfs[1360]: [quorum] crit: quorum_initialize failed: 2
Nov 06 15:34:39 node001 pmxcfs[1360]: [confdb] crit: cmap_initialize failed: 2
Nov 06 15:34:39 node001 pmxcfs[1360]: [dcdb] crit: cpg_initialize failed: 2
Nov 06 15:34:39 node001 pmxcfs[1360]: [status] crit: cpg_initialize failed: 2
Nov 06 15:34:45 node001 pmxcfs[1360]: [quorum] crit: quorum_initialize failed: 2
Nov 06 15:34:45 node001 pmxcfs[1360]: [confdb] crit: cmap_initialize failed: 2
Nov 06 15:34:45 node001 pmxcfs[1360]: [dcdb] crit: cpg_initialize failed: 2
Nov 06 15:34:45 node001 pmxcfs[1360]: [status] crit: cpg_initialize failed: 2

Chris-The-Tuner · Nov 6, 2018

Die Corosync Config ist 1:1 gleich mit den beiden anderen Nodes, die Netzwerkconfig ebenso :/

Chris-The-Tuner · Nov 6, 2018

Ich hab weiter gesucht, jedoch nciht viel gefunden schätze ich.
Auf meinen 2 laufenden Nodes sagt:
/etc/pve/.members

Code:

{
"nodename": "node002",
"version": 5,
"cluster": { "name": "dus3", "version": 5, "nodes": 3, "quorate": 1 },
"nodelist": {
  "node001": { "id": 1, "online": 0},
  "node002": { "id": 2, "online": 1, "ip": "XX.XX.XX.XX"},
  "node003": { "id": 3, "online": 1, "ip": "XX.XX.XX.XX"}
  }
}

Jedoch auf dem "defekten" Node:

Code:

{
"nodename": "node001",
"version": 0
}

Weis nicht wie viel das bedeutet aber es fällt eben auf.

r4a5a88 · Nov 9, 2018

Mit pvecm expected 1 kann man das quorum erzwingen. Vielleicht hilft das.

Chris-The-Tuner · Nov 11, 2018

Ich bin jetzt mal so "clever" gewesen und habe den Boot mit dem älteren Kernel gewählt, und siehe da, die Kiste läuft !
Bin mir nicht sicher warum das so ist, aber hey, er ist online und das reicht mir bis ich das Cluster durch das neuere ersetze

Search

Search

[SOLVED] Node nach reboot: Cannot initialize CMAP service

Chris-The-Tuner

New Member

t.lamprecht

Proxmox Staff Member

Chris-The-Tuner

New Member

Chris-The-Tuner

New Member

Chris-The-Tuner

New Member

r4a5a88

Renowned Member

Chris-The-Tuner

New Member

We value your privacy