[SOLVED] Proxmox startet nur noch im emergency mode | Cannot initialize CMAP service

gustel

Member
Feb 16, 2021
75
4
13
Hallo liebes Forum,

ich muss mal wieder eure Hilfe in Anspruch nehmen.

Ich habe ein Proxmox-Cluster aus derzeit 2 PVE´s.
Aktuell habe ich keine Ahnung, wo der Fehler liegt. :confused:
Ich habe smnp installiert, sonst gab es keine Veränderungen und mein PVE lief seit Monaten ohne Probleme.
Nach dem mein Switch gestern Abend ein automatisches Update gemacht hat, war mein PVE1 samt LXC´s und VM´s nicht mehr erreichbar.
Auf die Weboberfläche bin ich auch nicht mehr gekommen. Was ich gar nicht verstehe, die Weboberfläche meines PVE2 öffnet sich, ich kann mich aber nicht mehr anmelden "Anmeldung fehlgeschlagen ...". Mit Putty kann ich mich aber am PVE2 anmelden.

Kann mir jemand einen Tipp geben?

Gruß Frank

IMG_20220401_132151.jpg
 

Attachments

  • IMG_20220401_132239.jpg
    IMG_20220401_132239.jpg
    109.7 KB · Views: 17
  • IMG_20220401_132505.jpg
    IMG_20220401_132505.jpg
    104.8 KB · Views: 17
  • IMG_20220401_133153.jpg
    IMG_20220401_133153.jpg
    134.9 KB · Views: 17
Hi Frank, hast du für deinen Cluster ein Quorum (raspi oder so?) wenn nicht, hast du vermutlich ein Vote Problem im Cluster. Jeder Node hat nur ein Vote. Eventuell mal einem Node 2 Votes im Corosync geben. Dann sollte der Cluster auf dem Node wieder hochkommen.
 
Hallo SkyDiver79,
nein, ein Quorum habe ich aktuell nicht aber morgen kommt meine SSD dann gibt es einen 3. PVE in einer VM auf unRAID.
Ich habe gerade mal eine VM mit Debian und dem QDevice-Net installiert.
Funktioniert ohne den PVE1 leider nicht!?

Code:
root@pve2:~# pvecm status
Cluster information
-------------------
Name:             Homelab
Config Version:   4
Transport:        knet
Secure auth:      on

Quorum information
------------------
Date:             Fri Apr  1 16:23:44 2022
Quorum provider:  corosync_votequorum
Nodes:            1
Node ID:          0x00000002
Ring ID:          2.d7
Quorate:          No

Votequorum information
----------------------
Expected votes:   2
Highest expected: 2
Total votes:      1
Quorum:           2 Activity blocked
Flags:

Membership information
----------------------
    Nodeid      Votes Name
0x00000002          1 10.0.110.3 (local)
root@pve2:~# pvecm qdevice setup 10.0.110.5
All nodes must be online! Node pve1 is offline, aborting.
 
Ich konnte es schon einmal etwas eingrenzen, hier hatte jemand das gleiche Problem.
https://forum.proxmox.com/threads/node-nach-reboot-cannot-initialize-cmap-service.48593/

Mit einem pvecm expected 1 auf dem pve2 ist dieser wieder erreichbar und die Container laufen erst einmal.

Wie kann ich dieses Problem lösen?
Vor ca. 3 Tagen habe ich auf dem pve1 Updates gemacht, aber mein Kernel steht auf "hold" (zu aktuelle Hardware).
Die /etc/pve/.members passt auch nicht...

Code:
{
"nodename": "pve2",
"version": 3,
"cluster": { "name": "Homelab", "version": 4, "nodes": 2, "quorate": 1 },
"nodelist": {
  "pve1": { "id": 1, "online": 0},
  "pve2": { "id": 2, "online": 1, "ip": "10.0.10.11"}
  }
}

Die corosync.conf sind identisch

Code:
  GNU nano 5.4                                    /etc/pve/corosync.conf
logging {
  debug: off
  to_syslog: yes
}

nodelist {
  node {
    name: pve1
    nodeid: 1
    quorum_votes: 1
    ring0_addr: 10.0.110.2
  }
  node {
    name: pve2
    nodeid: 2
    quorum_votes: 1
    ring0_addr: 10.0.110.3
  }
}

quorum {
  provider: corosync_votequorum
}

totem {
  cluster_name: Homelab
  config_version: 4
  interface {
    linknumber: 0
  }
  ip_version: ipv4-6
  link_mode: passive
  secauth: on
  version: 2
}
 

Attachments

  • IMG_20220401_165431.jpg
    IMG_20220401_165431.jpg
    617.3 KB · Views: 6
Last edited:
Kann mir noch jemand einen Tipp geben, wie ich das Cluster wiederherstellen kann?
 
Also ein Knoten läuft, sind da alle VMs/Container drauf?
Wenn nix mehr auf dem zweiten ist, würde ich den aus dem Cluster entfernen und dann neu joinen. Da gibt es im Wiki Anleitungen die funktionieren, musste ich auch schon mal machen.
 
  • Like
Reactions: gustel
Hallo Skydiver,
die Container und VM´s habe ich alle auf dem PBS.
Ich bin die Anleitung aus dem Wiki durchgegangen;
Auf dem PVE1 (muss aus dem Cluster)
Code:
systemctl stop pve-cluster
systemctl stop corosync
pmxcfs -l
rm /etc/pve/corosync.conf
rm -r /etc/corosync/*
killall pmxcfs
systemctl start pve-cluster
rm /var/lib/corosync/*
rm -r /etc/pve/nodes/pve2
Auf dem PVE2
Code:
pvecm delnode pve1
rm -r /etc/pve/nodes/pve1

Danach war das Cluster auf dem PVE2 wieder im grünen Bereich und ich konnte den neuen PVE3 (VM unRAID) hinzufügen.

Der entfernte PVE1 zickt aber immer noch rum, der kommt einfach nicht hoch und startet im emergency mode.

So, und während ich das schreibe, bin ich das journalctl -xb noch einmal durchgegangen, mit einer Auffälligkeit, er kann die USB-Festplatte für meinen TV-Headend nicht mounten (hatte ich zuvor erfolgreich ignoriert). OK, TVH ist auf unRAID umgezogen und war eigentlich nicht mehr aktiv und in HA auf stopped (dachte ich).

Nun in der fstab den Eintrag auskommentiert und ein reboot. Was soll ich sagen, er startet wieder, oh man :rolleyes:

Jetzt muss er wieder rein ins Cluster...
Wenn ich es richtig verstehe, muss ich jetzt alle LXC´s, VM´s und HA-Einträge löschen, bevor ich ihn wieder hinzufügen kann, richtig?
 
Last edited:

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!