Proxmox Server nach Umstellung auf Cluster nicht mehr administrierbar

Apr 8, 2018
23
3
43
Hallo zusammen,

nachdem wir unseren zweiten Server mit Proxmox im RZ eingebaut hatten, war mein Ziel diese beiden in einem Cluster zusammenzuschliessen um einfach eine Replication der VMs zu ermöglichen. Derzeit verwende ich die aktuelle Version von Proxmox (5.1-3)

Dazu habe ich in der Admin UI von Proxmox einen Cluster angelegt.
Hierbei kam es zu einer Fehlermeldung (leider habe ich dazu keine weiteren Infos). Danach konnte ich bei den VMs keine Änderungen mehr vornehmen da ein Lock vorhanden war (laut Fehlermeldung).

Beim Recherchieren nach dem Fehler bin ich darauf gestossen das anscheinend der Coro Sync Server nicht
korrekt arbeitet.

Das Kommando "sudo pvecm status" gab zurück "Cannot initialize CMAP service".
Im der Datei /etc/pve/corosync.conf war eine ungültige "ring0_addr" und "ring0_addr" angegeben. Diese wollte ich auf die Server IP umstellen. Leider konnte ich jedoch die colorsync.conf Datei nicht überschreiben (hatte dazu ein Backup der Datei angelegt, diese geändert und dann wieder überschreiben wollen wie in den Docs angeraten).

Da dies nicht zum Ziel führte habe ich aus dem Wiki (https://pve.proxmox.com/wiki/Editing_corosync.conf) folgende Kommandos ausgeführt:
root@pve:/# service corosync stop
root@pve:/# pmxcfs -l

Danach kam folgender Output:
[main] notice: unable to aquire pmxcfs lock - trying again

[main] crit: unable to aquire pmxcfs lock: Resource temporarily unavailable
[main] notice: exit proxmox configuration filesystem (-1)

Laut Doku hiess es dass ich die Lock Datei entfernen soll und nochmals pmxcfs -l ausführen sollte:
root@pve:/# rm /var/lib/pve-cluster/.pmxcfs.lockfile
root@pve:/# pmxcfs -l

Es scheint danach habe ich die Kontrolle über den Server verloren:
[main] notice: forcing local mode (although corosync.conf exists)
fuse: failed to open mountpoint for reading: Transport endpoint is not connected
[main] crit: fuse_mount error: Transport endpoint is not connected
[main] notice: exit proxmox configuration filesystem (-1)

Ich komme auch nicht mehr in das /etc/pve Verzeichnis hinein:
root@pve:/etc/pve# ls -alFh
ls: cannot open directory '.': Transport endpoint is not connected

Möchte ich ein qm Kommando ausführen bekomme ich eine andere Meldung:
root@pve:/# qm list
ipcc_send_rec[1] failed: Connection refused

Auch die Web UI scheint meine Anmeldung nicht mehr zu kennen und hat die Node Informationen verloren.

Zum Glück laufen derzeit die VMs noch, jedoch scheint es das ich die Kontrolle über das Proxmox System verloren habe.

Gibt es hier einen Weg aus dieser Misere?
Ich wäre für eine schnelle Antwort was ich zur Lösung tun kann wirklich sehr dankbar (obwohl ich es selber hasse wenn ich Posts lese wo jemand mit schnell und dringend Dinge priorisieren möchte).. Vielen Dank im Voraus.

Viele Grüße,
André
 
Habe jetzt mal im Forum gestöbert und konnte mit dem Befehl
Code:
root@pve:~# systemctl restart pve-cluster

das Verzeichnis /etc/pve wieder herstellen, auch ist die Web UI jetzt wieder mit den Daten verfügbar.

Allerdings bin jetzt wieder in dem Zustand das ich keine Veränderungen an den VMs vornehmen kann.
Wenn ich z. B. bei einer VM das Netzwerk entferne bekomme ich folgende Fehlermeldung:
Code:
"unable to open file '/etc/pve/nodes/pve/qemu-server/101.conf.tmp.23743' - Permission denied (500)"

Anscheinend läuft der Coros Dienst immer noch nicht korrekt:
Code:
root@pve:~# pvecm status
Cannot initialize CMAP service

Die Coros Konfiguration sieht so aus:
Code:
root@pve:~# more /etc/pve/corosync.conf
logging {
  debug: off
  to_syslog: yes
}

nodelist {
  node {
    name: pve
    nodeid: 1
    quorum_votes: 1
    ring0_addr: 192.168.178.13
  }
}

quorum {
  provider: corosync_votequorum
}

totem {
  cluster_name: mackoy-fra1
  config_version: 1
  interface {
    bindnetaddr: 192.168.178.13
    ringnumber: 0
  }
  ip_version: ipv4
  secauth: on
  version: 2
}

Allerdings hat der Server die IP 192.168.178.13 nicht konfiguriert (die IP lautet vom Server 192.168.11.100).

Meine Annahme ist wenn der Coros Server wieder richtig läuft das dann auch das Locking Problem gelöst ist. Könnte dies anders falschen IP Adresse in der Coros Konfiguration liegen und was muss ich machen damit ich diese editieren kann (diese ist derzeit Read Only und nicht veränderbar)?
 
Einen Schritt weiter:
Mir ist es gelungen jetzt wieder die Dateien in /etc/pve zu editieren mit folgenden Befehlen:
Code:
root@pve:~# systemctl stop pve-cluster
root@pve:~# pmxcfs -l

Danach konnte ich die corosync.conf Datei editieren und habe die korrekte IP Adresse wie auch die config_version hochgesetzt.
Ebenso kann ich in der Web UI jetzt auch wieder die VMs editieren.

Allerdings kann ich auch nach der Änderung der colorsync.conf Datei den corosync Dienst nicht starten:
Code:
root@pve:/etc/pve# systemctl start corosync.service
führt zu folgendem Fehler:
Code:
May 10 23:27:44 pve systemd[1]: Starting Corosync Cluster Engine...
May 10 23:27:44 pve corosync[37958]:  [MAIN  ] Corosync Cluster Engine ('2.4.2-dirty'): started and ready to provide service.
May 10 23:27:44 pve corosync[37958]:  [MAIN  ] Corosync built-in features: dbus rdma monitoring watchdog augeas systemd upstart xmlconf qdevices qnetd snmp pie relro bindnow
May 10 23:27:44 pve corosync[37958]: notice  [MAIN  ] Corosync Cluster Engine ('2.4.2-dirty'): started and ready to provide service.
May 10 23:27:44 pve corosync[37958]: info    [MAIN  ] Corosync built-in features: dbus rdma monitoring watchdog augeas systemd upstart xmlconf qdevices qnetd snmp pie relro bindnow
May 10 23:27:44 pve corosync[37958]: notice  [TOTEM ] Initializing transport (UDP/IP Multicast).
May 10 23:27:44 pve corosync[37958]: notice  [TOTEM ] Initializing transmit/receive security (NSS) crypto: aes256 hash: sha1
May 10 23:27:44 pve corosync[37958]:  [TOTEM ] Initializing transport (UDP/IP Multicast).
May 10 23:27:44 pve corosync[37958]:  [TOTEM ] Initializing transmit/receive security (NSS) crypto: aes256 hash: sha1
May 10 23:27:44 pve corosync[37958]: notice  [TOTEM ] The network interface is down.
May 10 23:27:44 pve corosync[37958]: notice  [SERV  ] Service engine loaded: corosync configuration map access [0]
May 10 23:27:44 pve corosync[37958]: info    [QB    ] server name: cmap
May 10 23:27:44 pve corosync[37958]: notice  [SERV  ] Service engine loaded: corosync configuration service [1]
May 10 23:27:44 pve corosync[37958]: info    [QB    ] server name: cfg
May 10 23:27:44 pve corosync[37958]: notice  [SERV  ] Service engine loaded: corosync cluster closed process group service v1.01 [2]
May 10 23:27:44 pve corosync[37958]: info    [QB    ] server name: cpg
May 10 23:27:44 pve corosync[37958]: notice  [SERV  ] Service engine loaded: corosync profile loading service [4]
May 10 23:27:44 pve corosync[37958]: notice  [SERV  ] Service engine loaded: corosync resource monitoring service [6]
May 10 23:27:44 pve corosync[37958]: warning [WD    ] Watchdog /dev/watchdog exists but couldn't be opened.
May 10 23:27:44 pve corosync[37958]: warning [WD    ] resource load_15min missing a recovery key.
May 10 23:27:44 pve corosync[37958]: warning [WD    ] resource memory_used missing a recovery key.
May 10 23:27:44 pve corosync[37958]: info    [WD    ] no resources configured.
May 10 23:27:44 pve corosync[37958]: notice  [SERV  ] Service engine loaded: corosync watchdog service [7]
May 10 23:27:44 pve corosync[37958]: notice  [QUORUM] Using quorum provider corosync_votequorum
May 10 23:27:44 pve corosync[37958]: crit    [QUORUM] Quorum provider: corosync_votequorum failed to initialize.
May 10 23:27:44 pve corosync[37958]: error   [SERV  ] Service engine 'corosync_quorum' failed to load for reason 'configuration error: nodelist or quorum.expected_votes must be configured!'
May 10 23:27:44 pve corosync[37958]: error   [MAIN  ] Corosync Cluster Engine exiting with status 20 at service.c:356.
May 10 23:27:44 pve systemd[1]: corosync.service: Main process exited, code=exited, status=20/n/a
May 10 23:27:44 pve systemd[1]: Failed to start Corosync Cluster Engine.
May 10 23:27:44 pve systemd[1]: corosync.service: Unit entered failed state.
May 10 23:27:44 pve systemd[1]: corosync.service: Failed with result 'exit-code'.

Ist es generell in Ordnung erstmal den Server ohne den Cluster im lokalen Modus laufen zu lassen?
Was könnte noch der Grund sein warum der Corosync Dienst sich nicht starten läßt?
 
Habe den Cluster Service wieder zum Laufen gebracht mit folgenden Befehlen
Code:
rm /etc/pve/corosync.conf
rm /etc/corosync/*
killall pmxcfs
systemctl start pve-cluster

Der von mir angelegte Cluster ist in der Web UI nicht mehr sichtbar.
Scheint das ich jetzt einen neuen Version wagen könnte und alles wieder auf "Start" ist.

Die Infos für die oben angewendeten Befehle habe ich von folgender Wiki Seite:
https://pve.proxmox.com/wiki/Cluster_Manager#pvecm_separate_node_without_reinstall
 
Abschluss:

Die Ursache für die ganze Geschichte war das in der /etc/hosts Datei tatsächlich eine falsche IP für den Host eingetragen war (eben die 192.168.178.13). Diese wurde dann als Default bei Anlegen des Clusters verwendet und führte zu den oben beschriebenen Problemen.

Ich habe jetzt die /etc/hosts korrigiert und nochmal über die WebUI den Cluster angelegt und es hat ohne Problem funktioniert.

Daher ein Forum Eintrag mit einem Monolog von mir mit einem zum Glück erfolgreichen Abschluss. Vielleicht hilft es mal anderen weiter die auch in die Situation kommen.

Gute Nacht :)
 
  • Like
Reactions: c7h12 and Felix.

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!