Proxmox Update von 8 ->9 defekt

malt0r

New Member
Jun 10, 2025
5
0
1
Hallo zusammen,

ich betreibe einen 4 Node Proxmox Cluster + Qdevice.

Einen der NOdes wollte ich nach der Anleitung https://pve.proxmox.com/wiki/Upgrade_from_8_to_9 auf Version 9 upgraden.

Leider hängt dieser nach Installation und reboot mit neuem Kernel immer bei:

Setting up pve-ha-manager (5.0.4) ...
watchdog-mux.service is a disabled or a static unit, not starting it.

Der Server ist auch nicht über Webinterface erreichbar sondern nur über SSH.

Was ich schon versucht habe:

dpkg --configure -a
apt purge proxmox-ve
apt install --reinstall proxmox-ve

Leider alles ohne Erfolg. Der Server bleibt unendlich im oben genannten Status hängen.

Ich wäre dankbar für jegliche Form der Hilfe

Vielen Dank im Voraus.
 
Hi!

Wird auf dem Cluster aktiv der HA Manager betrieben? Was ist der Zustand vom HA Manager (ha-manager status / ha-manager status --verbose)?
 
Ja, der HA Manager wird genutzt für mehrere VMs.

Hier der Output vom gewünschten Befehl:

Code:
root@HLS-PVE3:~#  ha-manager status --verbose
quorum OK
master HLS-PVE1 (active, Mon Aug 18 17:04:59 2025)
lrm HLS-PVE1 (active, Mon Aug 18 17:04:59 2025)
lrm HLS-PVE2 (idle, Mon Aug 18 17:05:04 2025)
lrm HLS-PVE3 (old timestamp - dead?, Sun Aug 10 19:00:20 2025)
lrm HLS-PVE4 (idle, Mon Aug 18 17:05:03 2025)
service vm:103 (HLS-PVE1, started)
service vm:104 (HLS-PVE1, started)
service vm:108 (HLS-PVE1, started)
service vm:113 (HLS-PVE1, started)
service vm:114 (HLS-PVE1, started)
service vm:115 (HLS-PVE1, started)
service vm:116 (HLS-PVE1, started)
full cluster state:
{
   "lrm_status" : {
      "HLS-PVE1" : {
         "mode" : "active",
         "results" : {
            "5mZLeyr3l99oUHfyFMRSIw" : {
               "exit_code" : 0,
               "sid" : "vm:116",
               "state" : "started"
            },
            "CWvApdtPMkuyEsZiuLZTmA" : {
               "exit_code" : 0,
               "sid" : "vm:108",
               "state" : "started"
            },
            "FDIYacnzN+7fIQj1hnSjjg" : {
               "exit_code" : 0,
               "sid" : "vm:104",
               "state" : "started"
            },
            "aXv7t5DPnj6V24F+U99drg" : {
               "exit_code" : 0,
               "sid" : "vm:103",
               "state" : "started"
            },
            "b5zWS4VxITwbRtlfkPzNuA" : {
               "exit_code" : 0,
               "sid" : "vm:115",
               "state" : "started"
            },
            "e3Jsh5Wd4HYIpW4p2N2yDg" : {
               "exit_code" : 0,
               "sid" : "vm:114",
               "state" : "started"
            },
            "obQcBNT8CHTIOnAc8dzcaw" : {
               "exit_code" : 0,
               "sid" : "vm:113",
               "state" : "started"
            }
         },
         "state" : "active",
         "timestamp" : 1755529499
      },
      "HLS-PVE2" : {
         "mode" : "active",
         "results" : {},
         "state" : "wait_for_agent_lock",
         "timestamp" : 1755529504
      },
      "HLS-PVE3" : {
         "mode" : "restart",
         "results" : {},
         "state" : "wait_for_agent_lock",
         "timestamp" : 1754845220
      },
      "HLS-PVE4" : {
         "mode" : "active",
         "results" : {},
         "state" : "wait_for_agent_lock",
         "timestamp" : 1755529503
      }
   },
   "manager_status" : {
      "master_node" : "HLS-PVE1",
      "node_status" : {
         "HLS-PVE1" : "online",
         "HLS-PVE2" : "online",
         "HLS-PVE3" : "online",
         "HLS-PVE4" : "online"
      },
      "service_status" : {
         "vm:103" : {
            "node" : "HLS-PVE1",
            "running" : 1,
            "state" : "started",
            "uid" : "OpjjNKxetciad1B+u2X5RA"
         },
         "vm:104" : {
            "node" : "HLS-PVE1",
            "running" : 1,
            "state" : "started",
            "uid" : "iM/1XpRzrK/AGSonTw1J4g"
         },
         "vm:108" : {
            "node" : "HLS-PVE1",
            "running" : 1,
            "state" : "started",
            "uid" : "wOo10dAQ1c8DuaC31ObjVQ"
         },
         "vm:113" : {
            "node" : "HLS-PVE1",
            "running" : 1,
            "state" : "started",
            "uid" : "CK8mwYcgzIHTWiYOUYZdZQ"
         },
         "vm:114" : {
            "node" : "HLS-PVE1",
            "running" : 1,
            "state" : "started",
            "uid" : "kf2osXYqaShntgXW4sswfQ"
         },
         "vm:115" : {
            "node" : "HLS-PVE1",
            "running" : 1,
            "state" : "started",
            "uid" : "iabwP7xYouellonWc9tmHg"
         },
         "vm:116" : {
            "node" : "HLS-PVE1",
            "running" : 1,
            "state" : "started",
            "uid" : "o8brdZYva0xZza0PEPMxJw"
         }
      },
      "timestamp" : 1755529499
   },
   "quorum" : {
      "node" : "HLS-PVE3",
      "quorate" : "1"
   }
}
 
Ja, der HA Manager wird genutzt für mehrere VMs.

Hier der Output vom gewünschten Befehl:
Danke, ich nehme an, dass der beschriebene Fehler bei der HLS-PVE3 Node auftritt? Wenn ja, was ist denn der Output von journalctl -xeu pve-ha-lrm und journalctl -xeu pve-ha-crm auf dieser Node? Ein Verdacht ist, dass das Lock für den LRM auf HLS-PVE3 nicht richtig freigegeben wurde.
 
HLS-PVE3 ist der Node der upgegradet wurde. Die anderen Nodes laufen noch auf Proxmox 8.

Beide Befehle geben folgenden Output zurück:

-- No entries --
 
HLS-PVE3 ist der Node der upgegradet wurde. Die anderen Nodes laufen noch auf Proxmox 8.

Beide Befehle geben folgenden Output zurück:

-- No entries --
Interessant, wurde der journalctl Befehl auch mit dem root user ausgeführt (nur dieser User hat Einsicht auf die Logs dieser Services)? Andernfalls deutet das eventuell hin dass auf dieser Node weder der CRM noch LRM Service gestartet wurde... Was ist denn der Output von journalctl -xeu corosync und ls -lha /etc/pve/priv/lock/?
 
Ja, alle Befehle wurden auf der Node HLS-PVE3 als root ausgeführt.

journalctl -xeu corosync gibt ebenfalls -- No entries -- zurück.

Der Output von ls -lha /etc/pve/priv/lock/ ist:

Code:
root@HLS-PVE3:~# ls -lha /etc/pve/priv/lock/
total 0
drwx------ 2 root www-data 0 Apr 16  2024 .
drwx------ 2 root www-data 0 Apr 16  2024 ..
drwx------ 2 root www-data 0 Aug 20 12:12 ha_agent_HLS-PVE1_lock
drwx------ 2 root www-data 0 Aug 20 12:12 ha_manager_lock
 
dpkg --configure -a
apt purge proxmox-ve
apt install --reinstall proxmox-ve
Wie schaut denn die apt history aus (cat /var/log/apt/history.log - am besten als eigene Datei anhängen)? Ist Proxmox VE nach dem Ausführen der obigen Kommandos überhaupt noch am Host installiert (nach dem purge sollte eine Warnung kommen, dass man explizit eine Datei anlegen muss, um die Deinstallation durchführen zu können)?

proxmox-ve sollte insgesamt nicht entfernt werden, wenn danach Proxmox VE noch weiter verwendet werden soll - besonders auf einer Cluster Node, weil wir das so nicht testen.
 
Anbei die gewünschte Datei. Ob proxmox-ve noch installiert ist kann ich nicht sagen, das Verhalten der Node ist auf jedenfall exact das gleiche wie nach dem Upgrade auf Version 9
 

Attachments

Moin,

Ich hatte mein Proxmox zerschossen und alle was ich noch hatte waren .raw files von meinem bisherigen LXCs.

Problem habe ich so gelöst:

- Proxmox neu installiert (ohne die Storage Festplatte idealerweise, ansonsten sind deine Daten wech)
- Nach der Installation update upgrade.
- Strorage Festplatte mounten
- Neuen LXC mit den gleichen ressourcen wie der deines Containers erstellen
- Gehe dann in die .conf deines COnatiners und ändere den namne bzw. pfad der raw file. (In meinem Fall befand und befinden sich die RAw files auf meiner 2 TB SSD unter /mnt/FSTP2TB/images)
-Starte den Container und alle Daten sind wieder da.

AAABBBERR>

Wenn du den Container erstellst, dann achte darauf, dass die zugangsdaten gleich sind. Ich weiss nicht ob das schlimm ist, wenn man es nicht macht, aber ich habe es so gemacht sicherheitshalber.

Fragen?

Beste Gruesse

Berke
 
@Berke

Um es für's nächste Mal etwas einfacher zu machen wäre es schlau die Configfiles der virtuellen Maschinen ebenfalls zu sichern. Das mache ich generell, wenn alles fertig eingerichtet ist und läuft. Einfach nur zur Sicherheit.

Dann kann man nämlich wie in deinem Fall das Storage einfach so einbinden und die Configs zurückspielen. Dann tauchen die Maschinen von selbst wieder auf und man muss nix neu basteln. ;-)
 
  • Like
Reactions: Browbeat and UdoB
@boisbleu

ja im nachhinein betrachtet hätte ich das tun sollen. Ich hatte überhaupt keine Backups gehabt und dachte mir "was soll schon schief gehen", genau habe ich die Situation falsch eingeschätzt. Nun laufen meine Server wieder und ich habe erstmal Backups gemacht. Ob ich extra ein PBS aufsetzen soll, weiß ich nicht. Es reicht mir lediglich die Backups auf eine externe Festplatte zu packen und gut ist. :)