Benachrichtigung bei VM-Ausfall

TErxleben · Aug 10, 2025

Noch eine Frage, die mir schon lange durch den Kopf geht:
Wie könnte ich mich im PVE-Universum benachrichtigen lassen, dass eine VM seit x-Minuten nicht erreichbar ist?
Muss ich bei parallelen fettleibigen Monitoringlösungen verbleiben?

UdoB · Aug 11, 2025

TErxleben said:
Muss ich bei parallelen fettleibigen Monitoringlösungen verbleiben?

Naja, was "dick" ist, hängt auch vom Beobachter ab.

Man kann Uptime Kuma durchaus als beides bezeichnen; ich lasse das extern laufen, um Verfügbarkeit von außen testen zu können - also so, also ob ein Dritter auf meine Dienste zugreift.

Intern verwende ich Zabbix, und ja, das ist definitiv "dick"

Vermutlich wolltest du nur "wie geht das mit PVE-Bordmitteln?" wissen. Ohne basteln klappt das meiner Kenntnis nach nicht.

Aber "dünne" (Bash-, Python-, whatever-) Scripte der Art "falls fünfmal kein Ping <meineVM> dann Email" sind natürlich mit Bordmitteln von Debian möglich. Es gibt auch diverse fertige Tools für so etwas.

TErxleben · Aug 12, 2025

UdoB said:
Aber "dünne" (Bash-, Python-, whatever-) Scripte der Art "falls fünfmal kein Ping <meineVM> dann Email"

Genau das habe ich in einem Netz mit zwei PVE-hosts umgesetzt. Funktioniert wunderbar:

Code:

#!/bin/bash

# Pihole-Failover

MAILTO="info@beispiel.de"

while true; do
  sleep 10

  RUNNING=`nmap -p 67 -sU pihole | grep open | wc -l
`
  if [ $RUNNING -lt 1 ]; then
#    echo "STARTE (LXC401) (pihole) wegen Failover"
    pct start 401
    echo "FAILOVER: "Pihole (LXC401) wurde auf PVE1 gestartet, da der Master (LXC400) auf PVE seit 10s nicht erreichbar ist. " | mutt -s "FAILOVER" -- $MAILTO
  fi
done

Man muss den Failover-Pihole nur manuell wieder herunterfahren, was aber einfacher ist als einen kompletten DHCP/DNS-Ausfall auszubügeln. Selbst wenn beide parallel laufen, führt das nicht schlagartig zu einem totalem Kuddelmuddel.
Das ganze ist sogar "schmaler", als selbiges auf VM-Ebene abzufideln.

the other · Aug 12, 2025

Moinsen,
auch wenn ihr vermutlich (?) von wesentlich größeren settings redet, als ich hier im kleinen homelab *husthust administriere...ich bin faul und scripten ist echt nicht meins. Deswegen nutze ich zum Überwachen das "nicht ganz so dicke" Uptimekuma für Portmonitoring und einfachen Ping. Dies läuft für alle container und vms / lxcs einmal dem proxmox host selbst (in einer vm als container).
Dann habe ich eine 2. uptimekuma Instanz auf dem NAS, welche nur den proxmox host und das dortige uptimekuma monitored.
Beide senden ggf. per Mail, sollte etwas nicht "online" sein.
Zusätzlich (läuft ja eh) auf dem Raspi mit Home Assistant die uptimekuma Integration, welche beide uptimekuma Instanzen (NAS und VM mit u.a. uptimekuma) überwacht und ggf. eine Nachricht schickt...
Schnell einzurichten, gegenseitig etwas abgesichert und einfache Pflege. Fürs homelab zumindest. Früher auch mal in checkmk reingeschnuppert (und schnell wieder verlassen, da viel zu dick für meine Bedürfnisse).

und dann gibt es da noch das recht kleine und schlanke beszel, das ebenfalls läuft und per agenten (die zB per docker container auf dem jeweiligen host eingespielt werden können) andere Systeme überwacht.

TErxleben · Aug 12, 2025

the other said:
uptimekuma

Kenn ich nun nicht, werde es aber mal antesten.
Die neun Scriptzeilen von mir, erzeugen aber minimalsten Overhead um die allerwichtigsten Dienste am Start zu halten. Heutzutage ist das WLAN natürlich auch extrem wichtig. Da bietet aber per Mesh schon ganz elegant Failover.
Raucht dein Switch ab, dann hast du eh verloren oder mit viel Geld Redundanz geschaffen. Sonst musst du dann eben manuell umstöpseln. Sofern man einen Ersatzswitch im Regal liegen hat oder gar schon ins Rack geschraubt hast, dann geht das ruckzuck. Die Dinger habe ich in meinem Berufsleben allerdings als extrem zuverlässig erlebt. Die gehen nur kaputt, wenn du mit einem Radlader drüberfährst.

ThoSo · Aug 12, 2025

Mann kann solches Monitoring auch mit Webmin aufbauen. Dabei können dann auch gleich gezielt die Linux Dienste, Programme oder Datenbanken geprüft werden und man lässt sich per eMail oder anderem benachrichtigen.
Je nachdem wo man das mit aufsetzt, kann man sein Linux gleich mit managen oder administrieren.

TErxleben · Aug 12, 2025

Es gibt natürlich einen ganzen Sack an Tools. Allen gemein ist, dass der Ausfall von DNS/DHCP sie auch plättet.
Da benutze ich lieber das von mir gepostete Script, welches auf x PVE-Hosts läuft. Im Desasterfall ist mir auch egal, ob es womöglich mehrere identische Piholes parallel startet. Sicherlich Holzhammermethode aber eben mit minimalem Wartungsaufwand.

TErxleben · Aug 17, 2025

Ich habe am o.g. Mini-script nochmal so gefeilt, dass bei Wiederverfügbarkeit der MasterVM die FailoverVM automatisch gestoppt wird.
Vielleicht ist es für manche ganz nützlich.

Bash:

#!/bin/bash

# Failover für VMs auf mehreren Proxmox-hosts.
# Script am besten als systemd-Service auf allen hosts integrieren, die ein Failover durchfüren sollen.
# Bei Hosts, die als Backup eines Failoverhosts dienen sollen, sollte man die SLEEPTIME passend erhöhen.
# Vorraussetzung ist ein konfigurierter Postfix, um Benachrichtgungen zu versenden
# mutt als mailclient
# nmap um fehlende Dienste zu identifizieren
# sshpass falls man ohne public key authentication arbeiten möchte.
# Letzteres ist in lokalen Netzen m.E. durchaus vertretbar.

MAILTO="fail@example.de"
SLEEPTIME=30            # wir prüfen hier alle 30s solange kein DELAY-Wert die Spanne verlängert.
DELAY200=360            # wir warten VM-individuell sicherheitshalber x Sekunden bis die Master-VM wieder am Start sind.
DELAY400=120            # Die Werte sind wichtig, damit wir uns nicht selbst überholen.
                        # Lieber hoch einsteigen und ggfs. reduzieren.
while true; do
  sleep $SLEEPTIME
  RUNNING=`nmap -p 67 -sU pihole | grep open | wc -l`
  RUNNING1=`nmap -p 8080 gua | grep open | wc -l`
  MAYBESTOP400=`pct status 400 | grep running | wc -l`
  MAYBESTOP200=`pct status 200 | grep running | wc -l`
  if [ $RUNNING == 0 ]; then
    echo "Dienst pihole ist im Netz nicht erreichbar."
    pct start 400
    echo "FAILOVER: pihole LXC400 wurde auf PVE gestartet. Bitte kontrollieren und ggf. manuell stoppen, sobald der Master wieder betriebsbereit ist." | mutt -s "FAILOVER Pihole TES von PVE auf PVE1" -- $MAILTO
  fi
  if [ $RUNNING1 == 0 ]; then
    echo "Dienst guacamole ist im Netz nicht erreichbar."
    pct start 200
    echo "FAILOVER: Guacamole LXC200 wurde auf PVE gestartet. Bitte kontrollieren und ggf. manuell stoppen, sobald der Master wieder betriebsbereit ist." | mutt -s "FAILOVER Guacamole TES von PVE auf PVE1" -- $MAILTO
  fi
  if [ $MAYBESTOP400 == 1 ]; then
    echo "Failover LXC400 (pihole) aktiv."
    # Wir prüfen ob der Master wieder läuft
    SHUTDOWN400=`sshpass -p 'ganzgeheim' ssh root@pve1 pct list | grep 400 | grep running | wc -l`
    if [ $SHUTDOWN400 == 1 ]; then
      echo "Master pihole wieder aktiv Failover wird deaktiviert."
      pct shutdown 400
      sleep $DELAY400
    fi
  fi
  if [ $MAYBESTOP200 == 1 ]; then
    echo "Failover LXC200 (guacamole) aktiv."
    # Wir prüfen ob der Master wieder läuft
    SHUTDOWN200=`sshpass -p 'ganzgeheim' ssh root@pve1 pct list | grep 200 | grep running | wc -l`
    if [ $SHUTDOWN200 == 1 ]; then
      echo "Master guacamole wieder aktiv Failover wird deaktiviert."
      pct shutdown 200
      sleep $DELAY200
    fi
  fi
done

failover.service sieht so aus.

Code:

[Unit]
Description=Failover Proxmox-VMs

[Service]
Type=simple
ExecStart=/bin/bash /root/failover.sh


[Install]
WantedBy=multi-user.target

TErxleben · Aug 19, 2025

Um die Sache, für den zwangsläufig folgenden Wünsch nach Aktualisierung der cold-standby-VMs, zu komplettieren noch ein lecker script von @cwt, welches diese aktualisiert.
Geändert habe ich lediglich eine Zeile. Nachzulesen hier: https://forum.proxmox.com/threads/a...h-von-gestoppten-vms-lxcs.169906/#post-793070.

Code:

#!/usr/bin/env bash
set -euo pipefail


NODE="$(hostname)"                 # Lokaler PVE-Node, auf dem restored wird
PBS_STORE="pbs"                    # Name des eingebundenen PBS-Storage in PVE
TARGET_STORE="local-lvm"           # Ziel-Storage für Restore (anpassen)
VMIDS=("200" "400" "107")          # IDs der Cold-Standby-Instanzen (VM & LXC gemischt möglich)
DRYRUN="${DRYRUN:-0}"              # DRYRUN=1 -> nur anzeigen, nichts ausführen
KEEP_CONFIG_BACKUP=1               # Legt vor dem Destroy ein qm/pct config-Backup an


need() { command -v "$1" >/dev/null || { echo "Fehlt: $1"; exit 1; }; }
need pvesh; need jq

log(){ echo "[$(date +'%F %T')] $*"; }

get_latest_volid() {
  local vmid="$1"
  # holt neueste Backup-VolID (volid wie: pbs:backup/vm/101/2025-08-15T19:01:23Z)
  pvesh get "/nodes/${NODE}/storage/${PBS_STORE}/content" \
    -content backup -vmid "${vmid}" --output-format json \
  | jq -r 'max_by(.ctime) | .volid'
}

detect_type_from_volid() {
  local volid="$1"
  if [[ "$volid" == *"/vm/"* ]]; then echo "qemu"; else echo "lxc"; fi
#  if [[ "$volid" == *"vzdump-qemu-"* ]]; then echo "qemu"; else echo "lxc"; fi
}

stop_and_destroy() {
  local type="$1" vmid="$2"
  if [[ "$type" == "qemu" ]]; then
    qm stop "$vmid" || true
    [[ "$KEEP_CONFIG_BACKUP" -eq 1 ]] && qm config "$vmid" >"/root/qm-${vmid}-$(date +%F-%H%M).conf" || true
    qm destroy "$vmid" --purge 1 --destroy-unreferenced-disks 1
  else
    pct stop "$vmid" || true
    [[ "$KEEP_CONFIG_BACKUP" -eq 1 ]] && pct config "$vmid" >"/root/pct-${vmid}-$(date +%F-%H%M).conf" || true
    pct destroy "$vmid" --purge 1
  fi
}

do_restore() {
  local type="$1" vmid="$2" volid="$3"
  if [[ "$type" == "qemu" ]]; then
    # Hinweis: --unique 0 -> behält MAC/SMBIOS wie im Backup (gut für echtes Failover)
    qmrestore "$volid" "$vmid" --storage "$TARGET_STORE" --force 1 --unique 0
    qm set "$vmid" --onboot 0 || true   # sicherheitshalber nicht automatisch starten
  else
    pct restore "$vmid" "$volid" --storage "$TARGET_STORE" --force 1
    pct set "$vmid" -onboot 0 || true
  fi
}

for VMID in "${VMIDS[@]}"; do
  log "== Bearbeite VMID ${VMID} =="
  VOLID="$(get_latest_volid "$VMID" || true)"
  if [[ -z "$VOLID" || "$VOLID" == "null" ]]; then
    log "!! Keine Backups im PBS für VMID ${VMID} gefunden – skip"
    continue
  fi

  TYPE="$(detect_type_from_volid "$VOLID")"

  log "Neueste Sicherung: ${VOLID} (Typ: ${TYPE})"

  if [[ "$DRYRUN" -eq 1 ]]; then
    log "[DRYRUN] Würde ${TYPE} ${VMID} zerstören und aus ${VOLID} nach ${TARGET_STORE} restoren."
    continue
  fi

  stop_and_destroy "$TYPE" "$VMID"
  do_restore "$TYPE" "$VMID" "$VOLID"
  log "✔ Restore fertig: ${TYPE} ${VMID} aus ${VOLID} → ${TARGET_STORE} (gestoppt belassen)"
done

log "Alle Jobs erledigt."

TErxleben · Sep 3, 2025

Nochmal nachgedengelt.
Da ich mit dem Script auch meinen DNS/DHCP-Server (Pihole) redundant halte, kann man sich natürlich mächtig ins Knie schießen, falls der nicht aus dem Kreuz kommt.
So habe ich nun einen Mischbetrieb zwischen Fester IP und DHCP-clients.
Pihole und die PVE-Host haben sowieso feste IPs.
Meinen wichtigen SSH-Proxy habe ich manuell auf Feste IP umgestellt.
Guacamole und Homeassistant aber auf dem DHCP-Standard belassen.

Siehe script:

Code:

#!/bin/bash

# Failover für Proxmox-hosts.
# Script am besten als systemd-Service auf allen hosts integrieren, die ein Failover durchfüren sollen.
# Bei Hosts, die als Backup eines Failoverhosts dienen sollen, Sollte man die SLEEPTIME passend erhöhen.
# Vorraussetzung ist ein konfigurierter Postfix, um Benachrichtgungen zu versenden
# mutt als mailclient
# nmap um fehlende Dienste zu identifizieren
# sshpass falls man ohne public key authentication arbeiten möchte.
# Letzteres ist in lokalen Netzen m.E. durchaus vertretbar.
# Wichtig ist die qemu-guest agents auf den zu behandelnden Gästen installiert und aktiviert sind.
# Sonst klappt der shutdown nicht.


MAILTO="mail@irgendwer.de"
SLEEPTIME=30            # wir prüfen hier alle 30s solange kein DELAY-Wert die Spanne verlängert.
DELAY200=360            # wir warten VM-individuell sicherheitshalber x Sekunden bis die Master-VM wieder am Start sind.
DELAY400=120            # Die Werte sind wichtig, damit wir uns nicht selbst überholen.
DELAY107=30             # Die Werte sind wichtig, damit wir uns nicht selbst überholen.
DELAY112=120            # Die Werte sind wichtig, damit wir uns nicht selbst überholen.
                        # Lieber hoch einsteigen und ggfs. reduzieren.

MASTERPVE="192.168.100.201"
PIHOLEIP="192.168.100.251"
#GUACAMOLEIP="192.168.100.197"
SSHPROXYIP="192.168.100.250"

while true; do
  sleep $SLEEPTIME
  RUNNING400=`nmap -p 67 -sU $PIHOLEIP | grep open | wc -l`
#  RUNNING200=`nmap -p 8080 $GUACAMOLEIP | grep open | wc -l`
  RUNNING200=`nmap -p 8080 gua | grep open | wc -l`
  RUNNING107=`nmap -p 8123 homeassistant | grep open | wc -l`
  RUNNING112=`nmap -p 22 $SSHPROXYIP | grep open | wc -l`

  MAYBESTOP400=`pct status 400 | grep running | wc -l`
  MAYBESTOP200=`pct status 200 | grep running | wc -l`
  MAYBESTOP107=`qm status 107 | grep running | wc -l`
  MAYBESTOP112=`qm status 112 | grep running | wc -l`
  if [ $RUNNING400 == 0 ]; then
    echo "Dienst pihole ist im Netz nicht erreichbar."
    pct start 400
    echo "FAILOVER TES: pihole LXC400 wurde auf PVE gestartet. Bitte kontrollieren und ggf. manuell stoppen, sobald der Master wieder betriebsbereit ist." | mutt -s "FAILOVER TES Pihole von PVE1 auf PVE" -- $MAILTO
  fi
  if [ $RUNNING200 == 0 ]; then
    echo "Dienst guacamole ist im Netz nicht erreichbar."
    pct start 200
    echo "FAILOVER TES: Guacamole LXC200 wurde auf PVE gestartet. Bitte kontrollieren und ggf. manuell stoppen, sobald der Master wieder betriebsbereit ist." | mutt -s "FAILOVER TES Guacamole von PVE1 auf PVE" -- $MAILTO
  fi
  if [ $RUNNING107 == 0 ]; then
    echo "Dienst homeassistant ist im Netz nicht erreichbar."
    qm start 107
    echo "FAILOVER TES: Homeassistant VM107 wurde auf PVE gestartet. Bitte kontrollieren und ggf. manuell stoppen, sobald der Master wieder betriebsbereit ist." | mutt -s "FAILOVER TES Homeassistant von PVE1 auf PVE" -- $MAILTO
  fi
  if [ $RUNNING112 == 0 ]; then
    echo "Dienst ssh-proxy ist im Netz nicht erreichbar."
    qm start 112
    echo "FAILOVER: ssh-Proxy VM112 wurde auf PVE gestartet. Bitte kontrollieren und ggf. manuell stoppen, sobald der Master wieder betriebsbereit ist." | mutt -s "FAILOVER TES: SSH-Proxy läuft nun auf PVE" -- $MAILTO
  fi
  if [ $MAYBESTOP400 == 1 ]; then
    echo "Failover LXC400 (pihole) aktiv."
    # Wir prüfen ob der Master wieder läuft
    SHUTDOWN400=`sshpass -p 'GeheimPW' ssh root@$MASTERPVE pct list | grep 400 | grep running | wc -l`
    if [ $SHUTDOWN400 == 1 ]; then
      echo "Master pihole wieder aktiv Failover wird deaktiviert."
      pct shutdown 400
      echo "FAILOVER TES beendet: Master pihole wieder aktiv." | mutt -s "RECOVER TES: pihole läuft wieder auf PVE1" -- $MAILTO
      sleep $DELAY400
    fi
  fi
  if [ $MAYBESTOP200 == 1 ]; then
    echo "Failover LXC200 (guacamole) aktiv."
    # Wir prüfen ob der Master wieder läuft
    SHUTDOWN200=`sshpass -p 'GeheimPW' ssh root@$MASTERPVE pct list | grep 200 | grep running | wc -l`
    if [ $SHUTDOWN200 == 1 ]; then
      echo "Master guacamole wieder aktiv Failover wird deaktiviert."
      pct shutdown 200
      echo "FAILOVER TES beendet: Master guacamole wieder aktiv." | mutt -s "RECOVER TES: guacamole läuft wieder auf PVE1" -- $MAILTO
      sleep $DELAY200
    fi
  fi
  if [ $MAYBESTOP107 == 1 ]; then
    echo "Failover VM107 (homeassistant) aktiv."
    # Wir prüfen ob der Master wieder läuft
    SHUTDOWN107=`sshpass -p 'GeheimPW' ssh root@$MASTERPVE qm list | grep 107 | grep running | wc -l`
    if [ $SHUTDOWN107 == 1 ]; then
      echo "Master homeassistant wieder aktiv Failover wird deaktiviert."
      qm shutdown 107
      echo "FAILOVER TES beendet: Master homeassistant wieder aktiv." | mutt -s "RECOVER TES: homeassistant läuft wieder auf PVE1" -- $MAILTO
      sleep $DELAY107
    fi
  fi
  if [ $MAYBESTOP112 == 1 ]; then
    echo "Failover VM112 SSH-Proxy aktiv."
    # Wir prüfen ob der Master wieder läuft
    SHUTDOWN112=`sshpass -p 'GeheimPW' ssh root@$MASTERPVE qm list | grep 112 | grep running | wc -l`
    if [ $SHUTDOWN112 == 1 ]; then
      echo "Master SSH-Proxy wieder aktiv Failover wird deaktiviert."
      qm shutdown 112
      echo "FAILOVER TES beendet: Master SSH-Proxy wieder aktiv." | mutt -s "RECOVER TES: SSH-Proxy läuft wieder auf PVE1" -- $MAILTO
      sleep $DELAY112
    fi
  fi

done

TErxleben · Oct 3, 2025

Auf zur nächsten Evolutionsstufe.
Nachdem zwar pingbare aber sonst definitiv nicht erreichbare Hosts weh taten, hier ein weiteres sogar erheblich übersichtlicheres Script.
Beispielhaft für VMs und LXCs:
/edit/: Altlasten Backticks gegen $() ersetzt

Code:

#!/bin/bash

# FAILOVER für virtuelle Proxmox-Maschinen.
# Vorraussetzung ist ein konfigurierter Postfix, um Benachrichtgungen mit mutt zu versenden.
# sshpass braucht man, falls man ohne public key authentication arbeiten möchte.
# Letzteres ist in lokalen Netzen m.E. durchaus vertretbar.
# Installierte qemu-guest agents auf den zu behandelnden Gästen zählen auch nicht rückwärts.
# qm list, dursucht grep in der Ausgabe nach [VM-NAME][ ][running] erfolgreich.
# pct list, jedoch nach [VM-ID][ ][running]. Schonmal saublöde!
# Dabei unterscheiden sich Ergebnisse zusätzlich zwischen Remote-SSH und manuellem Aufruf. Noch nerviger.
# Remote-SSH dampft Ausgaben auf Einzeiler mit Einzel-Leerzeichen ohne Zeilenumbrüche ein. Ganz hartes Knäcke.
# schreibt man versehentlich nicht "qm list && pct list" sondern nur qm list && pct list, werden sogar innhaltlich falsche Angaben geliefert. Vollkatastrophe!
# Hier ist das Eindampfen allerdings ganz praktisch und sogar übersichtlicher, Siehe MASTER400 und MASTER800. Konsistenz geht aber m.E. ganz anders.

MAILTO="mail@irgendwer.invalid"
SLEEPTIME=30            # wir prüfen alle 30s.
MASTERPVE="192.168.666.666"
LINKEDBY="enp0s31f6:" # Einzelschnittstelle, vmbr oder bond
PW="SuperGeheim"

while true; do
  sleep $SLEEPTIME

  LINKED=$(ip link show | grep $LINKEDBY | grep "state UP" | wc -l)      # Sind wir denn selbst im Netzwerk verfügbar?.

  if [ $LINKED == 1 ]; then
    echo "Prüfe auf womöglich nötige FAILOVER."
    RUNNINGMASTERS=$(sshpass -p $PW ssh root@$MASTERPVE "qm list && pct list") # alle laufende virtuellem Maschinen, merken.
    MASTER400=$(echo $RUNNINGMASTERS | grep "ssh running" | wc -l) # Nun auf einzelnde aufdröseln
    MASTER800=$(echo $RUNNINGMASTERS | grep "800 running" | wc -l)
    FAILOVER400=$(qm status 400 | grep running | wc -l)   # läuft das Ding womöglich schon hier?
    FAILOVER800=$(pct status 800 | grep running | wc -l)

    if [ $MASTER400 == 0 ]; then
      if [ $FAILOVER400 == 0 ]; then
        echo "SSH-Proxy ist ausgefallen FAILOVER wird aktiviert."
        qm start 400
        echo "FAILOVER SEA: SSH-Proxy wurde auf backup gestartet." | mutt -s "FAILOVER SEA SSH-Proxy läuft nun auf backup" -- $MAILTO
      fi
    else
      if [ $FAILOVER400 == 1 ]; then
        echo "MASTER SSH-Proxy wieder aktiv FAILOVER wird deaktiviert."
        qm shutdown 400
        echo "FAILOVER SEA beendet: MASTER SSH-Proxy wieder aktiv." | mutt -s "RECOVER SEA: SSH-Proxy läuft wieder auf PVE1" -- $MAILTO
      fi
    fi

    if [ $MASTER800 == 0 ]; then
      if [ $FAILOVER800 == 0 ]; then
        echo "Guacamole ist ausgefallen FAILOVER wird aktiviert."
        pct start 800
        echo "FAILOVER SEA: Guacamole wurde auf backup gestartet." | mutt -s "FAILOVER SEA Guacamole läuft nun auf backup" -- $MAILTO
      fi
    else
      if [ $FAILOVER800 == 1 ]; then
        echo "MASTER Guacamole wieder aktiv FAILOVER wird deaktiviert."
        pct shutdown 800
        echo "FAILOVER SEA beendet: MASTER Guacamole wieder aktiv." | mutt -s "RECOVER SEA: SSH-Guacamole läuft wieder auf PVE1" -- $MAILTO
      fi
    fi
  fi
done

pvps1 · Oct 4, 2025

@TErxleben du bist vermutlich ein Fan von Selbstgemacht, aber monit macht genau diese "watchdog" Sachen sehr gut

TErxleben · Oct 4, 2025

pvps1 said:
@TErxleben du bist vermutlich ein Fan von Selbstgemacht, aber monit macht genau diese "watchdog" Sachen sehr gut

Richtig. monit kenne ich auch und nutze es gerne. Gut das du es hier erwähnst. Gehört ja zum Thema.
Allerdings ist es m.E. eine echt dicke Kanone für einen Spatzen. Zumal ich es nie hinbekommen habe damit den Status einer VM auf einem Remotehost zu überwachen.

Darum hier nochmal meinen aktuellen Gold-Standard mit for-Schleife, bei dem man nur noch die Aufzählungen anpassen muss, statt Codeblöcke manuell zu kopieren und zu ändern:

Code:

root@pve:~# cat failover.sh
#!/bin/bash

# FAILOVER für virtuelle Proxmox-Maschinen.
# Vorraussetzung ist ein konfigurierter Postfix, um Benachrichtgungen mit mutt zu versenden.
# sshpass braucht man, falls man ohne public key authentication arbeiten möchte.
# Letzteres ist in lokalen Netzen m.E. durchaus vertretbar.
# Installierte qemu-guest agents auf den zu behandelnden Gästen zählen auch nicht rückwärts (wg. shutdown).
# qm list, dursucht grep in der Ausgabe nach [VM-NAME][ ][running] erfolgreich.
# pct list, jedoch nach [VM-ID][ ][running]. Schonmal saublöde!
# Dabei unterscheiden sich Ergebnisse zusätzlich zwischen Remote-SSH und manuellem Aufruf. Noch nerviger.
# Remote-SSH dampft Ausgaben auf Einzeiler mit Einzel-Leerzeichen ohne Zeilenumbrüche ein. Ganz hartes Knäcke.
# schreibt man versehentlich nicht "qm list && pct list" sondern nur qm list && pct list, werden sogar einfach inhaltlich falsche Angaben ohne Fehlermeldung geliefert. Vollkatastrophe!


MAILTO="mail@irgendwer.invalid"
COMPANY="Fancy LTD."
SLEEPTIME=30            # wir prüfen alle 30s.
MASTERPVE="192.168.666.666"
LINKEDBY="bond0:" # Einzelschnittstelle, vmbr oder bond
PW="Supergeheim"

VMIDS=("107" "112" "200" "400")                              # zu überwachende Maschinen
VMTYPES=("qm" "qm" "pct" "pct")                              # deren Typ
VMNAMES=("ssh" "homassistant" "200" "400")                   # Trick 17: Der Mischmasch Name/ID ist den unterschiedlichen Ausgaben von pct und qm geschuldet.
VMALIAS=("SSH-Proxy" "homeassistant" "Guacamole" "PI-hole")  # Nachrichten sollen aber ordentlich gemeldet werden.
VMCOUNT=${#VMIDS[@]}

while true; do
  sleep $SLEEPTIME

  LINKED=$(ip link show | grep $LINKEDBY | grep "state UP" | wc -l)      # Sind wir denn selbst im Netzwerk verfügbar?.

  if [ $LINKED == 1 ]; then
    echo "Prüfe auf womöglich nötige FAILOVER."
    RUNNINGMASTERS=$(sshpass -p $PW ssh root@$MASTERPVE "qm list && pct list") # alle laufende virtuellem Maschinen, merken.

    for ((i=0; i<$VMCOUNT; i++)); do
      ID=${VMIDS[i]}
      TYPE=${VMTYPES[i]}
      ALIAS=${VMALIAS[i]}
      NAME=${VMNAMES[i]}

      MASTER=$(echo $RUNNINGMASTERS | grep "$NAME running"| wc -l)
      FAILOVER=$($TYPE status $ID | grep running | wc -l)

      if [ $MASTER == 0 ]; then
        if [ $FAILOVER == 0 ]; then
          echo "$ALIAS ist ausgefallen FAILOVER wird aktiviert."
          $($TYPE start $ID)
          echo "FAILOVER $COMPANY: $ALIAS wurde auf backup gestartet." | mutt -s "FAILOVER $COMPANY $ALIAS läuft nun auf backup" -- $MAILTO
        fi
      else
        if [ $FAILOVER == 1 ]; then
          echo "MASTER $ALIAS wieder aktiv FAILOVER wird deaktiviert."
          $($TYPE shutdown $ID)
          echo "FAILOVER $COMPANY beendet: MASTER $ALIAS wieder aktiv." | mutt -s "RECOVER $COMPANY: $ALIAS läuft wieder auf PVE1" -- $MAILTO
        fi
      fi
    done
  fi
done

Bu66as · Oct 6, 2025

Hallo @TErxleben,

dein finales Skript ist eine schöne, kompakte Lösung geworden. Zwei kleine Anmerkungen hätte ich dazu:
Anstelle von sshpass mit dem Passwort im Klartext würde ich dir dringend zu SSH-Keys raten. Das ist deutlich sicherer, da das Passwort so nicht im Prozessbaum oder in der Bash-History auftauchen kann.
Zudem scheint bei $($TYPE start ID)und($TYPE shutdown ID)ein() zu viel zu sein. Die Befehle sollten direkt als $TYPE start $ID aufgerufen werden, da du sonst versuchst, die Ausgabe des Start-Befehls als neuen Befehl auszuführen.

TErxleben · Oct 6, 2025

Bu66as said:
dein finales Skript ist eine schöne, kompakte Lösung geworden. Zwei kleine Anmerkungen hätte ich dazu:
Anstelle von sshpass mit dem Passwort im Klartext würde ich dir dringend zu SSH-Keys raten. Das ist deutlich sicherer, da das Passwort so nicht im Prozessbaum oder in der Bash-History auftauchen kann.

Erstmal danke für die Blumen. Zwar werden keys schon immer als sicherer kolportiert, aber ich konnte das noch nie richtig nachvollziehen. Zumal wir über Intranet sprechen. Wenn jemand in der Lage ist per Prozessliste oder Bash-history Passwörter auszulesen, hast du eh verloren. Dann helfen auch keine keys mehr. In sicherheitskritischen Umgebungen nutze ich deshalb lieber eher umständliche aber erheblich sichere 2FA. Sogar unverschlüsselt.
Kann aber natürlich jeder wie der berühmte Dachdecker halten.

Bu66as said:
Zudem scheint bei $($TYPE start ID)und($TYPE shutdown ID)ein() zu viel zu sein. Die Befehle sollten direkt als $TYPE start $ID aufgerufen werden, da du sonst versuchst, die Ausgabe des Start-Befehls als neuen Befehl auszuführen.

Da hast du natürlich Recht.
Habe ich korrigiert und zusätzlich noch eine Kontrollmöglichkeit eingebaut s.u.

Code:

root@pve:~# cat failover.sh
#!/bin/bash

# FAILOVER für virtuelle Proxmox-Maschinen.
# Vorraussetzung ist ein konfigurierter Postfix, um Benachrichtgungen mit mutt zu versenden.
# sshpass braucht man, falls man ohne public key authentication arbeiten möchte.
# Letzteres ist in lokalen Netzen m.E. durchaus vertretbar.
# Installierte qemu-guest agents auf den zu behandelnden Gästen zählen auch nicht rückwärts.
# qm list, dursucht grep in der Ausgabe nach [VM-NAME][ ][running] erfolgreich.
# pct list, jedoch nach [VM-ID][ ][running]. Schonmal saublöde!
# Dabei unterscheiden sich Ergebnisse zusätzlich zwischen Remote-SSH und manuellem Aufruf. Noch nerviger.
# Remote-SSH dampft Ausgaben auf Einzeiler mit Einzel-Leerzeichen ohne Zeilenumbrüche ein. Ganz hartes Knäcke.
# schreibt man versehentlich nicht "qm list && pct list" sondern nur qm list && pct list, werden sogar innhaltlich falsche Angaben geliefert. Vollkatastrophe!
# Hier ist das Eindampfen allerdings ganz praktisch und sogar besser auswertbar,
# Es muss nur der Abschnitt vor der Dauerschleife an eigene Bedürfnisse angepasst werden.

MAILTO="mail@irgendwer.invalid"
COMPANY="FANCY LTD"
SLEEPTIME=30      # wir prüfen alle 30s.
LINKEDBY="bond0:" # Einzelschnittstelle, vmbr oder bond
MASTERPVE="192.168.666.666"
PW="lSuperGeheim"
VERBOSE=0         # Wie geschwätzig wollen wir sein?

VMIDS=("107" "112" "200" "400")                              # zu überwachende Maschinen egal auf welchem Host
VMTYPES=("qm" "qm" "pct" "pct")                              # lieber einmal definieren, als kompliziert ermitteln
VMNAMES=("homeassistant" "ssh" "200" "400")                  # Trick 17: Der Mischmasch Name/ID ist den unterschiedlichen Ausgaben von pct und qm geschuldet.
VMALIAS=("homeassistant" "SSH-Proxy" "Guacamole" "PI-hole")  # Nachrichten sollen aber ordentlich und konsistent gemeldet werden.
VMCOUNT=${#VMIDS[@]}

while true; do
  sleep $SLEEPTIME

  LINKED=$(ip link show | grep $LINKEDBY | grep "state UP" | wc -l)      # Sind wir denn selbst im Netzwerk verfügbar?.

  if [ $LINKED == 1 ]; then

    RUNNINGMASTERS=$(sshpass -p $PW ssh root@$MASTERPVE "qm list && pct list") # alle laufende virtuellem Maschinen, merken.
    if [ $VERBOSE -gt 0 ]; then
      echo "Prüfe <$LINKEDBY> auf womöglich nötige FAILOVER."
    fi
    if [ $VERBOSE -gt 1 ]; then
      echo $RUNNINGMASTERS
    fi
    for ((i=0; i<$VMCOUNT; i++)); do
      ID=${VMIDS[i]}
      TYPE=${VMTYPES[i]}
      ALIAS=${VMALIAS[i]}
      NAME=${VMNAMES[i]}

      MASTER=$(echo $RUNNINGMASTERS | grep "$NAME running"| wc -l)
      FAILOVER=$($TYPE status $ID | grep running | wc -l)
      if [ $VERBOSE -gt 2 ]; then
        echo "ID="$ID
        echo "TYPE="$TYPE
        echo "ALIAS="$ALIAS
        echo "NAME="$NAME
 
        echo "MASTER="$MASTER
        echo "FAILOVER="$FAILOVER
      fi
      if [ $MASTER == 0 ]; then
        if [ $FAILOVER == 0 ]; then
          echo "$ALIAS ist ausgefallen FAILOVER wird aktiviert."
          $TYPE start $ID
          echo "FAILOVER $COMPANY: $ALIAS wurde auf backup gestartet." | mutt -s "FAILOVER $COMPANY $ALIAS läuft nun auf backup" -- $MAILTO
        fi
      else
        if [ $FAILOVER == 1 ]; then
          echo "MASTER $ALIAS wieder aktiv FAILOVER wird deaktiviert."
          $TYPE shutdown $ID
          echo "FAILOVER $COMPANY beendet: MASTER $ALIAS wieder aktiv." | mutt -s "RECOVER $COMPANY: $ALIAS läuft wieder auf PVE1" -- $MAILTO
        fi
      fi
    done
  else
    echo "<$LINKEDBY> ist offline und deshalb halten wir uns aus jeder Schießerei heraus."
  fi
done

TErxleben · Nov 14, 2025

Noch minimalen Feinschliff ($hostname und Meldung) hinterher:

Code:

#!/bin/bash

# FAILOVER für virtuelle Proxmox-Maschinen.
# Vorraussetzung ist ein konfigurierter Postfix, um Benachrichtgungen mit mutt zu versenden.
# sshpass braucht man, falls man ohne public key authentication arbeiten möchte.
# Letzteres ist in lokalen Netzen m.E. durchaus vertretbar.
# Installierte qemu-guest agents auf den zu behandelnden Gästen zählen auch nicht rückwärts.
# qm list, dursucht grep in der Ausgabe nach [VM-NAME][ ][running] erfolgreich.
# pct list, jedoch nach [VM-ID][ ][running]. Schonmal saublöde!
# Dabei unterscheiden sich Ergebnisse zusätzlich zwischen Remote-SSH und manuellem Aufruf. Noch nerviger.
# Remote-SSH dampft Ausgaben auf Einzeiler mit Einzel-Leerzeichen ohne Zeilenumbrüche ein. Ganz hartes Knäcke.
# schreibt man versehentlich nicht "qm list && pct list" sondern nur qm list && pct list, werden sogar innhaltlich falsche Angaben geliefert. Vollkatastrophe!
# Hier ist das Eindampfen allerdings ganz praktisch und sogar besser auswertbar,
# Es muss nur der Abschnitt vor der Dauerschleife an eigene Bedürfnisse angepasst werden.

MAILTO="empfaenger@domain.de"
COMPANY="Wichtig LTD."
SLEEPTIME=30      # wir prüfen alle 30s.
LINKEDBY="bond0:" # Einzelschnittstelle, vmbr oder bond
MASTERPVE="192.168.xxx.xxx"
MASTERNAME="pveXYZ"
PW="supergeheim"
VERBOSE=0         # Wie geschwätzig wollen wir sein?

VMIDS=("107" "112" "200" "400")                              # zu überwachende Maschinen egal auf welchem Host
VMTYPES=("qm" "qm" "pct" "pct")                              # lieber einmal definieren, als kompliziert ermitteln
VMNAMES=("homeassistant" "ssh" "200" "400")                  # Trick 17: Der Mischmasch Name/ID ist den unterschiedlichen Ausgaben von pct und qm geschuldet.
VMALIAS=("homeassistant" "SSH-Proxy" "Guacamole" "PI-hole")  # Nachrichten sollen aber ordentlich und konsistent gemeldet werden.
VMCOUNT=${#VMIDS[@]}

while true; do
  sleep $SLEEPTIME

  LINKED=$(ip link show | grep $LINKEDBY | grep "state UP" | wc -l)      # Sind wir denn selbst im Netzwerk verfügbar?.

  if [ $LINKED == 1 ]; then

    RUNNINGMASTERS=$(sshpass -p $PW ssh root@$MASTERPVE "qm list && pct list") # alle laufende virtuellem Maschinen, merken.
    if [ $VERBOSE -gt 0 ]; then
      echo "Prüfe <$LINKEDBY> auf womöglich nötige FAILOVER."
    fi
    if [ $VERBOSE -gt 1 ]; then
      echo $RUNNINGMASTERS
    fi
    for ((i=0; i<$VMCOUNT; i++)); do
      ID=${VMIDS[i]}
      TYPE=${VMTYPES[i]}
      ALIAS=${VMALIAS[i]}
      NAME=${VMNAMES[i]}

      MASTER=$(echo $RUNNINGMASTERS | grep "$NAME running"| wc -l)
      FAILOVER=$($TYPE status $ID | grep running | wc -l)
      if [ $VERBOSE -gt 2 ]; then
        echo "ID="$ID
        echo "TYPE="$TYPE
        echo "ALIAS="$ALIAS
        echo "NAME="$NAME
 
        echo "MASTER="$MASTER
        echo "FAILOVER="$FAILOVER
      fi
      if [ $MASTER == 0 ]; then
        if [ $FAILOVER == 0 ]; then
          echo "$ALIAS ist ausgefallen FAILOVER wird aktiviert."
          $TYPE start $ID
          echo "FAILOVER $COMPANY: $ALIAS wurde auf $HOSTNAME gestartet." | mutt -s "FAILOVER $COMPANY $ALIAS läuft nun auf $HOSTNAME" -- $MAILTO
        fi
      else
        if [ $FAILOVER == 1 ]; then
          echo "MASTER $ALIAS wieder aktiv FAILOVER wird deaktiviert."
          $TYPE shutdown $ID
          echo "FAILOVER $COMPANY beendet: MASTER $ALIAS wieder aktiv." | mutt -s "RECOVER $COMPANY: $ALIAS läuft wieder auf $MASTERNAME" -- $MAILTO
        fi
      fi
    done
  else
   echo "Wir sind offline und damit nutzlos."
  fi

Johannes S · Nov 14, 2025

TErxleben said:
sshpass braucht man, falls man ohne public key authentication arbeiten möchte. # Letzteres ist in lokalen Netzen m.E. durchaus vertretbar.

Das würde ich nun nicht unterschreiben, die Gründe hat zum Glück mal jemand verbloggt, sodass ich darauf nur verlinken muss: https://blog.koehntopp.info/2023/09/15/sshpass.html

Was ist denn das Problem daran mit ssh-keys zu arbeiten? Die muss man ja nur einmal einrichten

TErxleben · Nov 14, 2025

Folgende Gründe sprechen m.E. dagegen:
- wie kommt man denn überhaupt an einen private-key?
- willst du die keys auf diversen Clients "verwalten"?
- es ist wahrscheinlicher, dass dir selbiger von der Platte unbemerkt "geklaut" wird, als das deine Tastatureingaben per mitm abgegriffen werden.
- in meiner Welt kommen ssh-keys kurz hinter "Virenwächtern".
- Wenn ich in Scripten Klartext-Kennwörter verwende, die jemand abgreifen kann, dann habe ich schon lange vorher verloren und mein key ist zusätzlich längst weg.
- wenn Sicherheit, dann 2FA. Das richtet man eben genau einmal ein und muss eben zwingend ein zweites PW eingeben.

Johannes S · Nov 14, 2025

TErxleben said:
- wie kommt man denn überhaupt an einen private-key?

Indem ich den erzeuge und dann den public key über eine Automatisierung (per Skript oder ansible, ist am Ende wurst) ausrolle. Es gibt auch passwort-manager, die dann als Agent dafür fungieren können.

TErxleben said:
- willst du die keys auf diversen Clients "verwalten"?

Passwort-Manager mit ssh-agent Funktion tun dafür nach meiner Erfahrung ganz gut.

TErxleben said:
- es ist wahrscheinlicher, dass dir selbiger von der Platte unbemerkt "geklaut" wird, als das deine Tastatureingaben per mitm abgegriffen werden.

Man kann auch bei ssh-keys Passphrasen vergeben, mit einen ssh-agent muss man die dann auch nur einmal pro Session eintippen.

TErxleben said:
- in meiner Welt kommen ssh-keys kurz hinter "Virenwächtern".

LOL. Anders als Antiviren-Schlangenöl ( siehe: https://www.golem.de/news/antivirensoftware-die-schlangenoel-branche-1612-125148.html ) haben die schon mal den klaren Vorteil, dass der private Key eben im Regelfall nur im Client vorhanden sind und aufgrund der verwendeten Algorithmen auch nicht so einfach über brute-force oder Wörterbuchattacken angegriffen werden können. Szenarien wie ein mitgeschnittenes Passwort (etwa über einen keylogger) kann damit auch nicht passieren.

TErxleben said:
- Wenn ich in Scripten Klartext-Kennwörter verwende, die jemand abgreifen kann, dann habe ich schon lange vorher verloren und mein key ist zusätzlich längst weg.

Das ist nun wirklich blödsinn, sorry. Es ist deutlich einfacher "aus Versehen" seine Passwörter irgendwo (weil das ja so schön bequem ist) in eine Konfigdatei reinzuschreiben, statt den (im Regelfall ja in einen eigenen Verzeichnis befindlichen) ssh-Schlüssel aus Versehen hochzuladen.

TErxleben said:
- wenn Sicherheit, dann 2FA. Das richtet man eben genau einmal ein und muss eben zwingend ein zweites PW eingeben.

Und genau das kann man eben auch mit ssh-keys kombinieren.

Ich sehe ja das Argument ein, dass deren Deployment bei einer größeren Zahl Sever und häufig wechselnder User unhandlich und nervig wird. Das wird mit Passwörtern (die man dazu ja auch auf jeden Server pflegen muss oder halt eine Authentifizierungs-Instanz wie AD/LDAP/Keycloak ins Boot holen->Höhere Komplexität) aber nicht besser. Wenn man die Größenordnung erreicht hat, sind dann eher automatisch ablaufende ssh-Zertifikate das Mittel der Wahl siehe https://smallstep.com/blog/use-ssh-certificates/

Aber soweit muss man erstmal kommen, das sehe ich im Homelab jetzt nicht so wirklich.

UdoB · Nov 14, 2025

TErxleben said:
- in meiner Welt kommen ssh-keys kurz hinter "Virenwächtern".

*Autsch!*

Ich habe (beruflich, nicht im Homelab - aber ich muss einfach antworten...) gerade etwas umstrukturiert, "normale" ssh-keys verwende ich seit vielen, vielen, vielen Jahren.

Meine jetzigen ssh-keys sind nur dann greifbar, wenn ein Yubikey/Nitrokey die wertlose "Secret-Key"-Datei, die ganz normal im Dateisystem (von zwei redundaten Rechnern) liegt, aktiv entschlüsselt. Ich füttere damit einen ssh-agent. Verwenden kann ich den Key aber nur in der Sekunde, in der ich aktiv die momentane "Presence" des Nitrokeys bestätige. Den Agenten kann ich durch einen ssh-tunnel weitergeben und komme dann von dem Jumphost an einige Dutzend Systeme, die ich mit minimalen Aufwand meinerseits ("Presence"-Taste betätigen) sicher administrieren kann.

Passwort-Authentifizierung ist auf den Zielkisten nicht nur für root, sondern für alle Nutzer komplett deaktiviert.

Um das Szenario abzurunden: ich sitze dabei vor einem möglichst sicheren System, meist Qubes-OS.

Man kann sicher von dem Beschriebenen abweichen (Homelab...) und Kompromisse eingehen, aber ssh-KEYS bilden in meiner Welt die Grundlage.

Benachrichtigung bei VM-Ausfall

Renowned Member

Distinguished Member

Renowned Member

Member

Renowned Member

Renowned Member

Renowned Member

Renowned Member

Renowned Member

Renowned Member

Renowned Member

Renowned Member

Renowned Member

Renowned Member

Renowned Member

Renowned Member

Distinguished Member

Renowned Member

Distinguished Member

Distinguished Member

We value your privacy