Nach pve9 upgrade Hängt Rechner im BIOS - desaster recovery?

Oct 27, 2022
118
15
23
Also ich habe ca. 10 Rechner heute pve8 auf pve9 gehoben - ging bis auf den letzten, ja so ist das manchmal :( alles gut - dachte ich.
Problem er findet beim boot die boot disc nicht. Gab keine Fehler beim upgrade test (pve8to9) und sonst auch noch nie Probleme gehabt mit dem Rechner.

Er versucht wohl zu booten, aber der bootscreen ist in einer zehntel wieder weg und er start das BIOS neu. Gibt es irgendwo ein tutorial was ich evtl. mit der install USB stick etc. machen kann um das zu reparieren. Frisch installieren eher ungern, da ich einige PCI devices und disk neu mappen müsste. Hab mir meinen wichtigsten Rechner nat. für zuletzt am Abend aufgehoben, möchte auch nicht ausschließen, dass ich irgendwo im tran zu schnell config vom paket nehmen geklickt habe (grub?). Mich bisher leider nie mit grub und co auseinander gesetzt.

Backup der config habe ich aber kein komplettes image vom Rechner. Also evtl. doch besser gleich von scratch installieren? sind die pci device mappings etc. in den config /etc/pve...? mit drin? Vermutlich in den nodes, aber passt ("pci ids") das nach neuaufsetzen noch?

  1. server aus dem cluster nehmen
  2. neu installieren
    server wieder in den Cluster.
  3. config restore (ich hoffe mal die aus pve8 kann man noch verwenden)
  • /etc/network/interfaces
  • /etc/pve/nodes/*
  • /etc/network/interfaces
  • /etc/hosts
  • /etc/hostname
  • /etc/pve/corosync.conf
  • /etc/pve/storage.cfg (falls abweichende lokale Storage-Definitionen)
So in etwa oder?

Muss mich wohl notgedrungen jetzt mal mit desaster recovery beschäftigen. Ja ich weiss macht man vorher

Das bild ist nicht vom betroffenen Rechner, aber der ist ähnlich aufgebaut. MB ist ein Supermicro.
1754507990106.png
 
Last edited:
OK hab mal angefangen steps - in bold die steps bei denen ich struggle:
  1. node aus dem cluster austragen
  2. installieren
  3. /etc/network/interfaces anpassen DNS anpassen hosts anpassen - reboot
  4. an der GUI eines vorhandenen clusterknoten in den cluster einfügen -> node configs etc. werden übernommen
  5. /etc/fstab anpassen hmm was ist eigentlich mit einem storage Directory - die finde ich nie in fstab - musste ich jetzt aber mit UUID eintragen damit die disk gefunden wird. Sollte man das auf anderen Rechnern nachholen?
  6. Ceph installieren reboot?
  7. Alte OSD aus dem ceph cluster entfernen und wieder hinzufügen - werden mit replikas etc. neu verteilt sind
    1. Alle VMs die vorher eingerichtet waren laufen an :) auch die PCI mapping der nics und disk paththrough funktionieren
  8. Hmm auf dem Rechner lief vorher ein monitor - der lässt sich an der GUI nicht entfernen :(
  9. da stehe ich gerade - muss mal zur Arbeit - geht heute abend weiter - sieht aber schon gut aus
root@pve-hv-01:~# ceph mon remove <server>
mon.<server> does not exist or has already been removed, auch /var/lib/ceph/mon ist leer
und wenn ich an der GUI hinzufügen will sagt er "monitor adress already in use", na was denn nun? ;(
in ceph mon dump taucht er auch nicht auf. Na gut unkritsch nehme ich erstmal einen anderen Knoten.

das war auf jeden Fall schneller als grub reparieren zu wollen etc. und habe eine frische pve9 instanz ohne datenmüll - muss man auch mal positiv sehen
 
Last edited:
Also das neu installieren war auf jeden Fall ein gangbarer weg.

  1. Die Fragen wie ein directory storage eigentlich gemounted wird (ist ja per default ohne fstab eintrag) ist noch offen. Wie funktioniert das?
Gibt es schon einen Thread wo die wichtigsten Dateien zu einem Backup und Recovery von PVE gesammelt werden - backup script?

Hier mal meine Version
Code:
#!/bin/bash

# === Konfiguration ===
HOSTNAME=$(hostname)
BACKUP_NAME="pve-config-${HOSTNAME}"
TMPDIR="/tmp/pve-config-backup"

export PBS_REPOSITORY=
export PBS_PASSWORD=
export PBS_FINGERPRINT=

# === Cleanup und Vorbereitung ===
rm -rf "$TMPDIR"
mkdir -p "$TMPDIR"

echo "[INFO] Sammle Konfigurationsdaten..."

# /etc/pve (Cluster-Dateisystem, nur auf aktivem Node zugänglich)
tar -czf "$TMPDIR/etc-pve.tar.gz" /etc/pve

# Netzwerkeinstellungen
cp /etc/network/interfaces "$TMPDIR/interfaces"
cp /etc/hosts "$TMPDIR/hosts"
cp /etc/hostname "$TMPDIR/hostname"
cp /etc/resolv.conf "$TMPDIR/resolv.conf"

# SSH Schlüssel
if [ -d /root/.ssh ]; then
  tar -czf "$TMPDIR/root-ssh.tar.gz" /root/.ssh
fi

# Storage/Fstab
cp /etc/fstab "$TMPDIR/fstab"

# APT Quellen
tar -czf "$TMPDIR/apt.tar.gz" /etc/apt

# Optional: iSCSI & Multipath falls vorhanden
[ -d /etc/iscsi ] && tar -czf "$TMPDIR/iscsi.tar.gz" /etc/iscsi
[ -d /etc/multipath ] && tar -czf "$TMPDIR/multipath.tar.gz" /etc/multipath

# === PBS Backup ===
echo "[INFO] Starte Backup mit PBS-Client..."
proxmox-backup-client backup \
  pve-config.pxar:$TMPDIR \
  --backup-type host \
  --backup-id "$BACKUP_NAME" \
  --ns PVEHosts

# === Aufräumen ===
rm -rf "$TMPDIR"

echo "[INFO] Backup abgeschlossen für $BACKUP_NAME"
exit 0
 
Guten Abend, ich hätte mal an Hardwareausfall gedacht. BIOS Batterie, BIOS Update, Netzteil Defekt, CPU WLP getauscht, Lüfter alle da und laufen.
 
Da ich mir auch fast identisch ins Knie geschossen habe, hier mal meine 2ct:
  • Zwei andere Hosts (unterschiedliche HW) mit 8.4.0 initialisiert und Uprade auf 9.0.3 durchgeführt.
  • Lief bei beiden reibungslos.
  • Auf einer dieser Kisten alles aus dem Backup restauriert. Lief auch.
  • Dann musste ich feststellen, dass mir Scripte aus dem /root/-Verzeichnis des platten Servers fehlten.
  • Den ewigen Quell der Freude 2h+ genossen, die nicht mehr bootbare (LVM)Platte in einen der neuen Hosts einzubinden.
  • Macht man ja nicht täglich, gehört aber grundsätzlich in die Kategorie PITA.
  • Konnte glücklicherweise auch alles benötigte runterziehen.
  • Dann stellte ich fest, das die Ziel-NVMe-"Platten" bei der Installation jeweils in der falschen Maschine steckten.
  • Kein Problem, einfach umstöpseln und beide Hosts neu booten.
  • Dachte ich.
  • Nach Tausch der Platte quakte der Host ihm würde irgendwas in der vmbr0 nicht schmecken/fehlen.
  • Netzwerkanbindung also platt.
  • Zurückgetauscht und läuft wieder.
Letzteres habe ich in 35J Linux noch nicht erlebt.
Da sehe ich noch erhebliches Verbesserungspotential.
 
Last edited:
Was mir die Sache deutlich erleichtert hat - alle meine Server sind sehr ähnlich konfiguriert. Gleiche Netze, gleiches Bootsetup, so gut wie alles was VMs angeht auf CEPH. Bei HW Ausfall wäre eigentlich nur die Interfaces, local via FSTAB directory mounten (sofern vorhanden) und das PCI paththrough (sofern vorhanden) anzupassen gewesen. Zum Glück war das neu PCI mapping bei mir nicht nötig. Nachdem Ceph wieder online war liefen die VMs schon wieder. Die ganze Aktion war eigentlich in 30min erledigt (nachdem ich mir ein paar Stunden den Kopf zermartert habe was wohl der beste weg ist um nicht noch mehr kaputt zu machen).

Ich kann nur sagen haltet die PVE Hosts so gleich und simpel wie möglich - keine Sonderschnitze oder extra SW drauf packen die nicht nötig ist.

Heute morgen weitere 15 Rechner (in dem Fall alles HP Gen8 bis zu Gen10) aktualisiert - absolut ohne Problem. Wobei ich bei jedem reboot echt auf Kohlen saß, die Kisten brauchen ja teils ewig um durchs BIOS zu laufen.

wo gibt es nochmals den Knopf um den Thread als solved zu markieren?
 
Last edited:
Noch ein Nachschlag:
Bei der einen Kiste heißt das iface enp1s0 und bei der anderen enp2s0. Kann also nach Austausch nicht funktionieren.

Beide haben übrigens jeweils nur ein Interface.

Wer eine Idee der erratischen Namensvergabe hat, trete bitte vor.
 
In meiner Welt gehört CEPHfs auch strikt getrennt. Das ist eine Speicherlösung, die eine Vermischung mit Virtualisierungslösungen nicht verträgt.
Nennt mich oldaged.
 
in pve 9 gibt es
Code:
proxmox-network-interface-pinning --generate
muss man also nicht mehr manuell machen, nur verwenden wenn du das noch nicht gemacht hast
 
Verstehe ich nicht. Ich will doch eher:
proxmox-network-interface-floating --activate.

Warum, nennt die eine Kiste die Schnittstelle enp1s0 und die andere enp2s0?
 
In meiner Welt gehört CEPHfs auch strikt getrennt. Das ist eine Speicherlösung, die eine Vermischung mit Virtualisierungslösungen nicht verträgt.
Die Aussage verstehe ich nicht, einen default CEPH Cluster hat man in Proxmox PVE ja in sekunden aufgebaut (install, NVME einbinden, fertig).

Wenn die Hardware schnell genug ist (oder VM Ansprüche an IO niedrig) gibt es (für mich) nichts einfacheres um hier Redundanz & einfache VM Verschiebbarkeit zu bekommen. Da das Einrichten zumindest in einem einfachen setup so schnell und einfach geht - finde ich darf man es ruhig auf den pve hosts nutzen.
 
Last edited: