PVE ausgefallen beim PBS Backup, danach Bootprobleme

Dec 18, 2025
7
2
3
Hi,

ich bin mit meinem Latein am Ende, habe hier viel im Forum geschaut aber nicht das Passende gefunden und hoffe ihr könnt mir einen Denkanstoß geben.

Ausgangssituation:
1. Server mit Xeon CPU, 128 GB Ram, Megaraid 9560-8I Controller mit 4 x 960 GB SSDs, 3 zu einem Raid 5 Verbund, das Vierte ist ein Hot-Spare Laufwerk.
2. Alter Dell Server, nichts Besonderes, 4 Jahre alt, irgendein PERC Controller, SSD's usw. Der fungiert als Notfallsystem und zum Testen
3. QNAP NAS mit 4 normalen Platten RAID 5

Folgendes ist passiert, ich bin noch recht neu bei Proxmox, bin aber super zufrieden.
Am Dienstag wollte ich mal den Proxmox Backup Server testen, war neugierig. Den installierte ich einer VM auf dem QNAP NAS und habe dort auch mehrere Backups gemacht. Lief eigentlich ganz passabel.
Dann auf einmal ging es los. Es startete ein neues Backup und das ließ wohl meinen 1. Server auf dem auch eine Windows VM lief abschmieren. Danach bootete Proxmox nicht mehr und blieb auf dem Bootscreen bei Initram stehen.
Habe mehrere Stunden mit Hilfe von Chatgpt verschiedenen Sachen ausprobiert, Debian Live CD usw aber ich habe es nicht wieder zum Laufen bekommen.

Egal, Proxmox neu installiert, Backup zurückgespielt und alles lief.

Aber, Proxmox bootet jetzt extrem lange, es dauert mitunter 5 Minuten bis ich zum root Login komme. Es erscheint die initram Meldung, dann passiert über mehrere Minuten nichts, dann irgendwann kommt die Meldung des gefundenen LVMs und zack ist Proxmox da.

Bei meinem alten Dell Server geht das Booten extrem schnell, 20 Sekunden oder so und Proxmox ist hochgefahren.

Mein Problem ist, ich weiß nicht ob das normal ist. Als ich vor 2 Wochen das erste Mal Promox auf dem Hauptserver installiert habe, habe ich nicht darauf geachtet wie lange der zum Booten braucht.
Meine Sorge ist aber das vielleicht irgendwas an dem Raid System nicht in Ordnung ist. Also habe ich gestern einen neuen Anlauf gemacht, bin ins Bios gegangen, habe das Raid Array gelöscht, neu angelegt und initialisiert und anschließend erneut Proxmox installiert.

Ergebnis, braucht genauso lange zum Booten. Ich bin mit meinem Latein ehrlich gesagt am Ende, ich habe hier mal das Boot Journal beigefügt, aber ich selber kann da nichts finden. Alle Einträge werden in 2 - 5 Sekunden abgearbeitet, ich sehe dort nur

Code:
Dec 17 23:12:33 pve01 systemd[1]: Reached target graphical.target - Graphical Interface.
Dec 17 23:12:33 pve01 systemd[1]: Startup finished in 2min 18.483s (firmware) + 5min 11.384s (loader) + 2.112s (kernel) + 5.495s (userspace) = 7min 37.476s.
Dec 17 23:12:35 pve01 chronyd[866]: Selected source 85.215.229.230 (2.debian.pool.ntp.org)


das wie gesamte Bootzeit wohl 7 Minuten betragen hat, das meiste geh für den Loader drauf, aber warum und weshalb, das kann ich irgendwie nicht finden.

Hat jemand eine Idee wo ich ansetzen kann? Wenn Proxmox hochgefahren ist läuft alles absolut sauber, trotzdem würde ich gerne den Grund wissen.
 

Attachments

Ja, habe das mit chatgpt versucht, dazu Debian Live CD, dann mounten usw.

Im Nachgang glaube ich aber das ich einen großen fehler gemacht habe. Ich denke bei den Rettungsversuchen habe ich nicht lange genug gewartet. Beim Dell Server, da war ich damals bei der Installation und dem folgenden Booten komplett dabei und habe gesehen wie schnell Proxmox bootet.

Und nachdem ich nun bei dem Hauptrechner sehe dass es anscheinend 7 Minuten dauert bis zum Login, ich denke ich habe bei den REttungsversuchen nie solange gewartet. Immer nur 2 -3 Minuten und dachte dann immer "Klappt nicht, nächsten Anlauf".

Das macht es für mich auch so schwierig einzuschätzen ob das alles normal ist
 
Das Phänomen habe ich auch schon paarmal gesehen. Die Ursache habe ich nicht gefunden, aber da man eh nicht so oft neu startet, ignoriere ich das.
Ich habe das bisher nur bei Servern gehabt, wo schon einmal PVE installiert war. Eventuell sind da irgendwo auf einer Disk noch Infos und dann wartet er auf einen Timeout.
Wenn du Lust hast das im Detail zu untersuchen, dann teile gern deine Ergebnisse mit uns oder sonst ignoriere es einfach, da er nach dem Timeout immer sauber bootet.
 
Die Frage ist ja, wie kann ich das im Detail untersuchen? Gibt es noch andere Logs die ich erstellen kann?

Ich habe aktuell noch eine andere Idee, da wollte ich am Wochenende mal fummeln.

Auf das Board eine M2 SSD einbauen, darauf neu installieren und schauen ob es schneller geht. Wenn das der Fall ist, scheint es was mit dem Raid Controller zu tun zu haben. Und dann weiter experimentieren.

Meine Sorge ist halt, wenn es da beim Booten Probleme mit dem Raidcontroller geben sollte, dann mache ich mir natürlich Gedanken über die Datenintegrität.
 
Ich würde behaupten, TRIM läuft?

Code:
root@pve01:~# lsblk --discard
NAME                         DISC-ALN DISC-GRAN DISC-MAX DISC-ZERO
sda                                 0        0B       0B         0
├─sda1                              0        0B       0B         0
├─sda2                              0        0B       0B         0
└─sda3                              0        0B       0B         0
  ├─pve-swap                        0        0B       0B         0
  ├─pve-root                        0        0B       0B         0
  ├─pve-data_tmeta                  0        0B       0B         0
  │ └─pve-data-tpool                0        0B       0B         0
  │   ├─pve-data                    0        0B       0B         0
  │   ├─pve-vm--100--disk--1        0      256K     256M         0
  │   ├─pve-vm--100--disk--2        0      256K     256M         0
  │   ├─pve-vm--100--disk--0        0      256K     256M         0
  │   └─pve-vm--100--disk--3        0      256K     256M         0
  └─pve-data_tdata                  0        0B       0B         0
    └─pve-data-tpool                0        0B       0B         0
      ├─pve-data                    0        0B       0B         0
      ├─pve-vm--100--disk--1        0      256K     256M         0
      ├─pve-vm--100--disk--2        0      256K     256M         0
      ├─pve-vm--100--disk--0        0      256K     256M         0
      └─pve-vm--100--disk--3        0      256K     256M         0
sdb                                 0        0B       0B         0
root@pve01:~# mount | grep discard
root@pve01:~# findmnt -o TARGET,OPTIONS /
TARGET OPTIONS
/      rw,relatime,errors=remount-ro,stripe=128
root@pve01:~# systemctl status fstrim.timer
● fstrim.timer - Discard unused filesystem blocks once a week
     Loaded: loaded (/usr/lib/systemd/system/fstrim.timer; enabled; preset: ena>
     Active: active (waiting) since Wed 2025-12-17 23:12:29 CET; 14h ago
 Invocation: 4e41d0f042a1478ebb7d919614be55f2
    Trigger: Mon 2025-12-22 00:41:15 CET; 3 days left
   Triggers: ● fstrim.service
       Docs: man:fstrim

Dec 17 23:12:29 pve01 systemd[1]: Started fstrim.timer - Discard unused filesys>
lines 1-9/9 (END)

Ich habe 4 x

960GB Kingston DC600M 2.5" (6.4cm) SATA 6Gb/s 3D-NAND TLC (SEDC600M/960G)​

https://www.mindfactory.de/product_...ATA-6Gb-s-3D-NAND-TLC--SEDC600M-_1492009.html
verbaut
 
  • Like
Reactions: news
So, kurzes Update, ich habe mein System geändert. Habe mich gestern in die Vorzüge von ZFS eingelesen usw. Heute auf dem Mainboard 2 m2 NVMEs installiert auf denen nur Proxmox Os läuft als ZFS Mirror. Dann RAID Controller entfernt, die 4 SSDs direkt angeschlossen und ein ZFS Raid10 angelegt. System läuft richtig super, bootet ruckzuck, wird also der Raidcontroller gewesen sein.
Aber dieses Setup gefällt mir besser weil ich so viel besser den Zustand der Hardware sehen kann.
 
  • Like
Reactions: news
Schau dir bitte auch mal die zfs auto-snapshot an.
Paket
Code:
apt list zfs-auto-snapshot
Wenn es automatisiert zfs auto-snapshot geben soll, dann ist das Paket ein guter Start.

Man setze dann bei allen Pools an der Wurzel:
Code:
zfs set com.sun:auto-snapshot=false rpool

Wenn man dann für die Datasets das wie der einschalten möchte:
Code:
zfs set com.sun:auto-snapshot=true rpool/<dataset>

Unter
Code:
ls -1r /etc/cron.*/zfs-auto-snapshot
#/etc/cron.d/zfs-auto-snapshot # alle 15 Minuten
#/etc/cron.hourly/zfs-auto-snapshot # alle 60 Minuten
#/etc/cron.daily/zfs-auto-snapshot # alle Tage
#/etc/cron.weekly/zfs-auto-snapshot
#/etc/cron.monthly/zfs-auto-snapshot
Editiert man dann seine Aufbewarungszeiten.

Man kann nicht =0 setzen, dann läuft das Script nicht.
Man muss die Ausführung unterbinden:
Code:
#exec zfs-auto-snapshot --quiet --syslog --label=...

Zur Überprüfung und mehr installiere man sich noch "checkzfs":
Code:
checkzfs --sourceonly
# https://github.com/bashclub/check-zfs-replication/tree/main
 
Last edited: