PVE8: SMB/CIFS load bringt Proxmox zum crashen

nan0

Active Member
Jul 26, 2018
10
0
41
Vienna
Hey,

ich habe am Samstag (05.08.) das Upgrade von PVE7 auf PVE8 gemacht und dabei keine Probleme feststellen können.
Heute früh (09.08. gegen 1 Uhr) ist mein Proxmox inkl. aller VMs einfach eingefroren, kein Ping, kein SSH, kein Input über IPMI möglich.

Über IPMI aus/ein gemacht und lief wieder.
Logs sagten nichts außer das dass Backup (Läuft täglich um 00:45) lief.

Jetzt habe ich heute einiges probiert und kann reproduzierbar Proxmox zum crashen bringen indem ich den Backup-Job ausführe.

Infos zum System:
Proxmox-Version: pve-manager/8.0.4/d258a813cfa6b390 (running kernel: 6.2.16-6-pve)
CPU: 8 x Intel(R) Xeon(R) CPU E3-1245 v6 @ 3.70GHz (1 Socket)
RAM: 64 GB DDR4 (ECC)
Kein Cluster, 10 VMs, Backup von ZFS NVMe über SMB auf ein NAS, Backupjob in der WebUI angelegt

Screenshot vom Backup Job:
1691578362673.png


Hat jemand Ideen woran das liegen kann?
Bin für jede Hilfe dankbar :)
 

Attachments

  • task-voyager-vzdump.log
    3.4 KB · Views: 5
  • kernel.log
    3.9 KB · Views: 4
Guten Abend,
was bedeutet Backup von ZFS NVMe über SMB auf ein NAS?
Naja, eventuell liegt es an der smb Version. Versuch doch mal eine VM auf local zu sichern. Ist aber nur eine Vermutung.

liebe grüsse
 
Hey,

das bedeutet nur dass mein ZFS auf 2 NVMe M.2 SSDs läuft und auf ein SMB gesichert wird.
Das funktioniert auch so seit Jahren.

Lokal kann ich nicht sicher da ich dazu nicht genügend Platz habe.
Generell fände ich es auch wierd wenn ein Fehler mit dem SMB Share dazu führen würde das der ganze Server kommentarlos crashed.

Werde schauen ob ich eine externe HDD finde und auf die mal eine Sicherung testen kann.
 
wierd oder nicht. Jetzt musst Du erstmal ausschließen...

Denn irgendwas klappt ja nicht. Und das muss gefunden werden. Wenn Du gleich alles ausschließt... ?
 
Sorry so sollte es nicht wirken.

Einzelne VMs lokal oder aufs NAS sichern klappt problemlos.
Alles lokal sichern kann ich erst am Wochenende wenn ich eine externe HDD angeschlossen habe.

Ich werde auch mal einen allgemeinen Benchmark CPU/IO/RAM laufen lassen, denn ich bin mir nicht mehr 100% sicher ob es wirklich am Backup liegt oder an der dadurch erzeugten load.
Zusätzlich werde ich das ganze dann auch mal in einem älteren Kernel testen um es irgendwie weiter einzugrenzen.

Etwas frustrierend das dass Log keine wirklichen Infos oder Hinweise bietet.

Sollte hier jemand zwischenzeitlich noch andere/weiter Ideen haben, würde ich mich freuen.


Beste Grüße,
nan0
 
Hallo, du kannst ja auch zfs snapshots machen, dann diese per zfs send auf das nas kopieren. ich nutze dazu das zfsnap

Code:
list=$(zfs list -t snap)

#space=$(zfs list -o space -r usb/usbplatte/subvol-100-disk-0)
#HOST=$(hostname|cut -f1 -d.)


# Snapshot der VM die ersten 5 Tage

# -s
# -S sobald ein Scrup läuft, werden keine Snapshots durchgefuehrt
# -z Sekunden im Schnappschussnamen auf 00 abrunden
# -a -a TTL - Standard-TTL ändern
# -5d löscht Snapshots, die älter als 5 tage
# -R Verwenden Sie keine rekursiven Operationen für Momentaufnahmen auf allen ZFS-Dateisystemen, die dieser Option folgen.
#!/bin/sh


# Auflisten der Grösse vom Snapshot
# zpool set listsnapshots=on datenproxmox
# zfs list -o space -r usb/usbplatte/subvol-100-disk-0

echo > /root/typo3doku.log

date +'%c|Backup started' >> /root/typo3doku.log

/usr/sbin/pct shutdown 101
sleep 10

#------------------------- Script geht!

/usr/sbin/zfSnap -a 3d ssdsamsung/typo3doku/subvol-101-disk-0
/usr/sbin/zfSnap -d

#/usr/sbin/zfSnap -a usb/usbplatte/subvol-100-disk-0


#-a 5d -> Es werden maximal 5 Tage lang die Snapshots gespeichert (Dient quasi als Hinweis für den „d„-Parameter)
#-d -> Löscht alle Snapshots, die älter als die Zahl am Ende des Names eines Snapshot ist.

https://www.zfsnap.org/

liebe grüsse
 
Hallo,

ich habe gestern lokale Backups mit einer externen HDD getestet.
Mehrmals alle VMs gesichert, ging problemlos.

Dann wieder über bzw. auf das SMB-Share und Proxmox war wieder gecrashed.

Nun habe ich heute zum test einfach mal nur Files vom SMB-Share über das Netzwerk auf die externe HDD kopiert und nach wenigen Minuten ist Proxmox wieder gecrashed.
Im Log gab es diesmal auch ein paar kernel - CIFS Meldungen (Siehe Anhang)


Daher denke ich, dass es einen Bug im Kernel / CIFS gibt der dafür sorgt das der gesamte Server einfach crashed.
Ich habe gefunden das es ein Debugging in CIFS gibt, diese werde ich jetzt aktivieren und den test wiederholen.

// EDIT: Mit dem CIFS debugging kommt auch nicht mehr logging zustande.
Scheint also ein Bug im 6.2 Kernel zu sein :/


Sollte zwischenzeitlich jemand Ideen/Lösungen für diese Problem haben, wäre ich sehr dankbar.

Beste Grüße,
nan0
 

Attachments

  • syslog.txt
    648 bytes · Views: 6
Last edited:
supper, vielen dank für die Info. Ich persönlich halte von Upgrades von Servern nicht viel. Allerdings geht dieses teilweise auch nicht anders.
Jetzt wäre die Frage, wenn du einen neuen 8x aufgesetzt hättest, wäre es dann gegangen?

jedenfalls, danke für die Rückmeldung.

schönes wochenende
 
Ich dachte ich könnte das Problem temporär umgehen indem ich das NAS statt SMB mit NFS einbinde.
Leider crashed es auch dann. Also habe ich die VM Backups aktuell deaktiviert da ich eh noch Datenbackups der VMs habe, alles ansible-managed ist und es sich hier um den Homeserver handelt.

Ich werde ein fresh-install versuche sobald ich die Zeit dazu habe.

Generell etwas frustrierend da ich auch einige Proxmox bei Kunden stehen habe und diese dann auch alle neuinstallieren muss/werde.
 
Hey, ich würde eine anderen Lösungsweg vorschlagen, naja, beim Kunden alles Neu Installieren? Bin auch gerade dabei, alles etwas zu ändern. Ich sichere meine Daten mit einem Bacula Server! Ich stelle jetzt alles auf ZFS Snapshots um ich bin beeindruckt.

Aber.... !! Dass musst du echt Üben! Wenn du dich damit auskennen möchtes!

#--------------------------------

Ich habe fast 1 jahr mir die beine ausgerissen, um bacula zu verstehen,
Ohne jetzt Werbung zu machen, dass ist wirklich für mich persönlich das "beste backup". Und du hast keine Probleme mit Updates.

Naja, es wird immer eine neuere Version von Proxmox oder NAS geben. Und mal Ehrlich! Wer bezahlt das ganze?

Du kannst mit zfs Snapshot alles machen, und per mount darauf zugreifen.

Aber du musst das ganze durchspielen!

Wenn du das einmal verstanden hast, dann klappt das ganze!

danke für deine Rückmeldung!
 
Hey,

es gibt Application Backups (bei mir und den Kunden) also ob ich die VM sichere oder nicht macht (fast) keinen unterschied.
Die VM Backups mache ich nur weil ich gerne ein Backup zu viel als zu wenig habe.
Auf ZFS Snapshots kann ich nicht umstellen da mir dazu überall das Target fehlt. SMB/NFS Target in vorm eines NAS oder sonnst was gibt es halt eher.

Zumal das alles (also Backup auf ein SMB-Share) seit 2017 problemlos ging.

Ich werde bei mir probieren ob ein "clean" pve8 das Problem auch hat, falls ja werde ich wohl einen neueren Kernel abwarten und da weil auf pve7 blieben.


Beste Grüße,
nan0
 
Hallo, ich habe genau das gleiche Problem mit der Sicherung unter Proxmox 8. Nach dem Upgrade von 7 auf 8 hängt der komplette Server bei der Sicherung und auch über das IPMI ist keine Eingabe mehr möglich (SuperMicro Server).

Jetzt habe ich das Proxmox einfach neu installiert und die Platte mit den VMs wieder gemountet und die Config von den VMs retour gespielt - gleiches Szenario. Sicherung beginnt und bleibt bei 0 % stehen und der Server steht! Strom weg und die Kiste startet wieder und lauft absolut stabil. Sicherung auf eine HD die ich intern eingebaut habe ist kein Problem. Auf die NAS (NFS Freigabe) keine Chance!

Vielleicht fallt ja jemanden was ein dazu!

Liebe Grüße
KS
 
Bei NFS fällt mir immer als erstes, Berechtigungen auf dem Ziel ein.
Aber ich bin eh ein Freund vom PBS, statt NFS.
 
Bei NFS fällt mir immer als erstes, Berechtigungen auf dem Ziel ein.
Aber ich bin eh ein Freund vom PBS, statt NFS.
Nein, ist leider ein Netzwerkproblem. Gleiches Szenario wenn man mit scp die Sicherung wegkopiert oder die NAS Daten abholt (Synolgy über Active Backup). Muss irgendwie mit dem neuen Kernel und dem Netzwerk zusammenhängen. Bin leider noch am suchen!
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!