Speicher komplett voll, Dienste starten nicht mehr

SoJo_BCS · Friday at 11:29

Hallo zusammen,

ich stehe hier gerade vor einem kleinen Problem bei unserem Proxmox Server. Bei der Einrichtung wurde ein großes ZFS (insgesamt 15 HDDs á 10 TB) gespannt. Anfang der Woche ist eine Festplatte ausgefallen und wurde ausgetauscht, zu dem Zeitpunkt bestand allerdings schon kein Zugriff mehr auf den Server. Nach dem Austausch ist das Resilvering durchlaufen lassen, es besteht weiterhin kein Zugriff und es wird der komplette Speicher als voll angezeigt:

Snapshots sind keine vorhanden, die Speicherplatz belegen könnten. Logdateien sind auch alle schon gekürzt. Discard ist bei den VM-Disks leider nicht aktiviert.

Die Dienste starten aufgrund des nicht vorhandenen Speicherplatzes nicht, Zugriff über SSH besteht derzeit leider auch nicht, deswegen bin ich auf eine KVM vom Rechenzentrum angewiesen.
In meiner Verzweifelung habe ich auch schon in der /sys/module/zfs/parameters/spa_slop_shift den Wert von 5 auf 6 geändert, aber siehe Ausgabe oben. Der Screenshot entstand nach der Ausführung des Befehls (und einem Reboot weil zuerst keine Änderung ersichtlich war).

Habt ihr noch Tipps für mich, wie ich nun am besten vorgehen kann? Respektive, was braucht ihr noch für weitere Informationen um eventuell Tipps geben zu können?

Viele Dank im Voraus schonmal!

Impact · Friday at 12:04

Vielleicht kannst du ja hiermit etwas zum löschen finden.

Bash:

du -shc /* | sort -h
du -shc /bigdirectory/* | sort -h
du -shc /bigdirectory/.../* | sort -h

apt clean und apt autopurge kann auch helfen.
Du kannst den spa_slop_shift Wert auch etwas weiter erhöhen. Zum Thema discard siehe auch hier. Und um das zu vermeiden hier.

Ich würde mich noch für die Ausgabe hiervon interessieren

Bash:

df -hT
lsblk -o+FSTYPE,LABEL,MODEL
zfs list -ospace,reservation,refreservation,quota,refquota
zpool status -v

SoJo_BCS · Friday at 16:02

Mit su -shc ist leider nichts übrig, was ich tatsächlich noch löschen könnte.

Das einfügen von der Ausgabe der anderen Befehle als Code haut leider die komplette Formatierung durcheinander (ist aber der Tatsache geschuldet, dass ich gerade nicht direkt aus der Shell wegkopieren kann), deswegen doch die Screenshots.

df -hT:

lsblk -o+FSTYPE,LABEL,MODEL

zfs list -ospace,reservation,refreservation,quota,refquota

zpool status -v

Ich hatte vorhin auch schonmal den Scrub gestartet, das (repairing) ist allerdings erst zwischendurch irgendwann mal aufgetaucht.

Also... Läuft bei mir

Impact · Friday at 16:58

Mir fallen hier mehrere Möglichkeiten ein, mir gefallen sie aber alle irgendwie nicht so. Falls du Backups für deine VMs hast, kannst du eventuell ZVOLs löschen bzw. verkleinern, ZB. das von VM 100, und die nach dem discard/fstrim später wiederherstellen?

Bash:

# Beides destruktiv
zfs set volsize=1M rpool/data/vm-100-disk-0
zfs destroy zfs/vm-102-disk-0

TErxleben · Friday at 18:26

wirkt als sei deine root-Partition voll.
Mit einem beherzten ncdu -x / kannst du Speicherfresser sehr übersichtlich anzeigen.
Musst du wahrscheinlich mittels apt nachinstallieren.

P.S.: Dein root verfügt über satte 4GB. Wundert mich nicht, das es wie angezeigt voll ist.
P.P.S: Während der Installation eines PVE werden, sicherlich üppige, 100GB vorgeschlagen. Mit welchem Antrieb man die auf 4GB bei verfügbaren 120TB eindampft, erschließt sich mir nicht. Selbige rootpartition sollte man gerade mit ZFS vergrößern können, da kann ich aber leider nichts verlässliches beitragen. Volles root ist Kategorie: Houston wir haben ein Problem.

waltar · Friday at 19:05

0% (bzw. GB in df -h) frei in "/" und wie jeder zfs user weiß wird zum Löschen Platz gebraucht. Deswegen Notfallreservierung verringern und nicht vergrößern, um an den letzten freien Platz ranzukommen:
echo 2 > /sys/module/zfs/parameters/spa_slop_shift
Nach dem Löschen wieder auf 5 setzen.
vm-102-disk-3 mit 110TB ... wer macht denn sowas ? Ist Schuld an deinem Dilemma.

fba · Friday at 19:07

Falls die VM alle noch kein Discard für ihre Disks aktiviert haben, wäre dann die Gelegenheit das einzustellen und im jeweiligen OS sollte das natürlich auch aktiviert sein. Wenn die VM wirklich z. B. 110TB Daten speichern, wie VM 102, wirds allerdings schwierig.

fba · Friday at 19:19

waltar said:
echo 2 > /sys/module/zfs/parameters/spa_slop_shift

Ist die 2 ein Tippfehler? Das würde doch den reservierten Speicher auf 1/4 der Poolgröße erhöhen.

waltar · Friday at 19:27

fba said:
Ist die 2 ein Tippfehler? Das würde doch den reservierten Speicher auf 1/4 der Poolgröße erhöhen.

Was sagt denn die Doku zu dem Parameter ? Bin mir "eigentlich" ziemlich sicher, daß das so mal funktioniert hat, nachdem ich einen pool mal absichtlich zum Test vollgeschrieben habe und so damit dann wieder zum Leben bekommen habe ...

fba · Friday at 20:00

Die Doku sagt, das die bis jetzt im Thread empfohlenen Werte alle zu klein sind ;-)
11 könnte was helfen von den aktuell reservierten 128GiB mal was freizugeben, s. https://openzfs.github.io/openzfs-docs/Performance and Tuning/Module Parameters.html#spa-slop-shift

waltar · Friday at 20:10

Statt Doku lesen hilft auch einfach probieren. Im derzeitegen Status geht nix, SoJo_BCS hat spa_slop_shift auch schon von 5 auf 6 geändert und wenn er so nicht löschen kann, auf 2 setzen und sehen ob es dann geht. Warum lange denken, geht eh nix mehr dran kaputt als es schon ist ?!
Laut link "Normally, the last 3.2% (1/(2^<span>spa_slop_shift</span>)) of pool space is reserved ..." --> je größer spa_slop_shift Wert ist, desto kleiner das Ergebnis der Formel bzw. der reservierte Bereich ... was theo. für Löschplatz sprechen würde ..., aber einfach probieren.

Impact · Friday at 23:57

Ich habe in meinen Links von #2 sogar eine schöne Übersicht welcher spa_slop_shift Wert wie viel Prozent ergibt.
Auf discard bin ich dort ebenso eingegangen und ohne Platz kann man auch kein ncdu installieren weswegen ich du vorgeschlagen habe.
4G ist die belegte Größe und da nichts mehr übrig ist zeigt df hier vermutlich deswegen halt als Größe ebenfalls 4G an. Man sieht im Bild ja auch die Fehlende Quota dafür. df nutzt man für ZFS ja generell nicht unbedingt. Ich wollte mir nur einen Überblick damit verschaffen.

TErxleben · 2026-05-09T11:57:26+0200

Also für ncdu benötigt man 120Kb.
In /boot/ lümmeln auch gerne alte Kernel rum. Die kann man auch manuell entfernen. (Anleitungen siehe Inet).
I.d.R sind immer zwei Kernel vorhanden.
Ein entfernter Kernelsatz bringt ca 100Mb.

Johannes S · 2026-05-09T18:26:46+0200

TErxleben said:
In /boot/ lümmeln auch gerne alte Kernel rum. Die kann man auch manuell entfernen. (Anleitungen siehe Inet).

Man muss nur daran denken, auch die Entfernung im Paketmanagement (dpkg, apt) nachzuziehen, weil es sonst Chaos gibt.

TErxleben · 2026-05-09T19:52:09+0200

Ganz klar.
Darum mein genereller Verweis aufs Inet um sich umfassend selbst zu informieren, bevor man anfängt zu Fuß nach einem von mir angeführtem Kochrezept am Bootmechanismus rumzufummeln.
So war ich mir z.B. nicht sicher, ob man auch ein grub-update durchführen sollte.

Gut dass du nochmal auf lauernde, fatale Folgen hinweist!

Search

Search

Speicher komplett voll, Dienste starten nicht mehr

SoJo_BCS

New Member

Impact

Distinguished Member

SoJo_BCS

New Member

Impact

Distinguished Member

TErxleben

Famous Member

waltar

Famous Member

fba

Renowned Member

fba

Renowned Member

waltar

Famous Member

fba

Renowned Member

waltar

Famous Member

Impact

Distinguished Member

TErxleben

Famous Member

Johannes S

Distinguished Member

TErxleben

Famous Member

We value your privacy