[SOLVED] OOM beim booten / ZFS

AlexanderR

Well-Known Member
Jan 19, 2019
31
8
48
30
Servus Zusammen,

wir betreiben einen Server zum bereitstellen eines Backupspeichers. Verbaut sind 4x 10TB Platten im "RAID 10" mit ZFS auf denen sowohl System als auch eine VM läuft. Derzeit sind 32GB RAM verbaut.

Gestern Nacht hat sich der Server dann während eins Scrubs verabschiedet - da der Server im Rechenzentrum läuft, hatten wir keine Information zum Monitor-Output.
Beim booten schafft er es nun nicht mehr den ZFS-Pool zu importieren..(denke ich zumindest). Da eine OOM Kernel Panic auftritt, sollte vermutlich ein RAM-Upgrade die Lösung sein, oder?
Anbei noch drei Screenshots des Bootvorgangs / -Problems.
Vielen Dank schonmal und viele Grüße,

Alex
 

Attachments

  • host05-1.PNG
    host05-1.PNG
    44.9 KB · Views: 7
  • host05-2.PNG
    host05-2.PNG
    70.8 KB · Views: 7
  • host05-3.PNG
    host05-3.PNG
    65.7 KB · Views: 7
Faustformel zur Dimensionierung des ZFS ARC sind 4GB + 1GB RAM je 1TB Rohkapazität der Laufwerke (bzw +5GB je 1TB wenn man Deduplikation nutzen will).
Da sind dann 32GB schon echt wenig RAM. Wenn du nichts geändert hast dann ist Proxmox so eingestellt, dass da der ARC 50% des RAMs benutzt. VMs sollten also in der Summe nicht mehr als 12-14 GB RAM zugeteilt haben, damit es nicht zum OOM kommt.
 
Last edited:
Danke für Deine Antwort.

Momentan scheint meine Vermutung, dass ein laufender Scrub die OOM auslöst.. Read-Only konnte ich den Pool problemlos importieren.

Jetzt suche ich gerade einen Weg den Scrub vor dem Import zu beenden...
 
Du kannst auch mal arc_summary aufrufen um zu gucken, ob da die 16GB RAM für den ARC reichen.
Ein Scrub fordert ZFS ja extrem. Kann durchaus sein, dass da der ARC dann an die Grezen stößt. Wenn die VM nur wenig RAM braucht kannst du auch mal versuchen testweise den ARC zu vergrößern um zu gucken, ob der Import dann klappt.

Siehe hier.

Feintuning beim ARC geht auch. Bei mir war die "Dnode cache size" z.B. am Limit aber die "Metadata cache size" relativ ungenutzt, also habe ich den Dnode Cache im ARC etwas vergrößert und dafür den Metadata Cache etwas verkleinert. So hatte der Dnode Cache dann etwas mehr Spielraum, ohne das ich den ARC selbst vergrößern musste.
Sowas lässt sich ebenfalls über Einträge in der zfs.conf einstellen.
 
Last edited:
  • Like
Reactions: AlexanderR
Habe das System wieder online bekommen.
Hatte im Rescue-System mithilfe des Links den Pool importiert bekommen. Wobei ich mir nicht 100% sicher bin, ob der Scrub von alleine fertiggestellt wurde oder er aufgrund meines Scrub Stop-Befehls beendet wurde. Ohne aktiven Scrub konnte Proxmox den Pool dann ohne Probleme importieren und booten.

Danke :)
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!