OCFS2(unsupported): Frage zu Belegung

Bu66as · Mar 5, 2026

DISC-MAX steht auf 2G, also Discard wird vom OS/Multipath-Stack supported. Das bestätigt: die UNMAPs gehen raus, der Controller macht nur nix damit.
Was mir noch auffällt: DISC-GRAN ist 32M, nicht 4M wie ich vorher angenommen hatte. Wenn du nochmal nen fstrim machst, dann mit fstrim -v -m 32m /mnt/ocfs2/PVE001 statt -m 4m. Bringt vermutlich trotzdem nix solang der Controller die UNMAPs nicht umsetzt, aber korrekt wärs so.
Ansonsten bleibt HPE-Support, wie gesagt. Frag nach "thin provisioning page reclaim" für die IN210-Firmware. Bin gespannt was die sagen.

sgw · Mar 6, 2026

Muss mal beim Kunden erfragen, der Verkäufer des Storage hat denen gesagt "proxmox unterstützen wir nicht" (was natürlich eine sehr verkürzte Sicht ist).
Ob wir da bei HPE wo anrufen können, ich weiß es ad hoc nicht.

Ich wurde auch noch auf https://manpages.ubuntu.com/manpages/noble/man8/defragfs.ocfs2.8.html hingewiesen. Habe das versucht, lief flott durch, skippte ein paar gelockte Files (OK ...), dürfte aber auch nix wesentlich bewirken.

Der Scrub ist durch, es begann schon wieder der nächste. Belegung unverändert.
Ich lass es mal so übers Wochenende.

Alternativ erweitern wir um ein paar Platten, entweder temporär in den Nodes als Auslagerung (um dann vielleicht aus dem Overcommit-Status raus zu kommen ...), oder im Storage, evtl als zusätzliches Array.

Ich hab ja das Gefühl, dass das vorhandene RAID-5-Array schon falsch "begonnen" wurde irgendwie. Das hab ich ja selbst gemacht, damals auch mit Hilfestellung dieses Forums.

Johannes S · Mar 6, 2026

Schön, dass sie Proxmox nicht unterstützen (Enterprise bleibt eben ein Synonym dafür mehr für weniger Leistung zu bezahlen, aber dafür ist man dann selbst nicht schuld), aber was ist mit Debian (Basis für ProxmoxVE) bzw. Ubuntu (der Ubuntu-Kernel ist die Basis für den mit ProxmoxVE gelieferten)? Es würde mich sehr wundern, wenn sie Linux gar nicht unterstützen.

BD-Nets · Mar 6, 2026

Zumindest die Enterprise-Linuxe (SuSE, RedHat, Oracle) werden unterstützt, es gibt eine entsprechende Personality (11) dafür. Auch für Ubuntu.
Da das Problem im Storage liegt könnte man eines davon aufsetzen und dann damit einen Supportfall generieren.
Die Schwierigkeit hier scheint zu sein, daß sgw's Kunde (?) die MSA bei einem Händler und möglicherweise ohne HP-Supportvertrag gekauft hat.

sgw · Mar 6, 2026

Der Mitarbeiter beim Kunden googelt und fragt AIs ... und kommt daher mit "Ursache ist OCFS2‑Design + 1 MiB Cluster. Mehrere 100 GB bis >1 TB Overhead sind erwartbar. Lösung ist anderes Storage‑Layout, nicht Tuning" ...

Da komme ich dann in Diskussionen langsam, leider.

Kann es nicht beurteilen oder sagen, sonst müsste ich nicht hier fragen ;-)

Jetzt kommt er mir mit "Shared Block Storage + Locking (LVM)"

Soweit ich mich erinnere, hab ich bei meinen damaligen Recherchen *vor* Setup der Nodes rausgefunden, dass OCFS2 (für das vorhandene Storage samt der FC-Anbindung der Nodes) die beste Wahl ist.

Der entsprechende Thread war https://forum.proxmox.com/threads/datacenter-und-oder-cluster-mit-local-storage-only.145189/

Der Knackpunkt waren die Snapshots, die wollte ich haben.

Johannes S · Mar 6, 2026

Naja, ocfs2 war eigentlich nie die erste Wahl, eben weil der Support dafür (sowohl auf Seiten von PVE als auch bei Hardware-herstellern) so lausig ist

Aber es erlaubt eben Snapshots mit qcow2 zu benutzen und funktioniert ähnlich aus Endusersicht ähnlich wie vmfs (was ja die Leute von vmware kennen), beides ging damals mit LVM/thick nicht. Seit PVE9 gibt es aber die Möglichkeit snapshots als volume-chains anzulegen auf LVM, sofern man als Format qcow2 nimmt (nur halt ohne Dateisystem ala vmfs, das geht so nach wie vor nicht): https://pve.proxmox.com/pve-docs/chapter-pvesm.html#pvesm_lvm_config

Das hat allerdings auch noch einige Sachen, die man beachten/bedenken muss:

Es ist noch technology-preview, also envtl. noch nichts für die Produktion je nach persönlicher Risikoabwägung, weil envtl. Kinderkrankheiten einen erwischen.
Die Snapshots sind eben als Chain, man kann also nicht beliebig zurückspringen, sondern (wenn ich das richtig verstanden habe, selbst nutze ich das nicht) in Einserschritten
Es kommt je nach Anwendung zu deutlichen Performanceauswirkungen (30%-90%), das gilt aber auch für qcow2-Images auf Dateisystemen (also auch ocfs2)
@bbgeek17 hat zu diesen Themen ein tolles Writeup bei seinen Arbeitgeber veröffentlicht: https://kb.blockbridge.com/technote/proxmox-qcow-snapshots-on-lvm/index.html Auch wenn Blockbridge eine Art Konkurenzlösung verkaufen möchte, steht da vieles wichtige drin

Für raw-Images ohne Snapshots habe ich bisher noch nichts negatives hier im Forum gelesen, da geht der Konsens dahin, dass das rocksolide ist, sofern man mit den Limitierungen (kein thin-provisioning, muss dann auf Storageebene gemacht werden, keine Snapshots) leben kann.

@gurubert der ja mit an deinen damaligen Thread beteiligt war hat auch im englischen Forum mal erwähnt, dass aus seiner Sicht ocfs2 nur eine Übergangslösung ist, wenn man den alten Storage weiter verwenden möchte, ohne auf Snapshots zu verzichten. Beim nächsten Hardware-Renewal dann lieber etwas Funktionierendes nehmen

Was das dann ist, kommt dann natürlich darauf an, je nach Umgebung, Usecase oder Kunden kann die Antwort sehr unterschiedlich ausfallen, selbst wenn die Größenordnung und technischen sowie finanziellen Rahmenbedingungen gleich sind. Für die einen wird eine Hardware mit Proxmox-unterstützung wie Blockbridge das Kleingeld wert sein, andere werden darüber zu Fans von hyper-converged-Clustern auf Basis von Ceph. Für sehr kleine Cluster werden Leute dagegen vielleicht mit ZFS (trotz asynconer Natur also potentiellen minimalen Datenverlust) Storage Replication oder NFS (passende Hardware kann man ja kaufen und nicht nur von Netapp) glücklich.

Eine Alternative die auf jeden Fall funktioniert: ProxmoxBackupServer einrichten, dessen Snapshot_Backups arbeiten mit einen qemu-internen Mechanismus und sind als inkrementelle Backups sehr schnell fertig. Mit live-restore kann man damit dann auch ein schiefgegangenes Update einer VM mit geringer Downtime wieder zurückrollen ( VM läuft halt langsamer bis alles wieder da ist, aber sie läuft halt). Das müsste so auch mit Veeam gehen (falls bereits in Verwendung), da fehlt mir aber die eigene Erfahrung. Im Forum werden für meinen Geschmack etwas zuviele Probleme mit Veeams Proxmox-Support beschrieben, andererseits meldet sich hier auch niemand um zu schreiben, wenn es gut funktioniert

Bei Budget-Sorgen kann man den PBS auch ohne Subscription betreiben. Wäre für mich ein Nogo, sofern darüber auch alle Backups laufen, aber als Snapshotersatz kann man sich ja überlegen, ob das den Usecase abdeckt. To be fair ist das auch kein Ersatz für alle Usecases von Snapshots auf Storage-Ebene (da einfach ein anderer Mechanismus), aber den Klassiker "Update läuft schief, Kommando zurück" sollte damit klargehen.

sgw · Mar 6, 2026

Ich muss halt mit einem brauchbaren Pfad aufkreuzen.
Die wollen das SAN nicht tauschen, sind aber bereit, Platten dazu zu stecken.
Wir haben welche im Regal, von anderen Servern, da muss ich noch prüfen.

Also denke ich an irgendeinen Übersiedelungs-Plan ... Slots im MSA haben wir reichlich frei.

@Johannes S .. danke, muss ich im Detail noch genauer durchgehen

Danke an alle, die bislang beigetragen haben, hervorgehoben sei @Bu66as

BD-Nets · Mar 6, 2026

Prüft diesen Plan bitte gründlich. Wie schon geschrieben bin ich eher auf den Nachfolgern (3par) zu Hause, aber da gibt es folgende Fallen:

Die Platten haben eine spezielle Formatierung (520 statt 512 Byte/Sektor)
Die Platten brauchen spezielle Firmware (man kann nicht beliebige nehmen, sondern nur unterstützte Modelle)
Die Kapazität muß lizenziert sein (je nach Modell Zahl der Platten oder TB)
Weitere Features (wie eben Thin Provisioning) müssen auch lizenziert sein

Am Besten nimmt man Platten aus einem dekommissionierten System, die von Händlern als "refurbished" angeboten werden.

Bu66as · Mar 6, 2026

Die "1 MiB Cluster = Ursache" Story stimmt so nicht. Cluster-Overhead ist real, aber das sind ein paar Prozent, keine 2+ TiB. Das Problem bleibt der Controller der die UNMAPs nicht umsetzt, das ist unabhängig vom Filesystem.
Was @Johannes S zum Thema LVM + qcow2 in PVE9 schreibt ist der richtige Weg langfristig. Kurzfristig bleibt leider nur Aufräumen oder Platten dazu (mit den Einschränkungen die @BD-Nets genannt hat).

sgw · Mar 9, 2026

Guten Morgen in der neuen Woche. Nur kurz Status: Belegung unverändert, trotz eines weiteren absolvierten Scrubs.

Wir haben sehr wahrscheinlich keine so speziellen Platten, muss ich noch prüfen (die waren damals gebraucht und geprüft für temporäre Nodes angeschafft worden, für local-lvm storage, als ich alles von ESXi migriert hab).

Ich seh mal zu, den Status eines HP-Wartungsvertrags zu prüfen, von wegen Support-Call dort etc.

sgw · Mar 9, 2026

Ich frage mich, ob das Anlegen des Filesystem schon problematisch war. Auf mich wirkt das Verhalten irgendwie so, als ob quasi das OCFS2 den gesamten Platz auf der LUN bereits vorbelegt hat, schon bei Anlage.
Ich hab jetzt mal im HPE-Forum eine entsprechende Frage gestellt, mal sehen.

sgw · Mar 9, 2026

So, alles in Gang gesetzt, nun auch ein HPE-Support-Ticket eröffnet, logs bereitgestellt, ich bin sehr gespannt.

Der Admin beim Kunden meint, er könne auf Snapshots verzichten, ergo können wir da evtl ohnehin weg von OCFS2. Wir sehen uns parallel schon mal nach SSDs um, für einen etwaigen "Pool B" auf der MSA Storage.

Nochmal ganz von vorne: kann ich denn kein Ceph auf der MSA fahren? Was sprach da noch mal dagegen?

LVM + qcow2 ist ja noch nicht production ready, laut https://forum.proxmox.com/threads/ocfs2-unsupported-frage-zu-belegung.181065/post-842060

Danke Euch allen

Johannes S · Mar 9, 2026

Naja Ceph ist ja ein verteiltes System, was darauf ausgelegt ist aus zig Servern und in ihnen verbauten Platten/SSDs einen gemeinsamen Storage zu bauen.
Das skaliert extrem ( je mehr Knoten und je mehr Platten desto bessere Performance), ist sehr ausfallsicher, setzt aber auch entsprechende Hardware ( schnelles Netzwerk ( mindestebs 10 Gbit besser 25 oder 100 ), Server-SSDs etc ) voraus. Ceph ist also das Anti-SAN und eben NICHT dafür gedacht mit einen SAN genutzt zu werden .
ProxmoxVE hat halt eine tolle Integration in die GUI, womit ( bei Benutzung geeigneter Hardware) die Virtualisierungshosts dann auch als Storage genutzt werden.
Braucht aber mindestens drei, besser fünf Knoten.

sgw · Mar 9, 2026

Johannes S said:
Naja Ceph ist ja ein verteiltes System, was darauf ausgelegt ist aus zig Servern und in ihnen verbauten Platten/SSDs einen gemeinsamen Storage zu bauen.
Das skaliert extrem ( je mehr Knoten und je mehr Platten desto bessere Performance), ist sehr ausfallsicher, setzt aber auch entsprechende Hardware ( schnelles Netzwerk ( mindestebs 10 Gbit besser 25 oder 100 ), Server-SSDs etc ) voraus. Ceph ist also das Anti-SAN und eben NICHT dafür gedacht mit einen SAN genutzt zu werden .
ProxmoxVE hat halt eine tolle Integration in die GUI, womit ( bei Benutzung geeigneter Hardware) die Virtualisierungshosts dann auch als Storage genutzt werden.
Braucht aber mindestens drei, besser fünf Knoten.

Ahja, danke für die Auffrischung. "Anti-SAN" ist nun das Stichwort hier ;-)

UdoB · Mar 9, 2026

Johannes S said:
Ceph ist also das Anti-SAN

So hätte ich das (als Ceph-Laie) nicht formuliert. Das, was Ceph unbedingt braucht, ist ein schnelles Netz - oder auch zwei. Und zwar idealerweise ein separates. Für mich hört sich das echt nach Storage-Area-Network an ;-)

sgw · Mar 9, 2026

In meinem Fall ist es eben so:

* SAN ist vorhanden, jeweils 2 FC-Controller pro Node, etc -> das will der Kunde nicht wegwerfen, wenn es soweit gut funktioniert
* 5 Platten drin, RAID5 (nicht mein Wunsch, aber ist so), eine LUN, da drauf das besprochene OCFS2
* Platzbedarf steigt, weiters besteht das Bewusstsein, dass die produktiven SSDs auch schon langsam alt werden
* nachdem HA natürlich gut ist, denken wir in Richtung: 2. Array aufbauen, "Pool B", da drin die LVM-Variante testen zB
* basierend da drauf vielleicht die VMs siedeln, Pool A samt OCFS2 loswerden etc

Falk R. · Mar 10, 2026

sgw said:
In meinem Fall ist es eben so:

* SAN ist vorhanden, jeweils 2 FC-Controller pro Node, etc -> das will der Kunde nicht wegwerfen, wenn es soweit gut funktioniert
* 5 Platten drin, RAID5 (nicht mein Wunsch, aber ist so), eine LUN, da drauf das besprochene OCFS2
* Platzbedarf steigt, weiters besteht das Bewusstsein, dass die produktiven SSDs auch schon langsam alt werden
* nachdem HA natürlich gut ist, denken wir in Richtung: 2. Array aufbauen, "Pool B", da drin die LVM-Variante testen zB
* basierend da drauf vielleicht die VMs siedeln, Pool A samt OCFS2 loswerden etc

Und den meisten reicht LVM vollkommen aus. Als Ersatz für Snapshots einfach PBS Backups benutzen. So habe ich das bei ganz vielen ehemaligen vSphere Setups umgesetzt. Beim nächsten Hardwaretausch wird dann oft in Richtung Ceph migriert. Ich habe aber auch einen kleinen Kunden mit 2 Node Setup, dem ZFS replika auch vollkommen reicht.

sgw · Mar 11, 2026

Ad OFCS2-Thema: habe einen Hinweis bekommen, dass das evtl. mit dem default-mäßig eingeschalteten Over-Committing zu tun haben könnte.

Der Tip geht also in Richtung: Daten weg vom OCFS2, Pool neu erstellen ohne Committing, OFCS2 neu erstellen, Daten retour.

Das passt zu meiner Ahnung in https://forum.proxmox.com/threads/ocfs2-unsupported-frage-zu-belegung.181065/post-842407

Klingt vielversprechend, aber ist halt auch etwas Action (wenn auch vorstellbar).

sgw · Mar 11, 2026

Falk R. said:
Und den meisten reicht LVM vollkommen aus. Als Ersatz für Snapshots einfach PBS Backups benutzen. So habe ich das bei ganz vielen ehemaligen vSphere Setups umgesetzt. Beim nächsten Hardwaretausch wird dann oft in Richtung Ceph migriert. Ich habe aber auch einen kleinen Kunden mit 2 Node Setup, dem ZFS replika auch vollkommen reicht.

Mir fehlt aber immer noch das Verständnis: wenn Ihr von LVM sprecht, dann ist das doch ein lokales LVM pro Node (?)
Wo habe ich da das "sharing between nodes"?

Ich lese grade nochmal https://pve.proxmox.com/pve-docs/chapter-pvesm.html#_storage_types ... LVM wird auch hier als non-shared gelistet.

Ich will ja von den 3 Nodes auf ein gemeinsames Filesystem am MSA zugreifen können.

BD-Nets · Mar 11, 2026

sgw said:
Mir fehlt aber immer noch das Verständnis: wenn Ihr von LVM sprecht, dann ist das doch ein lokales LVM pro Node (?)

Nein. Beachte bitte die Fußnote 3.

Es funktioniert hervorragend, ein shared Block Storage (wie gesagt, mache ich auf einer 3par über FC) an mehrere Hosts zu präsentieren.
Das wird hier im Forum auch von verschiedenen anderen Teilnehmern (z.B. @bbgeek17) so empfohlen.

Unsupported ist der Teil, auf diesem LVM Snapshots anzulegen.
Dazu gibt es seit PVE9 einen Workaround (volume-chains), der allerdings noch ausdrücklich als technologischer Preview gekennzeichnet ist.
Nach meiner Beobachtung gibt es da manchmal noch Probleme mit "hängengebliebenen" Locks von anderen Nodes, z.B. bei der Migration.

Ebenfalls nicht supported ist thin-provisioning, aber das braucht man bei einem intelligenten Storage mit zero-detect nicht.

OCFS2(unsupported): Frage zu Belegung

Famous Member

Active Member

Distinguished Member

Member

Active Member

Distinguished Member

Active Member

Member

Famous Member

Active Member

Active Member

Active Member

Distinguished Member

Active Member

Distinguished Member

Active Member

Distinguished Member

Active Member

Active Member

Member

We value your privacy