OCFS2(unsupported): Frage zu Belegung

DISC-MAX steht auf 2G, also Discard wird vom OS/Multipath-Stack supported. Das bestätigt: die UNMAPs gehen raus, der Controller macht nur nix damit.
Was mir noch auffällt: DISC-GRAN ist 32M, nicht 4M wie ich vorher angenommen hatte. Wenn du nochmal nen fstrim machst, dann mit fstrim -v -m 32m /mnt/ocfs2/PVE001 statt -m 4m. Bringt vermutlich trotzdem nix solang der Controller die UNMAPs nicht umsetzt, aber korrekt wärs so.
Ansonsten bleibt HPE-Support, wie gesagt. Frag nach "thin provisioning page reclaim" für die IN210-Firmware. Bin gespannt was die sagen.
 
  • Like
Reactions: beisser
Muss mal beim Kunden erfragen, der Verkäufer des Storage hat denen gesagt "proxmox unterstützen wir nicht" (was natürlich eine sehr verkürzte Sicht ist).
Ob wir da bei HPE wo anrufen können, ich weiß es ad hoc nicht.

Ich wurde auch noch auf https://manpages.ubuntu.com/manpages/noble/man8/defragfs.ocfs2.8.html hingewiesen. Habe das versucht, lief flott durch, skippte ein paar gelockte Files (OK ...), dürfte aber auch nix wesentlich bewirken.

Der Scrub ist durch, es begann schon wieder der nächste. Belegung unverändert.
Ich lass es mal so übers Wochenende.

Alternativ erweitern wir um ein paar Platten, entweder temporär in den Nodes als Auslagerung (um dann vielleicht aus dem Overcommit-Status raus zu kommen ...), oder im Storage, evtl als zusätzliches Array.

Ich hab ja das Gefühl, dass das vorhandene RAID-5-Array schon falsch "begonnen" wurde irgendwie. Das hab ich ja selbst gemacht, damals auch mit Hilfestellung dieses Forums.
 
Schön, dass sie Proxmox nicht unterstützen (Enterprise bleibt eben ein Synonym dafür mehr für weniger Leistung zu bezahlen, aber dafür ist man dann selbst nicht schuld), aber was ist mit Debian (Basis für ProxmoxVE) bzw. Ubuntu (der Ubuntu-Kernel ist die Basis für den mit ProxmoxVE gelieferten). Es würde mich sehr wundern, wenn sie Linux gar nicht unterstützen.
 
  • Like
Reactions: Bu66as and gurubert
Zumindest die Enterprise-Linuxe (SuSE, RedHat, Oracle) werden unterstützt, es gibt eine entsprechende Personality (11) dafür. Auch für Ubuntu.
Da das Problem im Storage liegt könnte man eines davon aufsetzen und dann damit einen Supportfall generieren.
Die Schwierigkeit hier scheint zu sein, daß sgw's Kunde (?) die MSA bei einem Händler und möglicherweise ohne HP-Supportvertrag gekauft hat.
 
  • Like
Reactions: Johannes S
Der Mitarbeiter beim Kunden googelt und fragt AIs ... und kommt daher mit "Ursache ist OCFS2‑Design + 1 MiB Cluster. Mehrere 100 GB bis >1 TB Overhead sind erwartbar. Lösung ist anderes Storage‑Layout, nicht Tuning" ...

Da komme ich dann in Diskussionen langsam, leider.

Kann es nicht beurteilen oder sagen, sonst müsste ich nicht hier fragen ;-)

Jetzt kommt er mir mit "Shared Block Storage + Locking (LVM)"

Soweit ich mich erinnere, hab ich bei meinen damaligen Recherchen *vor* Setup der Nodes rausgefunden, dass OCFS2 (für das vorhandene Storage samt der FC-Anbindung der Nodes) die beste Wahl ist.

Der entsprechende Thread war https://forum.proxmox.com/threads/datacenter-und-oder-cluster-mit-local-storage-only.145189/

Der Knackpunkt waren die Snapshots, die wollte ich haben.
 
  • Like
Reactions: Johannes S
Naja, ocfs2 war eigentlich nie die erste Wahl, eben weil der Support dafür (sowohl auf Seiten von PVE als auch bei Hardware-herstellern) so lausig ist ;) Aber es erlaubt eben Snapshots mit qcow2 zu benutzen und funktioniert ähnlich aus Endusersicht ähnlich wie vmfs (was ja die Leute von vmware kennen), beides ging damals mit LVM/thick nicht. Seit PVE9 gibt es aber die Möglichkeit snapshots als volume-chains anzulegen auf LVM, sofern man als Format qcow2 nimmt (nur halt ohne Dateisystem ala vmfs, das geht so nach wie vor nicht): https://pve.proxmox.com/pve-docs/chapter-pvesm.html#pvesm_lvm_config

Das hat allerdings auch noch einige Sachen, die man beachten/bedenken muss:
  • Es ist noch technology-preview, also envtl. noch nichts für die Produktion je nach persönlicher Risikoabwägung, weil envtl. Kinderkrankheiten einen erwischen.
  • Die Snapshots sind eben als Chain, man kann also nicht beliebig zurückspringen, sondern (wenn ich das richtig verstanden habe, selbst nutze ich das nicht) in Einserschritten
  • Es kommt je nach Anwendung zu deutlichen Performanceauswirkungen (30%-90%), das gilt aber auch für qcow2-Images auf Dateisystemen (also auch ocfs2)
  • @bbgeek17 hat zu diesen Themen ein tolles Writeup bei seinen Arbeitgeber veröffentlicht: https://kb.blockbridge.com/technote/proxmox-qcow-snapshots-on-lvm/index.html Auch wenn Blockbridge eine Art Konkurenzlösung verkaufen möchte, steht da vieles wichtige drin ;)
Für raw-Images ohne Snapshots habe ich bisher noch nichts negatives hier im Forum gelesen, da geht der Konsens dahin, dass das rocksolide ist, sofern man mit den Limitierungen (kein thin-provisioning, muss dann auf Storageebene gemacht werden, keine Snapshots) leben kann.

@gurubert der ja mit an deinen damaligen Thread beteiligt war hat auch im englischen Forum mal erwähnt, dass aus seiner Sicht ocfs2 nur eine Übergangslösung ist, wenn man den alten Storage weiter verwenden möchte, ohne auf Snapshots zu verzichten. Beim nächsten Hardware-Renewal dann lieber etwas Funktionierendes nehmen ;) Was das dann ist, kommt dann natürlich darauf an, je nach Umgebung, Usecase oder Kunden kann die Antwort sehr unterschiedlich ausfallen, selbst wenn die Größenordnung und technischen sowie finanziellen Rahmenbedingungen gleich sind. Für die einen wird eine Hardware mit Proxmox-unterstützung wie Blockbridge das Kleingeld wert sein, andere werden darüber zu Fans von hyper-converged-Clustern auf Basis von Ceph. Für sehr kleine Cluster werden Leute dagegen vielleicht mit ZFS (trotz asynconer Natur also potentiellen minimalen Datenverlust) Storage Replication oder NFS (passende Hardware kann man ja kaufen und nicht nur von Netapp) glücklich.

Eine Alternative die auf jeden Fall funktioniert: ProxmoxBackupServer einrichten, dessen Snapshot_Backups arbeiten mit einen qemu-internen Mechanismus und sind als inkrementelle Backups sehr schnell fertig. Mit live-restore kann man damit dann auch ein schiefgegangenes Update einer VM mit geringer Downtime wieder zurückrollen ( VM läuft halt langsamer bis alles wieder da ist, aber sie läuft halt). Das müsste so auch mit Veeam gehen (falls bereits in Verwendung), da fehlt mir aber die eigene Erfahrung. Im Forum werden für meinen Geschmack etwas zuviele Probleme mit Veeams Proxmox-Support beschrieben, andererseits meldet sich hier auch niemand um zu schreiben, wenn es gut funktioniert ;)
Bei Budget-Sorgen kann man den PBS auch ohne Subscription betreiben. Wäre für mich ein Nogo, sofern darüber auch alle Backups laufen, aber als Snapshotersatz kann man sich ja überlegen, ob das den Usecase abdeckt. To be fair ist das auch kein Ersatz für alle Usecases von Snapshots auf Storage-Ebene (da einfach ein anderer Mechanismus), aber den Klassiker "Update läuft schief, Kommando zurück" sollte damit klargehen.
 
Last edited:
  • Like
Reactions: UdoB and gurubert
Ich muss halt mit einem brauchbaren Pfad aufkreuzen.
Die wollen das SAN nicht tauschen, sind aber bereit, Platten dazu zu stecken.
Wir haben welche im Regal, von anderen Servern, da muss ich noch prüfen.

Also denke ich an irgendeinen Übersiedelungs-Plan ... Slots im MSA haben wir reichlich frei.

@Johannes S .. danke, muss ich im Detail noch genauer durchgehen

Danke an alle, die bislang beigetragen haben, hervorgehoben sei @Bu66as
 
  • Like
Reactions: Johannes S
Prüft diesen Plan bitte gründlich. Wie schon geschrieben bin ich eher auf den Nachfolgern (3par) zu Hause, aber da gibt es folgende Fallen:
  • Die Platten haben eine spezielle Formatierung (520 statt 512 Byte/Sektor)
  • Die Platten brauchen spezielle Firmware (man kann nicht beliebige nehmen, sondern nur unterstützte Modelle)
  • Die Kapazität muß lizenziert sein (je nach Modell Zahl der Platten oder TB)
  • Weitere Features (wie eben Thin Provisioning) müssen auch lizenziert sein
Am Besten nimmt man Platten aus einem dekommissionierten System, die von Händlern als "refurbished" angeboten werden.
 
Die "1 MiB Cluster = Ursache" Story stimmt so nicht. Cluster-Overhead ist real, aber das sind ein paar Prozent, keine 2+ TiB. Das Problem bleibt der Controller der die UNMAPs nicht umsetzt, das ist unabhängig vom Filesystem.
Was @Johannes S zum Thema LVM + qcow2 in PVE9 schreibt ist der richtige Weg langfristig. Kurzfristig bleibt leider nur Aufräumen oder Platten dazu (mit den Einschränkungen die @BD-Nets genannt hat).