Proxmox regelmäßig nicht erreichbar

Johannes S · Sep 6, 2025

TErxleben said:
Das ist doch Augenwischerei.

Mit ZFS verdoppelst du mindestens die POFs.

Nach dem Argument könnte man dann auch das mit HW-Raid und generell jeglicher Redundanz lassen, das finde ich eine etwas schwierige Argumentation. Wenn ich mehr Backups mache, habe ich schließlich auch mehr, die kaputt gehen können.

TErxleben said:
Zusätzlich erbst du Fehler, die im ZFS-Layer selbst stecken.

Das gibt es bei anderen Dateisystemen oder Volumemanagern nicht? ext4, xfs, lvm haben doch auch alle schon ihre Bugs gehabt.

TErxleben said:
Es soll sogar HW-Raid-Controller geben, die so ihre eigenen Macken haben.

Das heißt, du setzt also auch kein HW-Raid ein? Das wäre dann wenigstens konsequent.

TErxleben said:
Wenn meine einzelne Platte ausfällt, merke ich das vor ZFS. Das betroffene System ist nämlich nicht mehr erreichbar.

Naja, es soll ja durchaus schon vorgekommen sein, dass Systeme noch erreichbar sind, obwohl Teile ihrer Hardware eine Macke hatten.

TErxleben said:
Die geheimnisvollen (Spinne aus der Yucca-Palme) Bit-Rots sind mir in 40J auch noch nie untergekommen.

Selbst auf drehenden Eisen, die verglichen mit SSDs wirklich häufig mechanisch ausgefallen sind.

ECC-RAM soll dagegen ja noch mehr schützen. Erst recht Rosenquarze auf dem Bildschirm.

Nur weil dir etwas noch nie untergekommen ist, heißt das nicht, dass es noch nie jemanden untergekommen ist.
Zu ECC kann man ja mal folgendes geschrieben: https://jrs-s.net/2015/02/03/will-zfs-and-non-ecc-ram-kill-your-data/

The ECC stands for Error Correcting Checksum. In a nutshell, ECC RAM is a special kind of server-grade memory that can detect and repair some of the most common kinds of in-memory corruption. For more detail on how ECC RAM does this, and which types of errors it can and cannot correct, the rabbit hole’s over here.

Now that we know what ECC RAM is, is it a good idea? Absolutely. In-memory errors, whether due to faults in the hardware or to the impact of cosmic radiation (yes, really) are a thing. They do happen. And if it happens in a particularly strategic place, you will lose data to it. Period. There’s no arguing this.

Mit anderen Worten: Ähnlich wie Checksummen in einen Dateisystem, einer Datenbank o.ä. erkennt es bestimmte aber natürlich nicht alle Defekte.
Aber non-ECC RAM erkennt diese Defekte schlicht gar NICHT. Ob einen das dann das Geld wert ist, hängt davon ab, was einen die Daten wert sind.

Der Artikel verlinkt dazu auch eine Aussage eines ZFS_Entwicklers:

There's nothing special about ZFS that requires/encourages the use of ECC RAM more so than any other filesystem. If you use UFS, EXT, NTFS, btrfs, etc without ECC RAM, you are just as much at risk as if you used ZFS without ECC RAM. Actually, ZFS can mitigate this risk to some degree if you enable the unsupported ZFS_DEBUG_MODIFY flag (zfs_flags=0x10). This will checksum the data while at rest in memory, and verify it before writing to disk, thus reducing the window of vulnerability from a memory error.

I would simply say: if you love your data, use ECC RAM. Additionally, use a filesystem that checksums your data, such as ZFS.

https://arstechnica.com/civis/threa...esystem-on-linux.1235679/page-4#post-26303271

Deine Aussage unterstellen also Dinge (ECC-RAM und ZFS sind Wunderheilmittel gegen alles mögliche), die niemand hier behauptet hat. Was sie aber halt tun: Sie erkennen und beugen bestimmte Fehler vor, wogegen Dateisysteme ohne Checksummen oder non-ECC RAM halt gar nicht schützen.

TErxleben said:
Komischerweise muss man auch mit ZFS teilweise sehr lange nach Fehlerursachen suchen. Das gehört zum Geschäft.

Da hätte ich jetzt mal gerne ein konkretes Beispiel statt gefühlter Wahrheiten. So klingt das für mich erstmal nach einen Problem vor dem Bildschirm.

TErxleben said:
Ich kenne aber einen Sack von Firmen, denen man für 100-300k€ Speicherlösungen angedreht hat. Grundsätzlich brauchten die dann immer teure Supportverträge um das Zeug am laufen zu halten, statt dem Hausmeister zu sagen: "Wechsle da wo es rot blinkt."

Das ist doch eher Business as usual im Enterprise-Sektor ("Mehr zahlen um weniger zu bekommen, aber dafür ist jemand anderes schuld")? Da geht es doch immer darum, dass im zweifelsfall jemand anders schuld ist, genau dafür zahlt man ja das Geld. Das ist aber kein Argument für oder gegen ZFS, sondern (je nach Umständen) höchstens für oder gegen die jeweilige Geschäftspolitik.

Ich würde übrigens das Betreiben offiziell nicht vorgesehener Setups wie den Betrieb von Backupservern auf USB-Storage nicht als KISS-Lösung verkaufen, weder Kunden noch in Communityforen.

TErxleben · Sep 6, 2025

meyergru said:
Und seitdem ich ZFS einsetze, sehe ich auf keine POF-Verdopplung.

Ach? du benutzt ZFS auf einer Einzelplatte? Oder sind zwei statt einer Platte nicht doch eine Verdoppelung?

meyergru said:
wenn die defekte Platte "sagt", dass die Daten kaputt sind, was diese aber nicht tat,

Das ist einfach dumm Tüch oder ein sehr sehr obskurer Controller.

UdoB · Sep 6, 2025

TErxleben said:
Ach? du benutzt ZFS auf einer Einzelplatte?

Ich weiß natürlich nicht, ob @meyergru das tut.

Aber ich mache das - sofern es im jeweiligen Ziel-System möglich ist. Etliche Ausnahmen bestätigen diese Regel. Momentan setze ich gerne die PVE Installations.iso ein, weil da ZFS gut supported mitgeliefert wird. Wenn ich dann diverse PVE-Dienste deaktiviere, habe ich natürlich keinen PVE-Server mehr.

Ich zähle die Vorteile von ZFS auf einer Platte jetzt nicht nochmal auf, das habe ich schon mehrfach gemacht. Meine Argumente interessieren dich, @TErxleben , ja auch gar nicht ;-)

TErxleben · Sep 6, 2025

Johannes S said:
Nach dem Argument könnte man dann auch das mit HW-Raid und generell jeglicher Redundanz lassen, das finde ich eine etwas schwierige Argumentation. Wenn ich mehr Backups mache, habe ich schließlich auch mehr, die kaputt gehen können.

Komische Argumentation.
Wenn ich ein storage mit 500TB habe, ist ein passender RAID-Controller natürlich genau die richtige Lösung um Hochverfügbarkeit zu gewährleisten.
Wenn ich eine Einzelmaschine betrachte, sieht das anders aus.

Johannes S said:
Das gibt es bei anderen Dateisystemen oder Volumemanagern nicht? ext4, xfs, lvm haben doch auch alle schon ihre Bugs gehabt.

Richtig. Dabei liegt die Betonung auf gehabt.

Johannes S said:
Das heißt, du setzt also auch kein HW-Raid ein? Das wäre dann wenigstens konsequent.

In Einzelmaschinen nicht.

Johannes S said:
Naja, es soll ja durchaus schon vorgekommen sein, dass Systeme noch erreichbar sind, obwohl Teile ihrer Hardware eine Macke hatten.

Darum ziehe ich so einen Eimer komplett um und analysiere das Kind offline

Johannes S said:
Nur weil dir etwas noch nie untergekommen ist, heißt das nicht, dass es noch nie jemanden untergekommen ist.

Mag ja sein. Manche Zwillinge sind auch mit Steinböcken glücklich verheiratet und kein Astrologe kennt den Grund.

Johannes S said:
Da hätte ich jetzt mal gerne ein konretes Beispiel statt gefühlter Wahrheiten. So klingt das für mich erstmal nach einen Problem vor dem Bildschirm.

Stichwort e1000.

meyergru · Sep 6, 2025

Das ist nicht dumm Tüch: RAID schützt Dich nicht, wenn die Platte nicht sagt, dass die Daten defekt sind (aka "silent data corruption").

Lies es nach: Wenn die Platten keinen Fehler liefern, werden die Daten stumpf ausgelesen - es wird nicht einmal gegen die Redundanzplatten geprüft. Warum auch? Man könnte ja nicht entscheiden, welche der Platten die falschen Daten liefert, wenn alle sagen: "dies ist richtig". Du könntest dann also auch nichts korrigieren. Die meisten RAIDs arbeiten so, inklusive Linux Software RAID.

ZFS schützt einen davor schon, auch auf Einzelplatten.

Dies aber nur zur Edukation, denn, nochmals: Mir geht es nicht um Redundanz, weder durch ZFS (-Raid) noch durch Hardware-RAID.

Und ja, ich nutze ZFS auch auf Einzelplatten, übrigens: genau wie der Threadstarter!

TErxleben · Sep 6, 2025

Wir reden doch aneinander vorbei.

wenn ich ein ausgewachsenes zentrales Storagesystem betreibe, dann selbstverständlich mit passenden RAID-Techniken.
selbige wachen nur über die HW-Verfügbarkeiten, da sie von den benutzenden Dateisystemen keine Ahnung haben und sollen.
Das gewährleistet Hochverfügbarkeit, sonst nichts weiter. Schon gar keine Konsistenzprüfung der gespeicherten Daten.

Nun betrachte ich einen PVE-Host:

Habe ich eine rattenschnelle Anbindung ans Storagesystem, brauch ich eigentlich gar keine internen SSDs mehr.
Wer hat aber schon solchen Luxus? Ich nicht.
Da "doppel" ich lieber die Hosts um sowieso eher unwahrscheinliche Ausfälle abzufangen.
das läuft dann auch eher halbautomatisch.

Bzgl. Verwendung von ZFS:

Ich bin da völlig schmerzlos.
Wenn @UdoB , als ausgewiesener Fan selbiges präferiert, mag das so sein.
Aber warum ist es noch kein Standard in PVE?
Ich nehme i.d.R was vorgeschlagen wird.
Wir können ja verfolgen, inwieweit ZFS Dinge zuverlässig bietet, auf die die Welt schon lange wartet.
Nebenbei ist das Einbinden einer EXT4-Platte immer noch erheblich einfacher als sein ZFS-Pendent.

Keinesfalls baue ich aber sinnlose, fehlerträchtige zusätzliche HW in Mini-Hosts.
@meyergru/@UdoB: Ich verlasse mich nicht an die Versprechungen eines Dateisystemanbieters, Da warte ich lieber auf die Reaktionen eine "Zwischenschicht" wie PROXMOX.

Falk R. · Sep 6, 2025

TErxleben said:
Das waren dann wohl netzweit verfügbare Member?

Keine Ahnung was du damit meinst. Nein es war nur ein Strang plötzlich ohne Strom. Keine Ahnung ob sich da ein Elko verabschiedet hat oder was auch immer.
Nach dem Netzteiltausch lief natürlich wieder alles.

TErxleben · Sep 6, 2025

Falk R. said:
Keine Ahnung was du damit meinst. Nein es war nur ein Strang plötzlich ohne Strom. Keine Ahnung ob sich da ein Elko verabschiedet hat oder was auch immer.
Nach dem Netzteiltausch lief natürlich wieder alles.

Wie kann es passieren, das in einer Maschine nur die Hälfte der Disks ausfallen?

Falk R. · Sep 6, 2025

TErxleben said:
Wir reden doch aneinander vorbei.

wenn ich ein ausgewachsenes zentrales Storagesystem betreibe, dann selbstverständlich mit passenden RAID-Techniken.

selbige wachen nur über die HW-Verfügbarkeiten, da sie von den benutzenden Dateisystemen keine Ahnung haben und sollen.

Das gewährleistet Hochverfügbarkeit, sonst nichts weiter. Schon gar keine Konsistenzprüfung der gespeicherten Daten.

Nun betrachte ich einen PVE-Host:

Habe ich eine rattenschnelle Anbindung ans Storagesystem, brauch ich eigentlich gar keine internen SSDs mehr.

Wer hat aber schon solchen Luxus? Ich nicht.

Da "doppel" ich lieber die Hosts um sowieso eher unwahrscheinliche Ausfälle abzufangen.

das läuft dann auch eher halbautomatisch.

Bzgl. Verwendung von ZFS:

Ich bin da völlig schmerzlos.

Wenn @UdoB , als ausgewiesener Fan selbiges präferiert, mag das so sein.

Aber warum ist es noch kein Standard in PVE?

Ich nehme i.d.R was vorgeschlagen wird.

Wir können ja verfolgen, inwieweit ZFS Dinge zuverlässig bietet, auf die die Welt schon lange wartet.

Nebenbei ist das Einbinden einer EXT4-Platte immer noch erheblich einfacher als sein ZFS-Pendent.

Keinesfalls baue ich aber sinnlose, fehlerträchtige zusätzliche HW in Mini-Hosts.
@meyergru/@UdoB: Ich verlasse mich nicht an die Versprechungen eines Dateisystemanbieters, Da warte ich lieber auf die Reaktionen eine "Zwischenschicht" wie PROXMOX.

Warum ist ZFS kein Standard?
Das könntest du dir selbst beantworten.
Es ist als kleinster Nenner Ext4 für PVE und LVM-Thin einfach nur Default, weil damit auch das Homesetup mit Consumer SSD vernünftig läuft.
ZFS spielt seine vielen Vorteile erst ab Mirror aus und das hat nun mal nicht jeder.
P.S. Ich kenne kein Enterprise Unternehmen, das ohne Redundanz irgendwelche Server laufen lässt. Raid1 für das OS ist einfach Standard. Warum Downtime und Restore wenn nur eine Dumme OS Disk kaputt geht.
Wenn du preissensitive Kleinunternehmen wo es auch mal eine kleine Downtime geben darf, betreust, dann ist das natürlich OK ohne Redundanz.
Alle Lösungen haben ihre vor und Nachteile, daher nicht immer gleich gegen ZFS oder Redundanz wettern. Eventuell mal offener gegenüber anderen Anforderungen werden.

TErxleben · Sep 6, 2025

Falk R. said:
Keine Ahnung was du damit meinst. Nein es war nur ein Strang plötzlich ohne Strom. Keine Ahnung ob sich da ein Elko verabschiedet hat oder was auch immer.
Nach dem Netzteiltausch lief natürlich wieder alles.

Also ein Rechner, ein Netzteil und ein einzelner Kabel(strang) liefert nicht?
Das ist natürlich eine extrem fiese Möpp.

Johannes S · Sep 6, 2025

TErxleben said:
Stichwort e1000.

Was hat ein Problem mit Netzwerkhardware mit zfs zu tun?

Zum Thema Einzelplatte: Neben den sonstigen Features kann man ( auf Kosten der Kapazität) mit der Dataset-Property copies dafür sorgen, dass auch bei einer Platte alles redundant gespeichert wird, damit funktioniert dann auch die Selbstheilung. Es gibt Leute, die das für externe Backupplatten nutzen

TErxleben · Sep 6, 2025

Falk R. said:
Alle Lösungen haben ihre vor und Nachteile, daher nicht immer gleich gegen ZFS oder Redundanz wettern. Eventuell mal offener gegenüber anderen Anforderungen werden.

Ich wettere weder gegen ZFS und noch weniger gegen Redundanz.
Wie du aber selbst feststellst:

Falk R. said:
ZFS spielt seine vielen Vorteile erst ab Mirror aus und das hat nun mal nicht jeder.

Werden hier gerne Prinzessinnenschlösser angepriesen.

TErxleben · Sep 6, 2025

Johannes S said:
Was hat ein Problem mit Netzwerkhardware mit zfs zu tun?

Es ging nur darum, dass es immer noch genügend Probleme jenseits des Dateisystems gibt. Du hast behauptet, man würde sich Monate Suche sparen, sofern man ZFS nutzt,

Johannes S · Sep 6, 2025

TErxleben said:
Es ging nur darum, dass es immer noch genügend Probleme jenseits des Dateisystems gibt. Du hast behauptet, man würde sich Monate Suche sparen, sofern man ZFS nutzt,

Ich habe das nicht behauptet, sondern @meyergru und für das von ihm genannte Szenario ist das ja auch korekkt, da ging es nicht um Netzwerkhardware, sondern dass man Fehler im Storage rechtzeitig mitbekommt.

meyergru · Sep 7, 2025

Korrekt. Neben der falschen Zuordnung ist das auch aus dem Zusammenhang gerissen:

meyergru said:
Ich spare mir aber monatelanges Suchen nach möglichen Ursachen, wie es genau in diesem Thread so eindringlich vorgeführt wurde...

Und damit meinte ich (genau wie in meiner Bemerkung auf die gefundene Ursache):

meyergru said:
...oder man nutzt ZFS, wo solche Basics sofort auffallen.

genau dies:

Der OP hat Ende März das erste Mal von Problemen berichtet, die sich Ende August (also 5 Monate später!) als ursächlich auf eine defekte Festplatte zurückzuführen waren. Die ganze Sucherei wäre ihm erspart geblieben, wenn er ZFS (ja - auf einer Einzelplatte, vollkommen ohne Rücksicht auf Redundanz usw.) eingesetzt hätte. Ich habe nichts davon gesagt, dass ZFS abseits von Storage-Problemen der Weisheit letzter Schluss ist, denn: ja, es gibt in komplexen Systemen vielerlei mögliche Ursachen. Und ja, wenn man diese gefunden hat, muss man sie noch immer beseitigen.

Redundanz im Sinn von hochverfügbaren Speichersystemen oder doppelte Auslegung muss man sich aber leisten können - und im konkreten Fall wäre das eine fehlerhafte System immer noch betroffen gewesen, ohne dass man gewusst hätte, was dazu geführt hat.

Das war's jetzt aber hier für mich, denn das Problem des OP wurde ja gelöst - wenn auch mit (zu) viel Mühe.

Falk R. · Sep 7, 2025

TErxleben said:
Wie kann es passieren, das in einer Maschine nur die Hälfte der Disks ausfallen?

Es waren sogar mehr als die Hälfte weg, aber der OS Mirror war auf zwei Stränge aufgeteilt. Die Ceph Disks waren alle offline, aber das Regelt Ceph ja auch automatisch.

Search

Search

Proxmox regelmäßig nicht erreichbar

Johannes S

Distinguished Member

TErxleben

Renowned Member

UdoB

Distinguished Member

TErxleben

Renowned Member

meyergru

Active Member

TErxleben

Renowned Member

Falk R.

Distinguished Member

TErxleben

Renowned Member

Falk R.

Distinguished Member

TErxleben

Renowned Member

Johannes S

Distinguished Member

TErxleben

Renowned Member

TErxleben

Renowned Member

Johannes S

Distinguished Member

meyergru

Active Member

Falk R.

Distinguished Member

We value your privacy