⅓ des HA-Clusters ausgefallen, /etc/pve unvollständig

Samsung 990 Pro 4TB.
Davon habe ich auch 2 Stück im Notebook, aber für mehr sind die leider nicht brauchbar. Auch wenn da Pro dransteht und die nicht ganz so billig sind, sollte man eher auf Enterprise oder wenigstens SSDs mit PLP gehen. Vor allem wenn man keine Redundanz hat.
Das große Problem der Fehlersuche bei solchen SSDs ist, dass defekte Zellen einfach ersetzt werden und somit der Status erst einmal gut aussieht.
Die Daten der defekten Zelle sind aber trotzdem weg. Daher lieber mit Redundanz arbeiten.
 
Das ist ein Kupfer-Adapter im M.2 Steckplatz, richtig?

Migration belegt gerne so viel Bandbreite wie möglich --> "Sättigung". Das ist aber genau das, was man auf der Verbindung für Corosync auf gar keinen Fall haben will. Entschärfung: man kann die genutzte Bandbreite für die Migration explizit begrenzen.

Corosync hat einen "ring" auf beiden Schnittstellen, ja?

Ja, 2.5G Kupfer.

Corsosync: ich schätze mal schon. Link sind 2.5GE, Link 2 die 1GE.

1756834615768.png

Die beiden Netze sind per VLAN getrennt und laufen über 2 separate Switches. Gab noch nie Probleme damit, denke nicht, dass es irgendetwas mit dem Problem zu tun hat. (pve1 ist ausgefallen, habe ich neu aufgesetzt und in-place im cluster replaced)

Ich migriere da eigentlich nichts großartig, ausser wenn ein Node aktualisiert und rebootet wird. Da ich wie oben geschrieben einen Tunnel habe (und ne router-vm) möchte ich diese natürlich nicht verlieren und ziehe sie dann auf einen andere Node vor Wartungsarbeiten.
 
Last edited:
  • Like
Reactions: UdoB
Klar, für die Konfigs ist ja auch der Cluster zuständig, solange der denn funktioniert. Aber ( wie du gerade gemerkt hast): Das ist kein Backup ( Cluster kann Probleme haben, wie jede Software), sondern um nach Ausfall eines Knotens die VMs und lxcs auf einen anderen Kmoten fortsetzen zu können. Was du machen könntest: Die VMs und lxcs mit anderer ID neu erstellen und dann Kopien ( wichtig um nichts zu überschreiben, wenn du einem Fehler machst ) der Images anhängen. Generell wäre nun ein guter Zeitpunkt diese Images an einen Ort außerhalb des Clusters zu sichern.

Nun kann die Replikation von zfs natürlich Basis für ein Backup sein, sofern man die Konfigs auf anderem Weg sichert. Oder wenn man die VMs/lxcs auch auf einen Notfall-Server für den Weiterbetrieb hätte, dafür gibt es pve-zsync:

https://pve.proxmox.com/wiki/PVE-zsync


Damit kann man auch ohne cluster Images und configs zwischen single-nodes realisieren, aber auch das ersetzt kein Backup, kann aber Teil einer Notfallstrategie sein.

Ich habe das jetzt wie folgt angepasst:
- Alle Nodes haben intern noch eine alte SATA-SSDs bekommen, was ich so auftreiben konnte zwischen 750-1TB. Ext4. Darauf sichere ich wichtige VM lokal UND restic sichert mir alle 30 Minuten das lokale /etc

was ich plane:
- Proxmox Backup Server-Instanz für Offsite-Backup. Wobei der wirkliche "payload" meines Clusters relativ überschaubar ist, vielleicht 100-200GB. Der Rest sind Distributionsdaten, Applikationscode (der eh auf github liegt), logs. Diesen payload habe ich bisher schon mit restic auf Hetzner gesichert. Nur der Restore ist nicht so komfortabel, wenn die VMs fehlen…
 
  • Like
Reactions: Johannes S
Davon habe ich auch 2 Stück im Notebook, aber für mehr sind die leider nicht brauchbar. Auch wenn da Pro dransteht und die nicht ganz so billig sind, sollte man eher auf Enterprise oder wenigstens SSDs mit PLP gehen. Vor allem wenn man keine Redundanz hat.
Das große Problem der Fehlersuche bei solchen SSDs ist, dass defekte Zellen einfach ersetzt werden und somit der Status erst einmal gut aussieht.
Die Daten der defekten Zelle sind aber trotzdem weg. Daher lieber mit Redundanz arbeiten.

Okay. PLP betrifft aber nur power-loss, nicht allgemeine Degradation?

Ich rate von den Samsung 990 auch ab, aus einem anderen Grund. Sie werden unfassbar heiß (Bei mir relevant bei Backups, Migrationen). Eine der beiden (nicht die Betroffene) hat kurz nach dem Einbau auch mehrfach Thermal-Limits überschritten. Ich habe dann große Mengen an Wärmeleitpads und Kupferkühlkörper verbaut, die den Kontakt zum SATA-Caddy darüber und weiter zum Gehäusedeckel sicherstellen. Seitdem keinerlei Probleme mehr 15°C weniger im peak. Trotzdem "warm".

Zum Zeitpunkt des Ausfalls am Samstag um ca. 6:15 Uhr liefen einige Backups, die Temperatur war trotzdem im grünen Bereich. Auch auf CPU-Seite (laut logs). Habe nach dem Neuaufsetzen auch einen Burn-In ausgeführt, es war alles weit im grünen Bereich.

Also um es nochmal zu sagen: Ich betreibe ein Homelab auf Basis von gebrauchter, ältere Consumer-Desktop-Hardware aufgerüstet mit NVMe, RAM und 2. Ethernet-Interface. Mir ist schon klar, dass es diverse Nachteile hat. So einen katastrophalen Ausfall hatte ich allerdings bisher nur 1x, vor 15 Jahren ist mir eine nachgerüstete Crucial SSD in einem Macbook nach 7 Tagen komplett von jetzt auf sofort gestorben und wurde nicht erkannt. In diverse Serversetups hatte und habe ich mit wear-out zu tun, dort aber simples ext4 sw-raid. Wir haben dann getauscht, wenn SMART-Werte erreicht waren, Datenverlust gab es nie.
 
Ich habe in meinem Homelab eine Samsung PM9B1 verbaut, die ist recht energiesparsam, mit 3600/3000 nicht so schnell und damit wird sie auch nicht so heiß.
 
Last edited:
  • Like
Reactions: rmoriz
Okay. PLP betrifft aber nur power-loss, nicht allgemeine Degradation?
Doch, aber eher indirekt. Durch den gestützten DRAM Cache werden die Zellen deutlich weniger beansprucht, was sich stark auf die Alterung auswirkt.

Ich kaufe mir gern gebrauchte SSDs, gerade SATA gibts ganz viel Enterprise Ware günstig.
M.2 gibts im enterprise Segment ganz selten, da nutzt man eher U.2/U.3 oder EDSFF als Formfaktor.
 
Doch, aber eher indirekt. Durch den gestützten DRAM Cache werden die Zellen deutlich weniger beansprucht, was sich stark auf die Alterung auswirkt.

Ich kaufe mir gern gebrauchte SSDs, gerade SATA gibts ganz viel Enterprise Ware günstig.
M.2 gibts im enterprise Segment ganz selten, da nutzt man eher U.2/U.3 oder EDSFF als Formfaktor.
In den USA gibt es wohl gerade ein großes Angebot an günstigen, gebrauchten Enterprise-SSD in Form von PCI-Karten oder SAS. Ehrlich gesagt sind alle mir bekannte Angebote in D komplett uninteressant und der Zustand/Wear fragwürdig. Hätte ich mehr Platz in den Rechnern, ich würde lieber mehrere Consumer NVMe verbauen und mittels ZFS ein RAID-Z1 oder RAID-Z2 fahren.
 
In den USA gibt es wohl gerade ein großes Angebot an günstigen, gebrauchten Enterprise-SSD in Form von PCI-Karten oder SAS. Ehrlich gesagt sind alle mir bekannte Angebote in D komplett uninteressant und der Zustand/Wear fragwürdig. Hätte ich mehr Platz in den Rechnern, ich würde lieber mehrere Consumer NVMe verbauen und mittels ZFS ein RAID-Z1 oder RAID-Z2 fahren.
Perfekt, die Hersteller freuen sich. Mit RaidZ killst du die Consumer Flash Disks noch schneller und darfst regelmäßig neue kaufen. (Liegt am Write Overhead von Raidz)
Es gibt einige Anbieter für gebrauchte Enterprise Hardware. Die meisten hatten noch 97-98% Restschreibleistung und die schlechteste SSD hatte nur noch 94%. Die Dinger schreibt man auch mit RaidZ die nächsten Jahre garantiert nicht kaputt.
Nur so als persönlicher Tipp.

Wenn du gern ZFS Replacements und Resilvering testen möchtst und keine Performance brauchst, bleib ruhig bei den Consumer Geräten.
 
Last edited:
  • Like
Reactions: Johannes S