Probleme mit ZFS zur Clustererstellung

jaja55 · Tuesday at 08:44

1.) mehr gibts leider nicht

Code:

root@proxmox25:~# /usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=proxmox' root@10.0.0.50
Host key verification failed.

2.)

Code:

root@pve2:~# lsblk -o+FSTYPE,LABEL,MODEL
NAME     MAJ:MIN RM   SIZE RO TYPE MOUNTPOINTS FSTYPE     LABEL          MODEL
sda        8:0    0 476.9G  0 disk                                       TS512GMTS430S
├─sda1     8:1    0  1007K  0 part                                       
├─sda2     8:2    0     1G  0 part             vfat                     
└─sda3     8:3    0   199G  0 part             zfs_member rpool         
zd0      230:0    0     1M  0 disk                                       
zd16     230:16   0    80G  0 disk                                       
├─zd16p1 230:17   0    32M  0 part             vfat       hassos-boot   
├─zd16p2 230:18   0    24M  0 part             squashfs                 
├─zd16p3 230:19   0   256M  0 part             erofs                     
├─zd16p4 230:20   0    24M  0 part             squashfs                 
├─zd16p5 230:21   0   256M  0 part             erofs                     
├─zd16p6 230:22   0     8M  0 part                                       
├─zd16p7 230:23   0    96M  0 part             ext4       hassos-overlay
└─zd16p8 230:24   0  79.3G  0 part             ext4       hassos-data   
zd32     230:32   0     1M  0 disk                                       
zd48     230:48   0    80G  0 disk                                       
├─zd48p1 230:49   0    32M  0 part             vfat       hassos-boot   
├─zd48p2 230:50   0    24M  0 part             squashfs                 
├─zd48p3 230:51   0   256M  0 part             erofs                     
├─zd48p4 230:52   0    24M  0 part             squashfs                 
├─zd48p5 230:53   0   256M  0 part             erofs                     
├─zd48p6 230:54   0     8M  0 part                                       
├─zd48p7 230:55   0    96M  0 part             ext4       hassos-overlay
└─zd48p8 230:56   0  79.3G  0 part             ext4       hassos-data

4.)

kann ich das ändern ?

Impact · Tuesday at 14:37

1.) Probier mal pvecm updatecerts --force. Wenn das nicht klappt schau mal was ssh -o 'HostKeyAlias=proxmox' root@10.0.0.50 sagt.
2.) Nutze cfdisk /dev/sda und vergrößere /dev/sda3. Setze dann autoexpand via zpool set autoexpand=on rpool. Theoretisch sollte der Pool dann beim nächsten Import (reboot) automatisch vergrößert werden. zpool online -e rpool /dev/sda3 kann eventuell auch funktionieren. Ist etwas her seit ich damit rumgespielt habe, daher gebe ich hier keine Garantie für volle Richtigkeit.
4.) Dass Supervisor 12G+ benutze ist ein Problem dass die Entwickler lösen müssen. Es sieht momentan aber normal aus und 4G würden genügen. Siehe used. Der Rest den du in PVE siehst ist der Cache. Bitte drücke für's nächste mal z (Prozesse) und m (Sortierung nach Arbeitsspeicher).

jaja55 · Tuesday at 22:26

zu 1.)
denke das Problem ist das auf ein Target repliziert werden soll (proxmox), was gar nicht mehr existiert.

Die Befehle haben keine Lösung gebracht.

zu 2.) erledigt . Danke

zu 4.) in Arbeit ...

NEU: Habe gerade gesehen, das auf meinem Hauptknoten der Verschleiß der beiden SSD bei 78 und 85 % liegt ! Sollte ich die tauschen? Welche SSD sollte ich nehmen (Lenovo ThinkCentre M920Q i7-9700T 8x2.0GHz 32GB)

Johannes S · Tuesday at 22:46

jaja55 said:
NEU: Habe gerade gesehen, das auf meinem Hauptknoten der Verschleiß der beiden SSD bei 78 und 85 % liegt ! Sollte ich die tauschen? Welche SSD sollte ich nehmen (Lenovo ThinkCentre M920Q i7-9700T 8x2.0GHz 32GB)

Das ist bei typischen Consumer-SSDs leider normal, da ProxmoxVE relativ viele Metrik- und Loggingdaten schreibt und die darauf nicht wirklich ausgelegt sind. Daher sind Enterprise-SSDs mit power-loss-protection sehr zu empfehlen, da kann man bei geizhals nach suchen:
https://geizhals.at/?cat=hdssd&xf=7161_Power-Loss Protection&offset=0&promode=true&hloc=at&hloc=de

Leider sind die neu relativ teuer, aber für SATA findet man da oft bei Ebay oder bei Gebrauchthändlern welche, die zwar gebraucht, aber für den Heimgebrauch noch "gut genug" (sprich werden trotzdem noch lange genug halten) sind. Im M2. 8880 Format gibt es leider nicht sonderlich viele Modelle und die auch kaum gebraucht. Ich habe darum in meinen ThinkCentre eine gebrauchte Enterprise-SSD im SATA-Slot und im M2-Slot eine normale Consumer-SSD. Beide bilden zusammen einen ZFS-Mirror, ich plane halt ein die M2 früher oder später austauschen zu müssen, der ZFS Mirror soll der Notwendigkeit der Neuinstallation vorbeugen.

Impact · Wednesday at 00:45

1.) In diesem Falle könntest du probieren den Task manuell aus /etc/pve/replication.cfg zu entfernen.
4.) Ich benutze als Boot Platte aktuell meist Intel DC S4500. Gibt es recht günstig auf eBay.

jaja55 · Wednesday at 09:52

zu 1.) Danke erledigt

zu 4.) bin etwas verwirrt mit der Verschleissanzeige in Proxmox.
bei der WDC Platte liegt der Verschleiss bei 64% die 64% sehe ich auch den S.M.A.R.T Werten bei Percentage used - Zufall ?
die 78% der Samsung kann ich aus den S.M.A.R.T Werten nicht nachvollziehen
Beim PVE2 (T512...) liegt der Verschleiss bei 0 %

Find ich sehr seltsam.

jaja55 · Wednesday at 10:25

Hardware update-
Habe mich entschlossen, meine Knoten auszutauschen. Sie sind mit dem
4 x Celeron(R) J4105 CPU @ 1.50GHz und 8 GB und dem
8 x Core(TM) i7-9700T CPU @ 2.00GHz mit 16 GB zu unterschiedlich
habe jetzt zwei Fujitsu Esprimo Q556/2 Mini PC | Intel i5-7500T 16GB RAM 256GB SSD geschossen-
Mit gleicher Hardware und für meine Zwecke sicher ausreichend.
Die Frage der Platten bleibt dann aber dennoch.

@Impact
meinst du eine Platte refurbished wie diese:
https://www.ebay.de/itm/146566982350?_trksid=p4375194.c102726.m162918
oder neu:
https://www.ebay.de/itm/38915567264...yWKn/Q=|tkp:Bk9SR8iU7vTOZg&LH_ItemCondition=3

Wenn ich das richtig sehe, sind bei den Rechnern eine 256GB SSD als 2,5" Laufwerk verbaut. Dieses müsste ich dann tauschen oder eine SSD mit M.2 kaufen.

Macht es Sinn eine Enterprise SSD und eine Commercial mit Raid0 einzubauen?

Impact · Wednesday at 17:18

jaja55 said:
die 78% der Samsung kann ich aus den S.M.A.R.T Werten nicht nachvollziehen

100 - 22 = 78?

Ja diese meinte ich. Du musst aber nicht unbedingt dieses Modell nehmen. Zb. diese oder diese die günstiger sind wären sicher auch okay.
Warum eine PLP/DC Platte? Schau mal hier:
- https://www.proxmox.com/images/download/pve/docs/Proxmox-VE_ZFS-Benchmark-202011.pdf
- https://forum.proxmox.com/threads/powerloss-protection-plp-mythos.157003/

jaja55 said:
eine Commercial

Was meinst du mit Commercial? Consumer? RAID 0 finde ich nicht so sinnvoll. Kommt halt darauf an was deine Ziele sind.

jaja55 · Wednesday at 20:18

Impact said:
Was meinst du mit Commercial? Consumer? RAID 0 finde ich nicht so sinnvoll. Kommt halt darauf an was deine Ziele sind.

Ja, consumer

Raid soll nur eine Sicherheit sein, falls ne Platte ausfällt. Aber wenn ich jeweils eine Enterprise Platte nutze, bringt das sicher mehr.

Mir ist jetzt auch klar geworden, warum die Platten so verschlissen sind. An meinen Server ist in einem Jahr das 2. Netzteil kaputtgegangen.
Kein Totalausfall, sondern im Minutentakt über Tage immer wieder ein Reboot. Gut, dass die Daten das überhaupt überlebt haben. Da hatte eine USV auch nicht genützt ..

Das ist der Grund, warum ich wieder ein Cluster mache. Wahrscheinlich hat sich mein RAID0 immer wieder selbst repariert, aber ich hatte dennoch immer Server ausfälle.

Heute kommen schon meine neuen Q556/2. Wie ich mich kenne, werde nicht über das Wochenende abwarten können, bis die S3520 eintreffen. Deshalb die Frage: Kann ich die Server schon installieren und später unter Windows auf die Serverplatten klonen ? Macht es Sinn gleich v9.01 zu installieren oder bekomme ich im Cluster Probleme mit der Migration?

Danke für den tollen Support hier!

beisser · Thursday at 10:17

noch ein upvote von mir für gebrauchte enterprise ssd's. ich hab in meinen nodes alte intel ssds (s3610, s4510) und nach mehr als 2 jahren dauerbetrieb zeigen diese genau 0% verschleiss.

enterprise ssds haben zum einen exorbitante TBW-werte verglichen mit consumer ssds (die s3610 hat z.b. über 10 PBW oder 10000 TBW) und die PLP-Funktionalität erlaubt es den teilen sync-writes zu cachen, was es wiederrum erlaubt die schreibzugriffe zu reorganisieren und mit möglichst geringem verschleiss auf das NAND zu schreiben.

deswegen immer solche teile, wenn du sie bekommen kannst.
selbst wenn sie nur noch 30-50% ihrer lebensdauer haben leben sie ein vielfaches länger als jede consumer ssd (zumindest was den verschleiss angeht, spontan sterben kann jede hardware).

jaja55 · 2025-11-14T20:32:39+0100

So, zwei neue Knoten mit 500GB Intel DC S4500 und 16GB RAM eingerichtet. Funktioniert so weit alles, bis auf meine HomeAssistant VM. Die lässt sich weder migrieren, replizieren oder nach manuellem Backup und restore auf einem anderen Konten starten.
Am Speicher kann es jetzt nicht liegen.

Ich bekomme auf den beiden anderen Nodes:

kvm: cannot set up guest memory 'pc.ram': Cannot allocate memory

TASK ERROR: start failed: QEMU exited with code 1

um diese VM gehts:

die USB Geräte hab ich auf dem neuen Knoten auch herausgenommen um Fehler auszuschließen

Johannes S · 2025-11-14T20:38:51+0100

Blöde Frage kann es sein, dass sich die CPUs zwischen den Knoten unterscheiden? Poste mal bitte den Inhalt von /etc/pve/qemu-server/vmid.conf, vielleicht ergibt sich daraus ein Rückschluß.

beisser · 2025-11-14T21:26:17+0100

du hast 24.72 GB von 16GB zugewiesen. daher kommt der fehler von wegen cant allocate memory.
du kannst speicher nicht überbuchen.

reduzier das auf etwas, das in deine 16GB vom Host reinpasst, dann sollte es klappen.

24GB sind sowieso krass für Homeassistant.
Meine Instanz hier läuft mit 2GB Ram und das seit zwei Jahren.

jaja55 · 2025-11-14T23:37:40+0100

@beisser DANKE ... ich hab wohl vor langer Zeit, als die Platte zu klein wurde, versehentlich den RAM hochgeschraubt. Hab ihn jetzt mal auf 4/8 GB gestellt und alles scheint zu laufen.
Wie oft lässt du Homeassistent repliziern ?
Welche Empfehlungen gibt es für Pihole und influxdb ?

Impact · 2025-11-14T23:48:04+0100

Prüfe mal mit dem glances addon und/oder top -o%CPU und free -h via noVNC/xterm (vorher bei Bedarf login eingeben) wie viel du wirklich brauchst.

jaja55 · 2025-11-15T07:53:57+0100

Ich fürchte, der Speicher läuft schon wieder voll ...

Impact · 2025-11-15T08:09:21+0100

Vergiss den Wert im Webinterface. Das hier ist wichtig und ich sehe aktuell kein Problem

beisser · 2025-11-15T09:44:35+0100

replizieren lass ich den homeassistant (oder irgendeine andere VM/container) gar nicht.
ich mach täglich backups mit PBS.
PBS ist super.
das ist bei mir ein alter nuc8 mit i5 und 32 GB RAM (overkill für PBS, der läuft auch mit 4 oder 8 GB) und eine alten crucial MX500 2TB consumer ssd.
die tuts dafür tatsächlich ziemlich gut.
läuft mit ext4 und istgut 2 jahre in betrieb.
verschleiss der SSD im moment 5% (das beinhaltet schon früheren verschleiss aus windows pcs).
kann ich also nur empfehlen, wenn du noch ein altes stück hardware und nicht verwendete ssds hast, bau die PBS als deduplizierende Backuplösung zusammen.

pihole läuft bei mir in LXC-Containern mit sehr wenig resourcen. 512 MB Ram und 2 Cores.
influxdb und grafana sind ebenfalls container und laufen mit 2GB bzw 512 MB ram und 2 bzw 1 Core.
ich passe die resourcen eben nach oben an, wenn ich sie brauche.

hier sieht man das ram eigentlich immer das bottleneck ist:

Das sind meine zwei nodes. CPUs (mobilcpus) langweilen sich zu tode, RAM gut voll. mehr geht in die kisten leider auch nicht rain. bei 64GB ist schluss.
node 2 is voller weil er die stärkere cpu hat (12 cores vs 5 cores).

jaja55 · 2025-11-15T12:45:10+0100

Danke für die Info. Ich mache auch ein tägliches Backup auf nem Qnap. Problem ist, dass ich schon 2 x Hardwareprobleme auf Knoten hatte. Da hilft ein Backup erst mal wenig und ich hab Ausfallzeiten. Deshalb hab ich jetzt die Replikation eingebaut.
Was braucht bei dir 64 GB RAM ?
Bei mir würden jeweils noch ein 16 GB Modul hineinpassen. Aber solange mein HAS mit 4/8 GB läuft, sehe ich noch keine Notwendigkeit für eine weitere Aufrüstung

beisser · 2025-11-15T13:03:10+0100

Ist nur meine Spielwiese zuhause.

AD-Domain, redundanter Windows DHCP, redundanter Windows DNS, diverse Clientbetriebssysteme, zwei redundante Piholes gegen Werbung, eine OPNsense-Firewall (macht bei mir die PPPOE-Einwahl beim Provider), ein bisschen Monitoring (Zabbix und LibreNMS) und natürlich Homeassistant und plex.
Man will ja schliesslich auch Videos streamen

Der ganze Kram frisst im Moment 94 GB Ram auf 2 Nodes, aber kaum CPU.
Sind bei mir 2 lüfterlose Minipcs.
Ich mag es leise

Probleme mit ZFS zur Clustererstellung

Member

Renowned Member

Member

Distinguished Member

Renowned Member

Member

Member

Renowned Member

Member

Well-Known Member

Member

Distinguished Member

Well-Known Member

Member

Renowned Member

Member

Renowned Member

Well-Known Member

Member

Well-Known Member

We value your privacy