Brauch mal wieder denkanstoss für zfs pool - disc remove

endurance · Mar 16, 2023

wie bekomme ich die disk 6429... hier raus? die ist eigentlich ersetzt (war vorher die sdd1). Hätte jetzt in meiner naivität gedacht

Code:

zpool remove backup-storage 6429726373323778672

--> cannot remove 6429726373323778672: operation not supported on this type of pool

würde das entfernen aber wei man sieht kommt eine Fehlermeldung, Dir mir nicht wirklich was sagt. Die platte ist schon ersetzt worden, aber wie bekomme ich die Leiche (kam nach einem reboot) da jetzt weg?

Falk R. · Mar 16, 2023

Warum machst du nicht was in der GUI steht?
zpool replace

mr44er · Mar 16, 2023

Äh vorsichtig mit removen etc als Befehl. Das ist nicht direkt, was du willst und zum Glück hat das hier nicht geklappt!

Der zpool gibt dir schon den Tip, was gemacht werden sollte: 'replace the device using zpool replace'

Was du wahrscheinlich willst:
zpool replace poolname randomID /dev/ersetztedisk
zpool replace backup-storage 6429726373323778672 /dev/sdd1

Aber hier scheint was vermurkst zu sein, /dev/sdd1 ist bzw. war 2x bereits im pool. Das kann nicht stimmen.

Dunuin · Mar 16, 2023

Wie hast du die Disk denn ersetzt? Ich vermute du hast beim Ersetzen etwas vermurkst.

Mit zpool history backup-storage kannst du gucken, was du gemacht hattest.

Falk R. · Mar 16, 2023

Es kann gut sein, dass nach einem Reboot jetzt eine andere Disk sdd ist.
Wenn deine neue Disk als unbenutzt unter Disks auftaucht, einfach den replace durchführen.

endurance · Mar 16, 2023

Falk R. said:
Warum machst du nicht was in der GUI steht?
zpool replace

Das hatte ich nat auch probiert - aber die neue disk ist ja schon drin (sdd1). Außerdem findet er keine disk mit dem random/alten devicenamen (gibt es ja auch nicht).

zpool replace backup-storage 6429726373323778672
cannot open '6429726373323778672': no such device in /dev
must be a full path or shorthand device name

Ich vermute mal das derjenige, der das reparieren wollte, einfach die Platte bei Fehler getauscht hat und dann wurde der Rechner rebootet. In der history ist kein replace zu sehen nur ein scrub (mitten in der nacht) und ein zpool import -c /etc/zfs/zpool.cache -aN (vermute mal das passiert immer beim reboot?) sieht zumindest zeitlich so aus.

hier mal die history

Code:

023-01-25.16:22:28 zpool create -o ashift=12 -m /mnt/datastore/backup-storage backup-storage raidz sdb sdc sdd sde sdf sdg
2023-01-25.16:22:29 zfs set compression=on relatime=on backup-storage
2023-01-26.14:15:02 zpool import -c /etc/zfs/zpool.cache -aN
2023-02-12.00:24:05 zpool scrub backup-storage
2023-03-09.10:21:50 zpool import -c /etc/zfs/zpool.cache -aN
2023-03-16.09:35:57 zpool offline backup-storage 6429726373323778672
2023-03-16.10:05:13 zpool clear backup-storage
2023-03-16.10:05:48 zpool online backup-storage 6429726373323778672

und das aktuelle disksetup (ohne pbs boot system)

Code:

lsblk -o NAME,UUID,FSTYPE,FSUSE%,TYPE,SIZE,MOUNTPOINT,MODEL
NAME         UUID                                   FSTYPE      FSUSE% TYPE   SIZE MOUNTPOINT MODEL                                 
sdb                                                                    disk 279.4G            LOGICAL_VOLUME
├─sdb1       14973201642163664498                   zfs_member         part 279.4G                         
└─sdb9                                                                 part     8M                         
sdc                                                                    disk 279.4G            LOGICAL_VOLUME
├─sdc1       14973201642163664498                   zfs_member         part 279.4G                         
└─sdc9                                                                 part     8M                         
sdd                                                                    disk 279.4G            LOGICAL_VOLUME
├─sdd1       14973201642163664498                   zfs_member         part 279.4G                         
└─sdd9                                                                 part     8M                         
sde                                                                    disk 279.4G            LOGICAL_VOLUME
├─sde1       14973201642163664498                   zfs_member         part 279.4G                         
└─sde9                                                                 part     8M                         
sdf                                                                    disk 279.4G            LOGICAL_VOLUME
├─sdf1       14973201642163664498                   zfs_member         part 279.4G                         
└─sdf9                                                                 part     8M

hmm halt da fehlt sdg ich muss mal selber an die kiste, irgendwas ist da faul.

Falk R. · Mar 16, 2023

Durch den Reboot sind die neu durchnummeriert worden. Das ist ganz normal.
Also sollte die getauschte Disk als sdg auftauchen.
In einem RaidZ kannst du keine Disks entfernen oder hinzufügen, nur ein weiteres RaidZ vdev.
Also neue Disk noch einmal kontrollieren und dann replace durchführen.

mr44er · Mar 16, 2023

endurance said:
Außerdem findet er keine disk mit dem random/alten devicenamen (gibt es ja auch nicht).

Ja, das ist auch nur ein Platzhalter mit einer randomID, damit man im pool altedisk bzw. den slot beim replace definieren kann.

Die Frage ist auch, ob das initial ein raidz1 mit 5 oder 6 disks war/sein sollte. Wenn du sagst, dass sdg fehlt, rate ich mal auf 6 disks. Edit: ~~Dann könnte es sein, dass der pool unbemerkt auch nur mit 5 erstellt wurde. (Das sollte dann am Anfang von zpool history stehen)~~ War Blödsinn, steht ja da mit 6 Stück.

Und ja, ich vermute auch, dass die neue disk dann unter anderem Namen auftaucht. Was aber nicht schlimm ist, denn ZFS schreibt an Anfang und Ende Metadaten (disk oder Partition), damit es ganz sicher zuordnen kann und man einen pool auch wild zerwürfelt importieren kann.

zpool replace backup-storage 6429726373323778672

Da fehlt die neuedisk. Der Befehl ist so aufgebaut: zpool replace pool altediskoderplatzhalter neuedisk

endurance · Mar 16, 2023

gerade mal im kernel log gewühlt, da im ILOM 6 disks drin sind linux aber nur 5 sieht.
hpsa 0000:05:00.0: addition failed -19, device not added

da scheint es noch ein kleines problem mit dem Kontroller und Kernel zu geben. Das muss zuerst gelöst werden. Wenn die dann da ist, sollte danach das mit dem replace hoffentlich auch klappen (und ja klaro zwei disks beim replace kommando, war eine reine Verzweifelung, nur mit der random id, um zu sehen was passiert, dachte da noch, dass alle disks da sind).

endurance · Mar 20, 2023

Nur kurzes update - das problem mit dem HP controller scheint es wohl auch bei RHEL etc. zu geben. Sprich manche Platten werden einfach nicht sauber eingebunden. Das issue ist also weder ZFS noch Proxmox verursacht.
Sondern HP<-> kernel in Kombi mit dem vor der Tastatur, der das nicht erkannt hatte

Falk R. · Mar 20, 2023

Welchen Controller benutzt du und in welchem Modus?

endurance · Mar 21, 2023

HP 410i. Ist eine HP G7 (also recht alt). das ZFS hatte wurde wohl auch nur mit krücke über logical volume und cache aus eingerichtet. Ich weiss sollte man mit ZFS nur im HBA mode... hat aber eine ganze Weile funktioniert und ich sehe das Problem immer noch eher bei der Erkennung/einbindung der neuen Disk.

Es werden acht platten erkannt.
[ +0.000008] hpsa 0000:05:00.0: scsi 2:0:1:0: masked Direct-Access HP DG0146FARVU PHYS DRV SSDSmartPathCap- En- Exp=0
[ +0.000007] hpsa 0000:05:00.0: scsi 2:0:2:0: masked Direct-Access HP EG0300FBDBR PHYS DRV SSDSmartPathCap- En- Exp=0
[ +0.000006] hpsa 0000:05:00.0: scsi 2:0:3:0: masked Direct-Access HP EG0300FBDBR PHYS DRV SSDSmartPathCap- En- Exp=0
[ +0.000005] hpsa 0000:05:00.0: scsi 2:0:4:0: masked Direct-Access HP EG0300FCVBF PHYS DRV SSDSmartPathCap- En- Exp=0
[ +0.000006] hpsa 0000:05:00.0: scsi 2:0:5:0: masked Direct-Access HP EG0146FAWHU PHYS DRV SSDSmartPathCap- En- Exp=0
[ +0.000006] hpsa 0000:05:00.0: scsi 2:0:6:0: masked Direct-Access HP EG0300FBDBR PHYS DRV SSDSmartPathCap- En- Exp=0
[ +0.000006] hpsa 0000:05:00.0: scsi 2:0:7:0: masked Direct-Access HP EG0300FAWHV PHYS DRV SSDSmartPathCap- En- Exp=0
[ +0.000006] hpsa 0000:05:00.0: scsi 2:0:8:0: masked Direct-Access HP EG0300FAWHV PHYS DRV SSDSmartPathCap- En- Exp=0
Zwei gehen in ein RAID und 6 in logical volume für ZFS.
Für scsi 2:1:0:3? kommt dann aber im syslog
[ +0.000640] hpsa 0000:05:00.0: addition failed -19, device not added.
Die meldung habe ich hier (finde den Beitrag nicht mehr) auch schon gefunden und es wurde immer auf HP support verwiesen.

Vermutlich werden wir für die alten kisten dann eher wieder hardware array und ext4 einsetzen.

[ +0.002171] hpsa 0000:05:00.0: scsi 2:0:0:0: added RAID HP P410i controller SSDSmartPathCap- En- Exp=1
[ +0.000008] hpsa 0000:05:00.0: scsi 2:0:1:0: masked Direct-Access HP DG0146FARVU PHYS DRV SSDSmartPathCap- En- Exp=0
[ +0.000007] hpsa 0000:05:00.0: scsi 2:0:2:0: masked Direct-Access HP EG0300FBDBR PHYS DRV SSDSmartPathCap- En- Exp=0
[ +0.000006] hpsa 0000:05:00.0: scsi 2:0:3:0: masked Direct-Access HP EG0300FBDBR PHYS DRV SSDSmartPathCap- En- Exp=0
[ +0.000005] hpsa 0000:05:00.0: scsi 2:0:4:0: masked Direct-Access HP EG0300FCVBF PHYS DRV SSDSmartPathCap- En- Exp=0
[ +0.000006] hpsa 0000:05:00.0: scsi 2:0:5:0: masked Direct-Access HP EG0146FAWHU PHYS DRV SSDSmartPathCap- En- Exp=0
[ +0.000006] hpsa 0000:05:00.0: scsi 2:0:6:0: masked Direct-Access HP EG0300FBDBR PHYS DRV SSDSmartPathCap- En- Exp=0
[ +0.000006] hpsa 0000:05:00.0: scsi 2:0:7:0: masked Direct-Access HP EG0300FAWHV PHYS DRV SSDSmartPathCap- En- Exp=0
[ +0.000006] hpsa 0000:05:00.0: scsi 2:0:8:0: masked Direct-Access HP EG0300FAWHV PHYS DRV SSDSmartPathCap- En- Exp=0
[ +0.000005] hpsa 0000:05:00.0: scsi 2:0:9:0: masked Enclosure PMCSIERA SRC 8x6G enclosure SSDSmartPathCap- En- Exp=0
[ +0.000006] hpsa 0000:05:00.0: scsi 2:1:0:0: added Direct-Access HP LOGICAL VOLUME RAID-1(+0) SSDSmartPathCap- En- Exp=1
[ +0.000006] hpsa 0000:05:00.0: scsi 2:1:0:1: added Direct-Access HP LOGICAL VOLUME RAID-0 SSDSmartPathCap- En- Exp=1
[ +0.000006] hpsa 0000:05:00.0: scsi 2:1:0:2: added Direct-Access HP LOGICAL VOLUME RAID-0 SSDSmartPathCap- En- Exp=1
[ +0.000006] hpsa 0000:05:00.0: scsi 2:1:0:3: added Direct-Access HP LOGICAL VOLUME RAID-0 SSDSmartPathCap- En- Exp=1
[ +0.000006] hpsa 0000:05:00.0: scsi 2:1:0:4: added Direct-Access HP LOGICAL VOLUME RAID-0 SSDSmartPathCap- En- Exp=1
[ +0.000006] hpsa 0000:05:00.0: scsi 2:1:0:5: added Direct-Access HP LOGICAL VOLUME RAID-0 SSDSmartPathCap- En- Exp=1
[ +0.000006] hpsa 0000:05:00.0: scsi 2:1:0:6: added Direct-Access HP LOGICAL VOLUME RAID-0 SSDSmartPathCap- En- Exp=1
[ +0.000136] hpsa can't handle SMP requests
[ +0.000393] scsi 2:0:0:0: RAID HP P410i 6.64 PQ: 0 ANSI: 5
[ +0.000736] scsi 2:1:0:0: Direct-Access HP LOGICAL VOLUME 6.64 PQ: 0 ANSI: 5
[ +0.000641] scsi 2:1:0:1: Direct-Access HP LOGICAL VOLUME 6.64 PQ: 0 ANSI: 5
[ +0.000610] scsi 2:1:0:2: Direct-Access HP LOGICAL VOLUME 6.64 PQ: 0 ANSI: 5
[ +0.000640] hpsa 0000:05:00.0: addition failed -19, device not added.
[ +0.000253] scsi 2:1:0:4: Direct-Access HP LOGICAL VOLUME 6.64 PQ: 0 ANSI: 5
[ +0.000606] scsi 2:1:0:5: Direct-Access HP LOGICAL VOLUME 6.64 PQ: 0 ANSI: 5
[ +0.000770] scsi 2:1:0:6: Direct-Access HP LOGICAL VOLUME 6.64 PQ: 0 ANSI: 5
[ +0.000898] scsi 2:0:0:0: Attached scsi generic sg1 type 12
[ +0.000431] sd 2:1:0:0: Attached scsi generic sg2 type 0
[ +0.000399] sd 2:1:0:0: [sda] 286677120 512-byte logical blocks: (147 GB/137 GiB)
[ +0.000024] sd 2:1:0:1: Attached scsi generic sg3 type 0
[ +0.000137] sd 2:1:0:0: [sda] Write Protect is off
[ +0.000004] sd 2:1:0:0: [sda] Mode Sense: 6b 00 00 08
[ +0.000157] scsi 2:1:0:2: Attached scsi generic sg4 type 0
[ +0.000129] sd 2:1:0:0: [sda] Write cache: disabled, read cache: enabled, doesn't support DPO or FUA
[ +0.000067] sd 2:1:0:1: [sdb] 585871964 512-byte logical blocks: (300 GB/279 GiB)
[ +0.000025] scsi 2:1:0:4: Attached scsi generic sg5 type 0
[ +0.000113] sd 2:1:0:1: [sdb] Write Protect is off
[ +0.000003] sd 2:1:0:1: [sdb] Mode Sense: 6b 00 00 08
[ +0.000073] scsi 2:1:0:5: Attached scsi generic sg6 type 0
[ +0.000098] sd 2:1:0:2: [sdc] 585871964 512-byte logical blocks: (300 GB/279 GiB)
[ +0.000100] sd 2:1:0:6: Attached scsi generic sg7 type 0
[ +0.000005] sd 2:1:0:1: [sdb] Write cache: disabled, read cache: enabled, doesn't support DPO or FUA
[ +0.000055] sd 2:1:0:2: [sdc] Write Protect is off
[ +0.000004] sd 2:1:0:2: [sdc] Mode Sense: 6b 00 00 08
[ +0.000221] sd 2:1:0:4: [sdd] 585871964 512-byte logical blocks: (300 GB/279 GiB)
[ +0.000134] sd 2:1:0:2: [sdc] Write cache: disabled, read cache: enabled, doesn't support DPO or FUA
[ +0.000130] sd 2:1:0:4: [sdd] Write Protect is off
[ +0.000004] sd 2:1:0:4: [sdd] Mode Sense: 6b 00 00 08
[ +0.000025] sd 2:1:0:5: [sde] 585871964 512-byte logical blocks: (300 GB/279 GiB)
[ +0.000246] sd 2:1:0:5: [sde] Write Protect is off
[ +0.000004] sd 2:1:0:5: [sde] Mode Sense: 6b 00 00 08
[ +0.000016] sd 2:1:0:6: [sdf] 585871964 512-byte logical blocks: (300 GB/279 GiB)
[ +0.000075] sd 2:1:0:4: [sdd] Write cache: disabled, read cache: enabled, doesn't support DPO or FUA
[ +0.000137] sd 2:1:0:6: [sdf] Write Protect is off
[ +0.000003] sd 2:1:0:6: [sdf] Mode Sense: 6b 00 00 08
[ +0.000160] sd 2:1:0:5: [sde] Write cache: disabled, read cache: enabled, doesn't support DPO or FUA
[ +0.000213] sd 2:1:0:6: [sdf] Write cache: disabled, read cache: enabled, doesn't support DPO or FUA
[ +0.012391] bnx2 0000:04:00.0 enp4s0f0: renamed from eth2
[ +0.002707] sde: sde1 sde9
[ +0.000320] sdf: sdf1 sdf9
[ +0.000782] sd 2:1:0:5: [sde] Attached SCSI disk
[ +0.000176] sd 2:1:0:6: [sdf] Attached SCSI disk
[ +0.007783] sdd: sdd1 sdd9
[ +0.001284] sd 2:1:0:4: [sdd] Attached SCSI disk
[ +0.003453] sdc: sdc1 sdc9
[ +0.001289] sd 2:1:0:2: [sdc] Attached SCSI disk
[ +0.000454] sdb: sdb1 sdb9
[ +0.001202] sd 2:1:0:1: [sdb] Attached SCSI disk
[ +0.011681] sda: sda1 sda2 sda3
[ +0.001404] sd 2:1:0:0: [sda] Attached SCSI disk

Falk R. · Mar 21, 2023

@endurance
Bei dem P410 kannst du keinen HBA Mode machen. vermutlich habt ihr auch jeweils ein Raid0 erstellt.
Das Raid0 der defekten Disk muss gelöscht werden und neu angelegt werden, damit der Host die neue Disk erkennt.

endurance · Mar 28, 2023

Moin yepp - die alte kiste kann kein HBA und deswegen hat der Kollege wie vermutet (und steht auch so im log) R0 pro platte eingerichtet. R0 verwenden wir sonst nie von daher naiver Weise davon ausgegangen, dass man hier auch einfach die Platte tauschen kann und dann richtet sich das von alleine. Nach löschen neu anlegen ging dann auch ZFS.
Aber so macht das keinen Sinn, wir werden die alten Kisten dann eher ausmustern bzw. mit HW raid betreiben (ohne ZFS)

Falk R. · Mar 28, 2023

endurance said:
Moin yepp - die alte kiste kann kein HBA und deswegen hat der Kollege wie vermutet (und steht auch so im log) R0 pro platte eingerichtet. R0 verwenden wir sonst nie von daher naiver Weise davon ausgegangen, dass man hier auch einfach die Platte tauschen kann und dann richtet sich das von alleine. Nach löschen neu anlegen ging dann auch ZFS.
Aber so macht das keinen Sinn, wir werden die alten Kisten dann eher ausmustern bzw. mit HW raid betreiben (ohne ZFS)

Bei dem Alter der Hardware lohnt sich der Austausch ganz schnell durch den eingesparten Strom. Also am besten mit HBA oder einem modernen Raid Controller nutzen. Ab HPE Gen10 können die Smart Array einen sauberen Mixed Mode, dann kannst du Raid für das OS nutzen und alle anderen Disks werden sauber im HBA Mode durchgereicht.

endurance · Mar 28, 2023

Falk R. said:
Ab HPE Gen10 können die Smart Array einen sauberen Mixed Mode, dann kannst du Raid für das OS nutzen und alle anderen Disks werden sauber im HBA Mode durchgereich

Yepp - gerade eine GEN10 mit Mirrored OS Bootdisks und HBA für ZFS aufgesetzt. Das erste mal auch auf AMD gesetzt. Das funktioniert ohne Probleme.
Das Proxmox setup ist noch im Testaufbau um von VMWare (aber die freie Version) weg zu kommen. Challenge ist ein platten und netzwerk setup das sich auf möglichst allen Rechnern umsetzen lässt - ist bei bestehendem Umfeld etwas längerer Prozess und wir lernen hier auch noch.

Falk R. · Mar 28, 2023

endurance said:
Yepp - gerade eine GEN10 mit Mirrored OS Bootdisks und HBA für ZFS aufgesetzt. Das erste mal auch auf AMD gesetzt. Das funktioniert ohne Probleme.
Das Proxmox setup ist noch im Testaufbau um von VMWare (aber die freie Version) weg zu kommen. Challenge ist ein platten und netzwerk setup das sich auf möglichst allen Rechnern umsetzen lässt - ist bei bestehendem Umfeld etwas längerer Prozess und wir lernen hier auch noch.

Wenn du Fragen zum Thema vSphere zu Proxmox hast, kannst mich auch per PM anschreiben.

Search

Search

Brauch mal wieder denkanstoss für zfs pool - disc remove

endurance

Member

Falk R.

Distinguished Member

mr44er

Active Member

Dunuin

Distinguished Member

Falk R.

Distinguished Member

endurance

Member

Falk R.

Distinguished Member

mr44er

Active Member

endurance

Member

endurance

Member

Falk R.

Distinguished Member

endurance

Member

Falk R.

Distinguished Member

endurance

Member

Falk R.

Distinguished Member

endurance

Member

Falk R.

Distinguished Member