bad checksum in space map bitmap

proxifoxi · Nov 15, 2021

Einen schönen guten morgen wünsche ich euch, meiner ist gerade sehr gruselig da mein einer VM Server steht (genau dieser welcher auf den neuen Umziehen soll (siehe anderen Thread) und sich keine VMs starten lassen.

Es läuft hier Proxmox 7.0-8

Ich erhalte bei allen die Meldung

"kvm: -drive file=/dev/pve/vm-307-disk-0,if=none,id=drive-scsi0,discard=on,format=raw,cache=none,aio=io_uring,detect-zeroes=unmap: Could not open '/dev/pve/vm-307-disk-0': No such file or directory
TASK ERROR: start failed: QEMU exited with code 1"

Ich also nachgesehen beide HDDs (2x 4TB) sind vorhanden und zeigen keine Fehler an.
Server neustart !
Hier sehe ich bei Booten

'Found volume group "pve" using metadata type lvm2
bad checksum in space map bitmap (block 11781)
Check of pool pve/data failed (status:1). Manual repair required!
bad checksum in space map bitmap (block 11781)
bad checksum in space map bitmap (block 11781)
bad checksum in space map bitmap (block 11781)
bad checksum in space map bitmap (block 11781)'

Bin für jede Hilfe echt dankbar...da ich im Moment absolut nicht weiß was ich machen soll.

Vielen Danke schon einmal vor ab..

Eure Foxi

proxifoxi · Nov 15, 2021

hmm ich sehe gerade das da ein :

lvconvert --repair pve/data

helfen soll , ist das richtig ?

Grüße
Foxi

proxifoxi · Nov 15, 2021

hmm habe ihn laufen lassen und augenscheinlich hat er auch alles gefixt....
d.h.
Ich kann die VMs wieder starten

Jetzt habe ich das Problem das meine Win10 VM Plattenfehler meldet

und das Outlook sich beim starten aufhängt

Jemand einen Tipp ?

Proxmox meldet

[ 3361.072982] EXT4-fs warning (device dm-15): ext4_end_bio:342: I/O error 10 writing to inode 919860 starting block 33812)
[ 3361.072989] Buffer I/O error on device dm-15, logical block 33812
[ 3661.090170] EXT4-fs warning (device dm-15): ext4_end_bio:342: I/O error 10 writing to inode 919860 starting block 33812)
[ 3661.090177] Buffer I/O error on device dm-15, logical block 33812

Update :

Ich sehe gerade das das Proxmox FS wohl doch noch immer defekt ist da auch andere VMs Plattenfehler melden..

och menno ...

Was kann ich nur machen ?

Grüße eine verzweifelte
Foxi

proxifoxi · Nov 15, 2021

Leute ich bin echt verzweifelt .... Keiner eine Idee was ich machen kann ??? OHNE Neuinstallation (rücksicherung der VMs)
Und wie kann es zu so einem Crash kommen ? Ich dachte ZFS und Mirror wäre stabil

fabian · Nov 15, 2021

hier fehlen ein bisschen infos (welche platten sind wie genau eingebunden?) - aber die fehlermeldungen klingen fuer mich nach hardware problemen. erster schritt in dem fall waere sichern der disks direkt (z.b. mittels dd/ddrescue), dann versuchen zu reparieren, und im worst case teilweise daten zu retten (und den rest aus backups wiederherzustellen).

proxifoxi · Nov 15, 2021

ok ich habe hier einen "dummen" Fehler gemacht als ich es damals erstellt hatte das fällt mir erst jetzt leider auf

Eigentlich sollten die VMs auf den 2x 4TB HDDs liegen was leider nicht so ist, sie liegen mit auf der BS-SSD (2TB Samsung SSD 870 QVO)

hier mal eine Übersicht :

Ich werde jetzt erst einmal folgendes Versuchen

1.) Die Kabel und den Anschluss der SSD auf dem Mainboard wechseln
2.) Wenn 1.) nix bringt versuchen die Images auf die HDDs umzuziehen (ggf aus einem Backup)

Ich melde mich wieder

In guter Hoffnung

Eure Foxi

proxifoxi · Nov 15, 2021

hmm ok die Sata Kabel waren es nicht die habe ich gerade komplett getauscht..

253:4 ist laut der Liste oben pve-data-tpool

Wenn ich obige Meldung richtig interpretiere so ist 253:4 RO gemountet oder sehe ich das falsch ?
Wie kann ich das denn an der Console prüfen ob 253:4 RO oder RW gemountet ist ?

Grüße
Foxi

fabian · Nov 15, 2021

ein thin pool wird nicht gemounted, der ist aehnlich wie eine volume group ein container fuer mehrere volumes (die dann wiederum eventuell ein filesystem beinhalten, das gemounted wird). lvs gibt vielleicht mehr info

proxifoxi · Nov 15, 2021

ok, also was ich aktuell gemacht habe...

pve aushängen um die Reparatur laufen zu lassen

lvchange -an pve
lvconvert --repair pve/data -v

hier bekomme ich aber jetzt die Meldung

activation/volume_list configuration setting not defined: Checking only host tags for pve/lvol1_pmspare.
Creating pve-lvol1_pmspare
Loading table for pve-lvol1_pmspare (253:2).
Resuming pve-lvol1_pmspare (253:2).
activation/volume_list configuration setting not defined: Checking only host tags for pve/data_tmeta.
Creating pve-data_tmeta
Loading table for pve-data_tmeta (253:3).
Resuming pve-data_tmeta (253:3).
Executing: /usr/sbin/thin_repair -i /dev/mapper/pve-data_tmeta -o /dev/mapper/pve-lvol1_pmspare
Piping: /usr/sbin/thin_dump /dev/mapper/pve-lvol1_pmspare
Removing pve-data_tmeta (253:3)
Removing pve-lvol1_pmspare (253:2)
Preparing pool metadata spare volume for Volume group pve.
Volume group "pve" has insufficient free space (143 extents): 4048 required.
WARNING: LV pve/data_meta1 holds a backup of the unrepaired metadata. Use lvremove when no longer required.

Bringt es was hier ev. eine VM zu löschen , denn wenn ich die letzte Zeile richtig verstehe hat er zuwenig Platz zum Reparieren oder ?
Lösung dafür ?

Ich sehe gerade auf der Weboberfläche folgendes ist das ev. schon das Problem ? Wenn ja wie behebe ich es ?

Beim einbinden kommt wieder das hier

Ich bin jetzt echt Ratlos was ich noch machen kann, wie komme ich denn nun weiter das ich es Reparieren kann um es dann wieder RW einzubinden ?

Grüße
Foxi

fabian · Nov 16, 2021

hast du eine kopie deiner platten gemacht? wie gesagt waere das eigentlich der erste schritt bevor du versuchst irgendwelche rettungsaktionen durchzufuehren, weil die potentiell alles schlimmer machen koennen.. mir fehlt immer noch der lvs output

proxifoxi · Nov 16, 2021

Ach sorry, bin durch den Crash so durch den wind ...dachte ich hätte den lvs hier gepostet...

Grüße
Foxi

Wenn die VMs verloren gehen wäre das zwar nicht schön, aber ich habe noch Backups auf dem PBS vom 13.11

die habe ich nun zurückgespielt mit einer neuen VMID und als zielstorage nun das ZFS mit den 2x4TB HDDs angegeben.

Ich würde natürlich trotzdem gerne den local storage wieder repariert bekommen.

Grüße
Foxi

fabian · Nov 16, 2021

okay also voll duerfte er nicht sein (ist ja auch eine gaengige quelle von corruption/problemen bei LVM thin). wie gesagt, ich wuerde als erstes eine 1:1 kopie von den platten machen (z.b. mit dd oder ddrescue), damit du destruktive reparaturen guten gewissens ausprobieren kannst. danach wuerde ich als erstes mal das swap LV loeschen, damit hast du hoffentlich genug freien platz in der VG um das repair kommando durchlaufen zu lassen. smart werte anschauen oder nen smart test machen hilft vielleicht bei der einschaetzung ob die platte selbst defekt ist - wuerde ich aber auch erst NACH dem ziehen eines backups der gesamten platte machen.

proxifoxi · Nov 16, 2021

OK, also ich sehe gerade das ich den "local-lvm" Theoretisch komplett leeren könnte (da ich von allem VMs ja ein Backup habe welches ich schon wieder auf das ZFS System (2x4TB HDD) Recovert habe und die laufen auch schon wieder)

Wie soll ich denn deiner Meinung nach nun am besten vorgehen ?

Grüße
Foxi

fabian · Nov 16, 2021

in dem fall wuerde ich mal schauen was smart zu den drunter liegenden platten sagt (extended self test machen, aktuelle werte anschauen). den thin pool kannst du mit lvremove entfernen wenn du ihn nicht mehr brauchst - aber auf den platten liegt ja auch / von deinem system, daher wuerde ich mich erstmal drum kuemmern sicher zu gehen dass sie noch in ordnung sind.

proxifoxi · Nov 18, 2021

Also der smart sagt mir es wäre alles OK !
somit hat die SSD nix, jetzt müsste ich Quasi den ThinPool irgendwie killen muss ich das von einem extra Livesystem machen ?
Weil aktuell ist das ja alles irgendwie "in Use" da ja das BS darauf läuft...

fabian · Nov 18, 2021

sollte mit lvremove auch im laufenden betrieb gehen, sofern nix mehr drauf zugreift

proxifoxi · Nov 18, 2021

hmm klappt leider nicht

oder muss ich erst ein

lvremove pve/data_meta0
lvremove pve/data_meta1

machen ???

Grüße
Foxi

fabian · Nov 19, 2021

da brauchts vielleicht noch ein --force oder zwei

proxifoxi · Dec 8, 2021

also ich komme hier partou nicht wirklich weiter

bestimmt x mal durchlaufen lassen aber nach dem neu booten immer wieder diese Meldung in der 1. Zeile

253:3 ist der pve-data-tpool (Fehler Verursacher)
253:4 ist pve-data (der lvconvert --repair) läuft hier augenscheinlich problemlos durch

Gibt es irgendeine Möglichkeit einen Plattencheck beim Booten anzustoßen ?
Habe mal einen "touch /forcefsck" im / gemacht , nach einem neustart hat er wohl auch einen Plattencheck gemacht aber die Fehlermeldung (1.Zeile) bleibt und somit bekomme ich das nicht bereinigt da weiter ReadOnly

Meine VMs sind mittlerweile auf ein ZFS Raid gewandert und verrichten dort ihren Dienst !

Bildschirmfoto vom 2021-12-08 09-51-45.png

Bin für jede Hilfe echt Dankbar..

Grüße
eure Foxi

fabian · Dec 9, 2021

hast du das denn schon probiert:

https://forum.proxmox.com/threads/bad-checksum-in-space-map-bitmap.99712/#post-430554

bad checksum in space map bitmap

Active Member

Active Member

Active Member

Active Member

Proxmox Staff Member

Active Member

Active Member

Proxmox Staff Member

Active Member

Proxmox Staff Member

Active Member

Proxmox Staff Member

Active Member

Proxmox Staff Member

Active Member

Proxmox Staff Member

Active Member

Proxmox Staff Member

Active Member

Proxmox Staff Member

We value your privacy