[Hilfe] Nach Stromausfall und USV-Versagen alle LVM-Pools nicht verfügbar

OK - nachdem die Server wieder laufen, habe ich mal Forensik betrieben. Die Server sind nicht unkontrolliert dunkel geworden! Sie hatten die ganze Zeit Spannung über die PSU2 / USV - die USV hatte das Kommando zum Shutdown gegeben.

Die USV war so konfiguriert, dass sie bei 50% Batteriekapazität das Kommando zum Shutdown gibt. Ich gehe davon aus, dass beim Stromausfall hier eine kurze Fehlberechnung stattgefunden hat (die Last steigt ja dann plötzlich auf das Doppelte, weil die Server nicht mehr 50:50 aus USV und Steckdose (PSU1 und PSU2) gespeist werden, sondern nur noch über die USV (PSU2). Dadurch hat sie wohl das Kommando relativ sofort ausgelöst (nach 30 Sekunden war wieder Strom vom Generator da).

Ich habe die USV jetzt so konfiguriert, dass sie nach 5 Minuten auf Batterie das Kommando gibt, und nicht nach verbleibender errechneter Batteriekapazität (die es wohl mit plötzlichen Lastwechseln nicht so hat). Wenn die USV 5 Minuten auf Batterie läuft, ist der Generator nicht angesprungen, dann darf eh heruntergefahren werden.


Aber zurück zum Proxmox: Nachdem jetzt klar ist, dass die Server nicht unkontrolliert ausgegangen sind, stellt sich die Frage, wo diese "Manual Check Required"-Meldungen herkommen. Bei einem der Server habe ich die schon Tage vorher im Log gefunden - ohne dass irgendwas nicht funktioniert hätte:

Code:
May 17 05:18:08 pmx2 pvedaemon[2688914]: <root@pam> successful auth for user 'checkmk@pve'
May 17 05:18:11 pmx2 pvestatd[4756]: activating LV 'pve/data' failed:   Check of pool pve/data failed (status:1). Manual repair required!
May 17 05:18:21 pmx2 pvestatd[4756]: activating LV 'pve/data' failed:   Check of pool pve/data failed (status:1). Manual repair required!
May 17 05:18:30 pmx2 pvestatd[4756]: activating LV 'pve/data' failed:   Check of pool pve/data failed (status:1). Manual repair required!
May 17 05:18:30 pmx2 pmxcfs[1260650]: [status] notice: received log
May 17 05:18:41 pmx2 pvestatd[4756]: activating LV 'pve/data' failed:   Check of pool pve/data failed (status:1). Manual repair required!
May 17 05:18:51 pmx2 snmpd[4465]: systemstats_linux: unexpected header length in /proc/net/snmp. 237 != 224
May 17 05:18:51 pmx2 pvestatd[4756]: activating LV 'pve/data' failed:   Check of pool pve/data failed (status:1). Manual repair required!
May 17 05:19:01 pmx2 pvestatd[4756]: activating LV 'pve/data' failed:   Check of pool pve/data failed (status:1). Manual repair required!

Ich weiß nicht, ob der
Code:
--skip-mappings
Eintrag in der LVM-Konfig hier auf Dauer irgendwas verwurschtelt - wissenswert wäre es schon. Vielleicht stößt ja jemand der Experten auf den Thread und kann dazu was sagen.

Beim zweiten Server traten die "Manual repair required" erst nach dem ersten Start auf, nachdem der Server ja, wie ich inzwischen weiß und die die Logs beweisen, ganz sauber heruntergefahren ist.
 
  • Like
Reactions: ThoSo
Das ist der Pool, der bei der installation erstellt wird.
Deine VMs laufen auf eigenen Pools.
Wird der Pve/data bei dir genutzt? Evtl vielleicht versuchen diesen zu reparieren. Oder die Meldung ignorieren, dann aber besser Platt machen und neu erstellen.
Nein, wird nicht genutzt da der auf dem "kleinen" 1TB Boot-RAID liegt.

Aber die Meldung wird bei allen LVM's angezeigt, nach Wegnehmen der "--skip-mappings"-Option aber nur noch beim Booten vor dem Proxmox-Anmeldebildschirm. In den Proxmox-Logs taucht sie seitdem nicht mehr auf.
 
Interessant ist auch der Post hier: https://bugzilla.redhat.com/show_bug.cgi?id=2028905#c2

Code:
the "--clear-needs-check-flag" is not compatible with "--super-block-only" or "--skip-mappings".

War natürlich vorher beides aktiv, "clear-needs-check" ist ja schon per Default drin.

Naja, ich lass die skip-mappings jetzt mal weg und habe den udev-Timeout hochgesetzt, damit er beim Start nicht in den Timeout läuft. Ich mag mit solchen Optionen ungerne rumexperimentieren ohne genau zu wissen, was die machen.