Search results

  1. L

    [SOLVED] ceph tot > desaster recovery

    ...die 13 PGs habe ich online bekommen, indem ich die beiden blockierenden OSD's des ausgefallenen Knotens n05 als 'lost' markiert habe. Nach einigen Stunden waren dann alle PGs 'active+clean' & ausnahmslos alle VMs und CTs ließen sich starten... NULL Datenverlust; keine Restores nötig ^^ :cool:
  2. L

    [SOLVED] ceph tot > desaster recovery

    Hallo Falk - vielen Dank für diese Tips & deine Mithilfe hier im Thread!
  3. L

    [SOLVED] ceph tot > desaster recovery

    Aaron, see my smile :) ...ceph ist fleißig bei der Arbeit
  4. L

    [SOLVED] ceph tot > desaster recovery

    rocksdb: IO error... [EDIT] nb: auf einem anderen, gesunden ceph cluster bekomme ich dieselbe Meldung... [EDIT2] ...musste den ceph-mon@.n03 daemon erst stoppen... dann ging's
  5. L

    [SOLVED] ceph tot > desaster recovery

    Hallo Aaron ...vielen Dank für die Hinweise & Links - leider gibt ceph mon getmap -o /tmp/monmap ein timeout :-( [EDIT] sry - eben gesehen ich muss mit Variante B verfahren - wie du erwähnt hast ^^
  6. L

    [SOLVED] ceph tot > desaster recovery

    Der ceph-mgr daemon läuft: Der ceph-mon daemon läuft: dennoch läuft pveceph sowie das proxmox-UI ins Timeout- zB beim Versuch neue Monitore und/oder Manager zu kreieren :-( Vermutlich weil auf /var/run/ceph/ nur ein ceph-mon socket läuft (kein ceph-mgr socket);
  7. L

    [SOLVED] ceph tot > desaster recovery

    ...und: Knoten n05 ist tot - die Sys-SSD hat sich verabschiedet (das war wohl auch die urpsrüngliche Ursache der Misere). Damit ist n03 der einzige verbliebene mon :-/
  8. L

    [SOLVED] ceph tot > desaster recovery

    Hallo Falk & alle Folgendes update kann ich geben: ich konnte den keyring für die nicht startenden ceph-mgr erstellen: touch /var/lib/ceph/mgr/ceph-n03/keyring ceph-authtool /var/lib/ceph/mgr/ceph-n03/keyring --gen-key -n mgr.n03 ...und somit läuft auf allen Knoten jetzt ein ceph-mgr-daemon...
  9. L

    [SOLVED] ceph tot > desaster recovery

    ...wobei die Situation vor dem Reboot ident war :-/ ...wenn damit zB ein ceph-mgr@n02 gemeint ist - ja läuft laut systemctl status... Und dennoch sehe ich im GUI keine Manager angeführt :-(
  10. L

    [SOLVED] ceph tot > desaster recovery

    ...interessanterweise läuft ja (bis auf n03 und n05) ceph-mgr@n..: Das hinzufügen eines Monitors oder Managers funktioniert nicht (Timeout) - auch auf der Console läuft zB ein **ceph -s** ebenfalls timeout
  11. L

    [SOLVED] ceph tot > desaster recovery

    Hallo Zusammen Vielleicht kann mir jemand helfen; mein ceph ist tot & ich kann ihn nicht wiederbeleben :-( Der betroffene Cluster hat 7 Knoten 2 OSDs je Knoten (1 x HDD, 1 x SSD) 4 Pools: cephfs, hdd-only mit erasure, hdd-only mit 3/2, ssd-only mit 3/2 3 ceph-mon auf n01 n03 n05 (wobei n01...
  12. L

    Replace dead node that had ceph services running

    All right -> apt-dist-upgraded all nodes (including the replacement node) -> added the replacement node to the cluster, installed ceph, wiped (the old) ceph osd disks -> created new osd's -> it's remapping and backfilling -> all looks fine 8-) again, aaron: tx a lot!!!
  13. L

    Replace dead node that had ceph services running

    aaron, thank you so much! Cleaning up worked fine - I'll add the replacement node soon and report back how it worked out _^.^_ (edit:typo)
  14. L

    Replace dead node that had ceph services running

    Hello all I have a dead node (system hd went bust) with ceph OSDs and monitor running. The manual describes that the node can be removed and that a new node with same IP and hostname can in fact be added provided it is a fresh PVE install. However, with ceph, things might be more difficult...
  15. L

    Remove a node from cluster and add a new one with same name

    ...I ended up in a similar situation -> system-hd of a node died -> new system-hd -> fresh PVE install Just to be sure: I can join it to the cluster with same IP address and host name, right? Further: After removing the node from the cluster, its OSD's and its monitor service are still shown...
  16. L

    pveceph osd create /dev/sda fails

    Fiona tx a lot for the debsums -s hint! Indeed it reported quite a lot of changed files on the affected node. Amoung them several ceph packages; as well as pve kernel modules. After checking syslog I also see I/O Erros on the node's system msata-ssd. Looks like the node will receive a new ssd...
  17. L

    pveceph osd create /dev/sda fails

    Hi all Prologue: I had a unresponsive node (let's call it #6) which I could ping; the node's osd was up and in; however I could not ssh into it (err: "broken pipe" directly after entering the password). So i turned it off; then on. It booted, however it's osd did not start Next I updated all...
  18. L

    [SOLVED] OSDs fail on on one node / cannot re-create

    Alwin, thank you so much for assisting on this - I have my OSDs up and running again. So the only thing I needed to do was a find /usr -name '*.pyc' -delete At first I tried to hunt down the specific __init__.pyc files all over the paths - until I felt confident enough to dispose them all...
  19. L

    [SOLVED] OSDs fail on on one node / cannot re-create

    Sry, need to stay naggin' you about this... I indeed stumbled over the linked stackoverflow thread - however I don't quite understand how to fix it. Recap: already a simple 'ceph-volume' (without arguments) results in the same "ValueError..." whereas on the other nodes I get the "Available...