Search results

  1. L

    [SOLVED] CEPH resilience: self-heal flawed?

    Ah, that could be it. So in a 5 Node Setup, for auto redistributing to kick in after a second node fail i would set "osd min in ratio" to 0.6 ? Do I make a horrible mistake to override the fefault of .75 here? regards
  2. L

    [SOLVED] CEPH resilience: self-heal flawed?

    When you look at the logs, you see that 10 minutes after the Down, one OSD get's OUT'ed, the other one simply not. So the mon_osd_down_out_interval is correctly taken into account.
  3. L

    [SOLVED] CEPH resilience: self-heal flawed?

    Yeah sure, after 10 Minutes one OSD gets marked out properly. But not the second one.
  4. L

    [SOLVED] CEPH resilience: self-heal flawed?

    It's osd.3 in the last example. I will make it more verbose and test again. I gracfully shut the node down, but it happens as well if i manually stop the osd service and also when i just pull the plug :)
  5. L

    [SOLVED] ProxMox 6 - CEPH - Backup - getrennter Pool?!?!

    I don't see mistakes, but I'm a noob anyhow. Start testing it :)
  6. L

    [SOLVED] CEPH resilience: self-heal flawed?

    This is all I see in another node. (The node which has the issue is down ofcourse) root@node4:/var/log/ceph# zgrep -i "osd\.2" *|grep "2020-02-27\ 14" ceph.log.1.gz:2020-02-27 14:24:02.434055 mon.node2 (mon.1) 290 : cluster [INF] osd.2 marked itself down ceph.log.1.gz:2020-02-27...
  7. L

    [SOLVED] CEPH resilience: self-heal flawed?

    No Settings changed, all pretty much default. What I see in the Logs of the active manager is: First OSD (2) of that host behaves correctly.. ceph.log: 2020-02-27 14:24:02.434055 mon.node2 (mon.1) 290 : cluster [INF] osd.2 marked itself down 2020-02-27 14:34:10.702147 mon.node3 (mon.2) 1555...
  8. L

    [SOLVED] CEPH resilience: self-heal flawed?

    Double checked, made some traffic not with rados bench but just client traffic while putting a node offline. Still the same. From the second failed node one OSD won't go out. This is reproduceable in my Nested virt, as well. First I thought it was some strange Virt-in-Virt effect, that's the...
  9. L

    [SOLVED] CEPH resilience: self-heal flawed?

    Hi Alwin, thanks for the answer. I will do so. What's suspicious is that the first Nodefail is handed proper, and the second not. I tried this like 5 times, it's absolutely reproduceable under minimal load settings. I will re-test this with some more heavy i/o load. Will keep you post..
  10. L

    [SOLVED] ProxMox 6 - CEPH - Backup - getrennter Pool?!?!

    Das ganze kann einfach über crushrules geregelt werden: # rules rule replicated_rule { id 0 type replicated min_size 1 max_size 10 step take default step chooseleaf firstn 0 type host step emit } rule ssd-only { id 1 type replicated min_size 1...
  11. L

    Optimierung d. Geschwindigkeit v. Backups

    Naja, ich würde schon erstmal die quellen uniform machen, dH überall HBA rein. IOPS auf Quellseite sollten echt nicht das problem sein. Evtl ist es dann schon gelöst. Auf Zielseite schreibst Du eh nur sequentiell, aber wenn Du hier noch ein bottleneck vermutest, kannst du das kannst ja einfach...
  12. L

    [SOLVED] CEPH resilience: self-heal flawed?

    Hi, i'm exeriencing a strange behaviour in pve@6.1-7/ceph@14.2.6: I have a Lab setup with 5 physical Nodes, each with two OSDs. This is the Ceph Config + Crushmap: Config: [global] auth_client_required = cephx auth_cluster_required = cephx auth_service_required = cephx...
  13. L

    Optimierung d. Geschwindigkeit v. Backups

    Benutzt du bei den 3 nodes mit Raidcontroller dann ein logical volume als single OSD? Das könnte dann etwas damit zu tun haben. Ansonsten würde ich hier in IOPS denken, weniger in MB/s. Was sagt denn die Latency im OSd Dashboard? Ich glaube auch nicht, daß ein spinning rust backup storage das...
  14. L

    Optimierung d. Geschwindigkeit v. Backups

    Eine USV hilft Dir auch nicht bei einem Netzteilproblem zB. PLP ist unbedingtes muss. So viel teurer sind die DC SSDs tatsächlich auch nicht, daß ich das riskieren würde. Was nicht so ganz klar ist - das Ceph läuft derzeit auf HDD's? Ich backuppe in zwei Strategien. Einmal "klassisch" mit...
  15. L

    Optimierung d. Geschwindigkeit v. Backups

    Consumer ssd für Server sind keine gute Idee. Wenigstens PLP sollten sie können, ansonsten sind die Tränen nach einem Stromausfall groß. Zudem habe ich nicht ganz verstanden warum die SSD im Backup Server das Backup schneller machen sollen wenn das ceph von dem die Daten kommen schon zu langsam...
  16. L

    Start Tor Browser- Sicherheit

    Legacy Software als security Feature? Interessanter Ansatz..
  17. L

    XCP-ng 8.0 and Proxmox VE 6.1

    You are right, the possibility to have a Cross-pool migration in XS/XCP is a unique selling point. However, I barely made use of it, since it turned out to be not super-robust. In Lab environments this worked most of the time, in Production, when guests were up for some month, and maybe live...
  18. L

    Backup storage option if solely used CEPH with Proxmox

    Check eve4barc again, i have buffed it with some new features.
  19. L

    Anfängerfragen Ceph

    Hier sollte man eventuell noch hinzufügen, daß die SSD's im Sinne der Crashresistenz im Falle einer Powerloss Events über PLP verfügen sollten, also einen kleinen energiepuffer in form eines Kondensators innerhalb der SSD, der dafür sorgt, daß inflight Data weggeschrieben werden kann. Das ist...