[SOLVED] Cluster mit Ceph seit ein paar Tagen immer mal wieder Slow OSD on Front/Back

swoop · Jul 16, 2021

Hallo an Alle,

seit ein paar Tagen habe ich bei meinem 3 Node Cluster, immer mal wieder das Problem, dass ich Meldungen in Ceph bekomme, "Slow OSD heartbeats on front" und/oder "Slow OSD heartbeats on back". Mal betrifft es ein oder mehrer OSDs, gerade eben zB nur eines.
Dann verschwindet ab und zu der Node3, kommt aber nach ein paar Augenblicken wieder online.
Auch die OSDs erholen sich nach ein paar Minuten wieder. So bekomme ich etwa alle 10 Minuten eine Melundung von meinem Monitoring, dass Ceph auf allen drei Nodes im "Warning" Zustatnd ist.

Im Netzwerk scheint nicht viel los zu sein. Zumindest sag mein Switch, dass zwischen 10Kbit und 50Mbit verkehr zu den einzelnen Netzwerkkarten an meinen Servern läuft.
Ich habe ein Cluster mit 3 NUC10 i7, mit jeweils 3 Netzwerkarten (1x die eingebaute und 2x per USB) und je 64GB Ram.
Wie schon erwähnt, hat alles wunderbar funktioniert, bis vor ein paar Tagen. Ich vermute irngendein Update hat dieses Verhalten beeinflusst.
Seither habe ich auch ein kleine Problem mit einer VM auf dem Node3, die ich als Arbeitsmaschine verwende. Ich arbeite per RDP auf dieser VM. Diese VM hängt immer mal wieder für ein paar Sekunden. Das nervt.

Kann mir jemand einen Tipp geben, was ich noch überpüfen kann, um das Problem zu isolieren?

Hier noch ein paar Infos zu meinem Setup:

Code:

root@node1:~# pveversion
pve-manager/6.4-13/9f411e79 (running kernel: 5.4.124-1-pve)

Bash:

root@node1:~# ceph status
  cluster:
    id:     b79bb86c-3744-4cb9-8bd0-ac3d5a50c082
    health: HEALTH_WARN
            Slow OSD heartbeats on back (longest 1744.981ms)
            Slow OSD heartbeats on front (longest 2386.341ms)
            1 slow ops, oldest one blocked for 483 sec, mon.node1 has slow ops
 
  services:
    mon: 3 daemons, quorum node1,node2,pve3 (age 66s)
    mgr: node2(active, since 6d), standbys: node1, pve3
    mds:  3 up:standby
    osd: 3 osds: 3 up (since 8m), 3 in (since 3w)
 
  task status:
 
  data:
    pools:   3 pools, 161 pgs
    objects: 307.29k objects, 1.1 TiB
    usage:   3.3 TiB used, 2.3 TiB / 5.6 TiB avail
    pgs:     161 active+clean
 
  io:
    client:   55 KiB/s rd, 6.0 MiB/s wr, 5 op/s rd, 96 op/s wr

Kann ich euch noch weitere Infos geben, um dem Problem auf die Spur zu kommen?
Ach ja, bevor ichs noch vergesse, hin und wieder sagt mir der Reiter Ceph, dass einer der Ceph.Monitore eines Hosts probleme hat, dann starte ich am betreffenden Node den Ceph.Monitor neu, danachist alles wieder gut, für ein paar Minuten zumindest. Wenn ich warte erholt sich das von alleine, dauert nur länger.

Danke für eure Hilfe

SG

dcsapak · Jul 19, 2021

sieht man im syslog/journal/dmesg irgendwas besonderes?

ist die zeit gut synchronisiert zwischen den nodes ?

ist vielleicht einen node ein bisschen stärker belastet was cpu angeht?

swoop · Jul 19, 2021

Guten Morgen,

ja, einer der Notes ist etwas stärker belastet aber nicht so viel, dass man sagen würde der tut viel. pve3 macht schon etwas mehr. Aber kann das, das Problem sein?

Danke, dmesg war ein guter Tipp:

Code:

[480944.957275] e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang:
                  TDH                  <c7>
                  TDT                  <27>
                  next_to_use          <27>
                  next_to_clean        <c6>
                buffer_info[next_to_clean]:
                  time_stamp           <1072987ce>
                  next_to_watch        <c7>
                  jiffies              <107298988>
                  next_to_watch.status <0>
                MAC Status             <40080083>
                PHY Status             <796d>
                PHY 1000BASE-T Status  <38ff>
                PHY Extended Status    <3000>
                PCI Status             <10>
[480946.973162] e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang:
                  TDH                  <c7>
                  TDT                  <27>
                  next_to_use          <27>
                  next_to_clean        <c6>
                buffer_info[next_to_clean]:
                  time_stamp           <1072987ce>
                  next_to_watch        <c7>
                  jiffies              <107298b80>
                  next_to_watch.status <0>
                MAC Status             <40080083>
                PHY Status             <796d>
                PHY 1000BASE-T Status  <3877>
                PHY Extended Status    <3000>
                PCI Status             <10>
[480948.957167] e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang:
                  TDH                  <c7>
                  TDT                  <27>
                  next_to_use          <27>
                  next_to_clean        <c6>
                buffer_info[next_to_clean]:
                  time_stamp           <1072987ce>
                  next_to_watch        <c7>
                  jiffies              <107298d70>
                  next_to_watch.status <0>
                MAC Status             <40080083>
                PHY Status             <796d>
                PHY 1000BASE-T Status  <38d0>
                PHY Extended Status    <3000>
                PCI Status             <10>
[480950.973057] e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang:
                  TDH                  <c7>
                  TDT                  <27>
                  next_to_use          <27>
                  next_to_clean        <c6>
                buffer_info[next_to_clean]:
                  time_stamp           <1072987ce>
                  next_to_watch        <c7>
                  jiffies              <107298f68>
                  next_to_watch.status <0>
                MAC Status             <40080083>
                PHY Status             <796d>
                PHY 1000BASE-T Status  <388a>
                PHY Extended Status    <3000>
                PCI Status             <10>
[480951.068813] e1000e 0000:00:1f.6 eno1: Reset adapter unexpectedly
[480951.163070] vmbr0: port 1(eno1) entered disabled state
[480956.773138] e1000e: eno1 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None
[480956.773190] vmbr0: port 1(eno1) entered blocking state
[480956.773191] vmbr0: port 1(eno1) entered forwarding state
[481033.978974] mce: CPU10: Package temperature above threshold, cpu clock throttled (total events = 69144)
[481033.978975] mce: CPU3: Package temperature above threshold, cpu clock throttled (total events = 69144)
[481033.978976] mce: CPU6: Package temperature above threshold, cpu clock throttled (total events = 69144)
[481033.978977] mce: CPU9: Package temperature above threshold, cpu clock throttled (total events = 69144)
[481033.978978] mce: CPU8: Package temperature above threshold, cpu clock throttled (total events = 69144)
[481033.978979] mce: CPU1: Package temperature above threshold, cpu clock throttled (total events = 69144)
[481033.978980] mce: CPU2: Package temperature above threshold, cpu clock throttled (total events = 69144)
[481033.978981] mce: CPU4: Package temperature above threshold, cpu clock throttled (total events = 69144)
[481033.978982] mce: CPU0: Package temperature above threshold, cpu clock throttled (total events = 69144)
[481033.978983] mce: CPU11: Package temperature above threshold, cpu clock throttled (total events = 69144)
[481033.978984] mce: CPU7: Package temperature above threshold, cpu clock throttled (total events = 69144)
[481033.978985] mce: CPU5: Package temperature above threshold, cpu clock throttled (total events = 69144)
[481033.982975] mce: CPU1: Package temperature/speed normal
[481033.982976] mce: CPU6: Package temperature/speed normal
[481033.982977] mce: CPU9: Package temperature/speed normal
[481033.982978] mce: CPU7: Package temperature/speed normal
[481033.982979] mce: CPU4: Package temperature/speed normal
[481033.982980] mce: CPU5: Package temperature/speed normal
[481033.982981] mce: CPU10: Package temperature/speed normal
[481033.982981] mce: CPU3: Package temperature/speed normal
[481033.982982] mce: CPU11: Package temperature/speed normal
[481033.982983] mce: CPU2: Package temperature/speed normal
[481033.982984] mce: CPU8: Package temperature/speed normal
[481033.982984] mce: CPU0: Package temperature/speed normal
[481039.216956] mce: CPU8: Core temperature above threshold, cpu clock throttled (total events = 38127)
[481039.216957] mce: CPU2: Core temperature above threshold, cpu clock throttled (total events = 38127)
[481039.225003] mce: CPU8: Core temperature/speed normal
[481039.225004] mce: CPU2: Core temperature/speed normal
[481248.915206] e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang:
                  TDH                  <7a>
                  TDT                  <b>
                  next_to_use          <b>
                  next_to_clean        <79>
                buffer_info[next_to_clean]:
                  time_stamp           <1072aaf73>
                  next_to_watch        <7a>
                  jiffies              <1072ab260>
                  next_to_watch.status <0>
                MAC Status             <40080083>
                PHY Status             <796d>
                PHY 1000BASE-T Status  <38ff>
                PHY Extended Status    <3000>
                PCI Status             <10>
[481250.899259] e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang:
                  TDH                  <7a>
                  TDT                  <b>
                  next_to_use          <b>
                  next_to_clean        <79>
                buffer_info[next_to_clean]:
                  time_stamp           <1072aaf73>
                  next_to_watch        <7a>
                  jiffies              <1072ab450>
                  next_to_watch.status <0>
                MAC Status             <40080083>
                PHY Status             <796d>
                PHY 1000BASE-T Status  <3871>
                PHY Extended Status    <3000>
                PCI Status             <10>
[481252.919210] e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang:
                  TDH                  <7a>
                  TDT                  <b>
                  next_to_use          <b>
                  next_to_clean        <79>
                buffer_info[next_to_clean]:
                  time_stamp           <1072aaf73>
                  next_to_watch        <7a>
                  jiffies              <1072ab649>
                  next_to_watch.status <0>
                MAC Status             <40080083>
                PHY Status             <796d>
                PHY 1000BASE-T Status  <38ee>
                PHY Extended Status    <3000>
                PCI Status             <10>
[481253.906899] e1000e 0000:00:1f.6 eno1: Reset adapter unexpectedly
[481253.996210] vmbr0: port 1(eno1) entered disabled state
[481259.601971] e1000e: eno1 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None
[481259.602027] vmbr0: port 1(eno1) entered blocking state
[481259.602028] vmbr0: port 1(eno1) entered forwarding state

Da scheint die Netzwerkkarte der NUCs was zu haben, oder?
Das tritt bei zweien von drei Notes auf. Allerdings habe ich den einen Note schon lange nicht mehr neu gestartet. Merkwürdig ist auch, dass es gleich zwei betrifft.
Ich hab jetzt mal nach dem Fehler gesucht und sogar eine mögliche Lösung im Proxmox-Forum gefunden. Mal schauen, obs jetzt besser funktioniert. Ich werde berichten.

Im Syslog finde ich nur alle paar Minuten:
pvesr[574541]: cfs-lock 'file-replication_cfg' error: no quorum!
was auch logisch ist, ansonsten schaut Syslog gut aus.

im Journal sind eigentlich dieselben Meldungen drin wie unter dmesg, alle paar Minuten.

Soviel ich sehe, ist die Zeit eigentlich ident.

Danke für deine Hilfe.
Soblad es neuigkeiten gibt, melde ich mich.

SG

swoop · Jul 20, 2021

Hallo,

Erstmal, danke für die schnelle Hilfe.
Das Grundlegende Problem scheint gelöst.
Zumindest bekomme ich nicht mehr soooo viele Ceph Meldungen. Es kommen aber immer noch ein paar meldungen, wie "warning (clock skew detected on mon.node2, mon.node3"
Komischerweise, als ich heute gegen Mittag wieder aktiv mit den Servern zu arbeiten begonnen habe, kommen keine solche Meldungen mehr.
In der Zwischenzeit habe ich einen Server auf Proxmos 7 aktualisiert. Es gab zwe ein paar Probleme aber die konnte ich mithilfe des Forums lösen.

Aber ein anderes Probelm habe ich dennoch.
Seitdem ich das ausgeführt habe, wie hier beschreiben Proxmox-Forum, habe ich seltsame Phänomene in meinem Netzwerk. Verbindungsunterbrüche, plötzliches wegfallen von Servern die auf Proxmox gehostet sind, langsames Netzwerk. Teilweise bekomme ich nicht mal mehr 100Mbit zusatande, obwohl alle Hosts und Clients mit Gigabit angebunden sind.
Die Switche machen kaum etwas obwohl ich kopiere wie wild.
Am Host nebenan erstelle ich gerade ein Borg-Backup das kopiert ein paar MB dann bleibt er einfach stehen und tut garnichts nach einiger Zeit kopiert er dann weiter alsob nichts gewesen wäre und stoppt dann nach ein paar minuten wieder, dann geht das ganze Spiel wieder von vorne los.

Kann das Verhalten meines Netzwerkes mit dem Befehlt zu tun zu haben den ich auf zweien von drei Clusterknoten ausgeführt habe, die im dmesg den Fehler brachten e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang ?
ethtool -K <interface> tso off gso off

SG

dcsapak · Jul 21, 2021

gut dass das ceph problem mal gelöst (oder zumindest verbessert) scheint.

das netzwerk problem kann an vielen dingen liegen. ich würde wahrscheinlich mal so dinge wie iperf tests zwischen den nodes/vms/containern machen und dabei die logs + netzwerk auslastung beobachten

swoop · Jul 21, 2021

Hallo Dominik,

Das Netzwer-Problem konnte ich auch klären. Lag an einem defekten Kabel zur Storage.
Der Server hat die Platten zwar erkannt und die Virtuelle Disk war OK, aber im Eventlog hat Windows gejammert, dass da mit den 2 Disken, im anderen Gehäuse, was nicht stimmt.

Danke für die Hilfe
SG

Search

Search

[SOLVED] Cluster mit Ceph seit ein paar Tagen immer mal wieder Slow OSD on Front/Back

swoop

Member

dcsapak

Proxmox Staff Member

swoop

Member

swoop

Member

dcsapak

Proxmox Staff Member

swoop

Member