Hallo miteinander
Seit gestern haben wir ein merkwürdiges Phänomen. Per Zufall habe ich gesehen, dass in unserem Cluster 3 OSDs auf verschiedenen Servern Down und Out waren. (Normalerweise bekommen wir da eine Alarmierung...) Ich habe diese dann mit systemctl start ceph-osd@<num> wieder gestartet. Das hat problemlos geklappt.
Heute das gleiche Spiel, es ist wieder eine OSD Down und Out.
Darum habe ich mir mal die Logs angesehen, für mich steht da allerdings nichts offensichtlich problematisches drin.
Auszug aus den Logs die OSD.10 betreffen (zur Zeit Down&Out)
Außerdem hatte ich gerade beim starten der osd.10 folgende Meldung in der Ceph Übersicht in der PMX Gui:
Kann mir da jemand auf die Sprünge helfen was los ist?
Außerdem fehlt in der PMX Gui in der Ceph Übersicht der Hinweis das eine oder mehrere OSDs down&out sind. Es erscheint dort im Moment gar keine Meldung bei uns.
Irgendwas hat sich wohl mit Ceph geändert, so das auch unsere Alarmierung nicht mehr anschlägt, wenn Ceph einen Fehler meldet. Da muss ich dringend ran und den Fehler finden.
Seit gestern haben wir ein merkwürdiges Phänomen. Per Zufall habe ich gesehen, dass in unserem Cluster 3 OSDs auf verschiedenen Servern Down und Out waren. (Normalerweise bekommen wir da eine Alarmierung...) Ich habe diese dann mit systemctl start ceph-osd@<num> wieder gestartet. Das hat problemlos geklappt.
Heute das gleiche Spiel, es ist wieder eine OSD Down und Out.
Darum habe ich mir mal die Logs angesehen, für mich steht da allerdings nichts offensichtlich problematisches drin.
Auszug aus den Logs die OSD.10 betreffen (zur Zeit Down&Out)
Code:
2019-09-19 19:35:30 vm-1 systemd[1]: ceph-osd@10.service: Failed with result 'signal'.
2019-09-19 19:35:30 vm-1 systemd[1]: ceph-osd@10.service: Main process exited, code=killed, status=6/ABRT
2019-09-19 19:35:31 vm-1 systemd[1]: ceph-osd@10.service: Service RestartSec=100ms expired, scheduling restart.
2019-09-19 19:35:31 vm-1 systemd[1]: ceph-osd@10.service: Scheduled restart job, restart counter is at 1.
2019-09-19 19:35:31 vm-1 systemd[1]: Starting Ceph object storage daemon osd.10...
2019-09-19 19:35:31 vm-1 systemd[1]: Started Ceph object storage daemon osd.10.
2019-09-19 19:35:31 vm-1 systemd[1]: Stopped Ceph object storage daemon osd.10.
2019-09-19 19:35:38 vm-1 ceph-osd[844177]: 2019-09-19 19:35:38.435 7f9294b73f80 -1 osd.10 79735 log_to_monitors {default=true}
2019-09-19 19:35:38 vm-1 ceph-osd[844177]: 2019-09-19 19:35:38.447 7f928d898700 -1 osd.10 79735 set_numa_affinity unable to identify public interface 'bond2' numa node: (2) No such file or directory
2019-09-19 19:36:06 vm-1 systemd[1]: ceph-osd@10.service: Main process exited, code=killed, status=6/ABRT
2019-09-19 19:36:53 vm-1 ceph-osd[844605]: 2019-09-19 19:36:53.916 7fa84c089700 -1 osd.10 79743 get_health_metrics reporting 18 slow ops, oldest is osd_op(client.208422084.0:87526810 1.36b 1.132b5f6b (undecoded) ondisk+read+known_if_redirected e79743)
2019-09-19 19:36:54 vm-1 ceph-osd[844605]: 2019-09-19 19:36:54.880 7fa84c089700 -1 osd.10 79743 get_health_metrics reporting 18 slow ops, oldest is osd_op(client.208422084.0:87526810 1.36b 1.132b5f6b (undecoded) ondisk+read+known_if_redirected e79743)
2019-09-19 19:36:55 vm-1 ceph-osd[844605]: 2019-09-19 19:36:55.900 7fa84c089700 -1 osd.10 79743 get_health_metrics reporting 11 slow ops, oldest is osd_op(client.208422084.0:87526810 1.36b 1.132b5f6b (undecoded) ondisk+read+known_if_redirected e79743)
2019-09-19 19:36:55 vm-3 ceph-osd[28056]: 2019-09-19 19:36:55.977 7fb7a6fa8700 -1 osd.26 79743 heartbeat_check: no reply from 192.168.15.1:6824 osd.10 since back 2019-09-19 19:36:30.528227 front 2019-09-19 19:36:30.528332 (oldest deadline 2019-09-19 19:36:55.228216)
Außerdem hatte ich gerade beim starten der osd.10 folgende Meldung in der Ceph Übersicht in der PMX Gui:
Code:
osd.10 legacy statfs reporting detected, suggest to run store repair to get consistent statistic reports
Kann mir da jemand auf die Sprünge helfen was los ist?
Außerdem fehlt in der PMX Gui in der Ceph Übersicht der Hinweis das eine oder mehrere OSDs down&out sind. Es erscheint dort im Moment gar keine Meldung bei uns.
Irgendwas hat sich wohl mit Ceph geändert, so das auch unsere Alarmierung nicht mehr anschlägt, wenn Ceph einen Fehler meldet. Da muss ich dringend ran und den Fehler finden.