Hallo,
gestern abend sind einige Nodes aus unserm Cluster neu gestartet. Um genau zu sein 4 von 5 Computing Nodes. Der eine, der nicht neu gestartet ist, ist dann allerdings nach reboot der anderen nicht wieder automatisch dem cluster gejoint, dort musste ich mit killall corosync und pce-cluster restart nachhelfen.
In allen Nodes auch die nicht neu gestartet sind ist ein segfault von pmxcf zu sehen:
gestern abend sind einige Nodes aus unserm Cluster neu gestartet. Um genau zu sein 4 von 5 Computing Nodes. Der eine, der nicht neu gestartet ist, ist dann allerdings nach reboot der anderen nicht wieder automatisch dem cluster gejoint, dort musste ich mit killall corosync und pce-cluster restart nachhelfen.
In allen Nodes auch die nicht neu gestartet sind ist ein segfault von pmxcf zu sehen:
Feb 25 21:43:08 prox03 pmxcfs[7152]: [dcdb] notice: members: 1/23948, 3/7152, 4/30371, 8/20357, 9/3026, 10/3219060, 11/2665251
Feb 25 21:43:08 prox03 pmxcfs[7152]: [dcdb] notice: starting data syncronisation
Feb 25 21:43:08 prox03 pmxcfs[7152]: [status] notice: members: 1/23948, 3/7152, 4/30371, 8/20357, 9/3026, 10/3219060, 11/2665251
Feb 25 21:43:08 prox03 pmxcfs[7152]: [status] notice: starting data syncronisation
Feb 25 21:43:08 prox03 pmxcfs[7152]: [dcdb] notice: received sync request (epoch 1/23948/0000009D)
Feb 25 21:43:08 prox03 pmxcfs[7152]: [status] notice: received sync request (epoch 1/23948/0000008B)
Feb 25 21:43:08 prox03 kernel: [8765900.825555] cfs_loop[7153]: segfault at 7fba8a7360f1 ip 000056080bd0a820 sp 00007fba1d789318 error 4 in pmxcfs[56080bcf1000+1b000]
Feb 25 21:43:08 prox03 kernel: [8765900.825567] Code: 10 48 89 c6 48 89 ef 48 89 10 48 8b 53 08 48 89 50 08 48 89 c2 e8 e0 73 fe ff b8 01 00 00 00 e9 4a ff ff ff 66 0f 1f 44 00 00 <8b> 47 0c 8b 56 0c 39 d0 75 0d 48 8b 47 10 48 8b 56 10 48 39 d0 74
Feb 25 21:43:08 prox03 systemd[1]: Created slice system-systemd\x2dcoredump.slice.
Feb 25 21:43:08 prox03 systemd[1]: Started Process Core Dump (PID 14451/UID 0).
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@Feb 25 21:48:17 prox03 systemd[1]: Starting Flush Journal to Persistent Storage...
Feb 25 21:43:08 prox03 pmxcfs[7152]: [dcdb] notice: starting data syncronisation
Feb 25 21:43:08 prox03 pmxcfs[7152]: [status] notice: members: 1/23948, 3/7152, 4/30371, 8/20357, 9/3026, 10/3219060, 11/2665251
Feb 25 21:43:08 prox03 pmxcfs[7152]: [status] notice: starting data syncronisation
Feb 25 21:43:08 prox03 pmxcfs[7152]: [dcdb] notice: received sync request (epoch 1/23948/0000009D)
Feb 25 21:43:08 prox03 pmxcfs[7152]: [status] notice: received sync request (epoch 1/23948/0000008B)
Feb 25 21:43:08 prox03 kernel: [8765900.825555] cfs_loop[7153]: segfault at 7fba8a7360f1 ip 000056080bd0a820 sp 00007fba1d789318 error 4 in pmxcfs[56080bcf1000+1b000]
Feb 25 21:43:08 prox03 kernel: [8765900.825567] Code: 10 48 89 c6 48 89 ef 48 89 10 48 8b 53 08 48 89 50 08 48 89 c2 e8 e0 73 fe ff b8 01 00 00 00 e9 4a ff ff ff 66 0f 1f 44 00 00 <8b> 47 0c 8b 56 0c 39 d0 75 0d 48 8b 47 10 48 8b 56 10 48 39 d0 74
Feb 25 21:43:08 prox03 systemd[1]: Created slice system-systemd\x2dcoredump.slice.
Feb 25 21:43:08 prox03 systemd[1]: Started Process Core Dump (PID 14451/UID 0).
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@Feb 25 21:48:17 prox03 systemd[1]: Starting Flush Journal to Persistent Storage...
Last edited: