Cluster-Node startet unerwartet neu

p.jahn · Feb 3, 2020

Hallo zusammen,

wir haben in der Firma einen 4-Node-Cluster laufen.
Seit einigen Monaten startet der Node PVE01 nach einer Uptime von ca. 20-25 Tagen unerwartet neu.
Wir nutzen kein HA und der Hardware Watchdog ist im BIOS ausgeschaltet, daher kann ich mir nicht erkären, was den Neustart ausgelöst hat.

Im Syslog konnte ich leider nichts finden.
Die letzte Meldung war der Proxmox VE replication runner um 11:20 Uhr und dann die Kernel Meldungen um 11:25 Uhr als der Server wieder gebootet hat.

Jan 30 11:18:00 pve01 systemd[1]: Starting Proxmox VE replication runner...
Jan 30 11:18:01 pve01 systemd[1]: pvesr.service: Succeeded.
Jan 30 11:18:01 pve01 systemd[1]: Started Proxmox VE replication runner.
Jan 30 11:18:20 pve01 pveproxy[308181]: worker exit
Jan 30 11:18:20 pve01 pveproxy[4538]: worker 308181 finished
Jan 30 11:18:20 pve01 pveproxy[4538]: starting 1 worker(s)
Jan 30 11:18:20 pve01 pveproxy[4538]: worker 1314201 started
Jan 30 11:19:00 pve01 systemd[1]: Starting Proxmox VE replication runner...
Jan 30 11:19:01 pve01 systemd[1]: pvesr.service: Succeeded.
Jan 30 11:19:01 pve01 systemd[1]: Started Proxmox VE replication runner.
Jan 30 11:19:32 pve01 pveproxy[1314201]: Clearing outdated entries from certificate cache
Jan 30 11:20:00 pve01 systemd[1]: Starting Proxmox VE replication runner...
Jan 30 11:20:01 pve01 systemd[1]: pvesr.service: Succeeded.
Jan 30 11:20:01 pve01 systemd[1]: Started Proxmox VE replication runner.
Jan 30 11:25:57 pve01 systemd-modules-load[2086]: Inserted module 'iscsi_tcp'
Jan 30 11:25:57 pve01 kernel: [ 0.000000] microcode: microcode updated early to revision 0x2000064, date = 2019-07-31
Jan 30 11:25:57 pve01 systemd-modules-load[2086]: Inserted module 'ib_iser'
Jan 30 11:25:57 pve01 kernel: [ 0.000000] Linux version 5.3.13-1-pve (build@pve) (gcc version 8.3.0 (Debian 8.3.0-6)) #1 SMP PVE 5.3.13-1 (Thu, 05 Dec 2019 07:18:14 +0100) ()

Am Wochenende habe ich 24 Stunden lang Memtest86+ laufen lassen, dieser hat keine Fehler gefunden.

Wie kann ich jetzt vorgehen, um den Fehler einzugrenzen oder zumindest beim nächsten Neustart mehr Informationen zu gewinnen?
Mein Gedanke wäre, ein externes Syslog einzurichten und kdump zu aktivieren.

Hier noch die Spezifikationen der Server:

Mainboard Supermicro X11DPi-N
2x Intel Xeon Silver 4116 12x2,1GHz
256 GB RAM DDR4 PC2666 Reg.
2x SSD Intel DC 4610 480 GB (ZFS RAID1 für Proxmox)
10x SSD Samsung SM836a 2TB (Ceph OSD)
Broadcom/LSI 9305-16I HBA
Intel 10G X710/X557 Quad Port

proxmox-ve: 6.1-2 (running kernel: 5.3.13-1-pve)
pve-manager: 6.1-5 (running version: 6.1-5/9bf06119)
pve-kernel-5.3: 6.1-1
pve-kernel-helper: 6.1-1
pve-kernel-4.15: 5.4-12
pve-kernel-5.3.13-1-pve: 5.3.13-1
pve-kernel-4.15.18-24-pve: 4.15.18-52
pve-kernel-4.15.18-21-pve: 4.15.18-48
pve-kernel-4.15.18-20-pve: 4.15.18-46
pve-kernel-4.15.18-18-pve: 4.15.18-44
pve-kernel-4.15.18-17-pve: 4.15.18-43
pve-kernel-4.15.18-15-pve: 4.15.18-40
pve-kernel-4.15.18-14-pve: 4.15.18-39
pve-kernel-4.15.18-11-pve: 4.15.18-34
pve-kernel-4.15.18-10-pve: 4.15.18-32
ceph: 14.2.5-pve1
ceph-fuse: 14.2.5-pve1
corosync: 3.0.2-pve4
criu: 3.11-3
glusterfs-client: 5.5-3
ifupdown: 0.8.35+pve1
ksm-control-daemon: 1.3-1
libjs-extjs: 6.0.1-10
libknet1: 1.13-pve1
libpve-access-control: 6.0-5
libpve-apiclient-perl: 3.0-2
libpve-common-perl: 6.0-9
libpve-guest-common-perl: 3.0-3
libpve-http-server-perl: 3.0-3
libpve-storage-perl: 6.1-3
libqb0: 1.0.5-1
libspice-server1: 0.14.2-4~pve6+1
lvm2: 2.03.02-pve3
lxc-pve: 3.2.1-1
lxcfs: 3.0.3-pve60
novnc-pve: 1.1.0-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.1-1
pve-cluster: 6.1-2
pve-container: 3.0-15
pve-docs: 6.1-3
pve-edk2-firmware: 2.20191127-1
pve-firewall: 4.0-9
pve-firmware: 3.0-4
pve-ha-manager: 3.0-8
pve-i18n: 2.0-3
pve-qemu-kvm: 4.1.1-2
pve-xtermjs: 3.13.2-1
qemu-server: 6.1-4
smartmontools: 7.0-pve2
spiceterm: 3.1-1
vncterm: 1.6-1
zfsutils-linux: 0.8.2-pve2

Viele Grüße
Patrick

udo · Feb 3, 2020

Hi,
wenn ich SuperMicro lese würde ich es mit einem Bios-Update versuchen.
Vor längerem hatte ich auich mal eine SuperMicro-Büchse, die unregelmässig neu startete - nach einem Bios-Update war die Kiste mit einem mal sehr stabil.
Wenn nicht gerade Dein IO gestört ist, solltest Du sonst wa im Log finden...
Das Netzteil wäre auch noch ne Möglichkeit.

Viele Grüße

Udo

p.jahn · Feb 4, 2020

Hallo Udo,

vielen Dank für deine Antwort.
Ich hatte das BIOS zuletzt im Februar 2019 aktualisiet, als die Server in Betrieb gingen. Damals war die Verison 3.0a aktuell.
Inzwischen gibt es die Version 3.1a.
Mal schauen, ob der Server damit stabil läuft.

Viele Grüße
Patrick

Search

Search

Cluster-Node startet unerwartet neu

p.jahn

Active Member

udo

Distinguished Member

p.jahn

Active Member

We value your privacy