Cluster-Node startet unerwartet neu

p.jahn

Active Member
Feb 19, 2019
26
3
43
43
Hallo zusammen,

wir haben in der Firma einen 4-Node-Cluster laufen.
Seit einigen Monaten startet der Node PVE01 nach einer Uptime von ca. 20-25 Tagen unerwartet neu.
Wir nutzen kein HA und der Hardware Watchdog ist im BIOS ausgeschaltet, daher kann ich mir nicht erkären, was den Neustart ausgelöst hat.

Im Syslog konnte ich leider nichts finden.
Die letzte Meldung war der Proxmox VE replication runner um 11:20 Uhr und dann die Kernel Meldungen um 11:25 Uhr als der Server wieder gebootet hat.
Jan 30 11:18:00 pve01 systemd[1]: Starting Proxmox VE replication runner...
Jan 30 11:18:01 pve01 systemd[1]: pvesr.service: Succeeded.
Jan 30 11:18:01 pve01 systemd[1]: Started Proxmox VE replication runner.
Jan 30 11:18:20 pve01 pveproxy[308181]: worker exit
Jan 30 11:18:20 pve01 pveproxy[4538]: worker 308181 finished
Jan 30 11:18:20 pve01 pveproxy[4538]: starting 1 worker(s)
Jan 30 11:18:20 pve01 pveproxy[4538]: worker 1314201 started
Jan 30 11:19:00 pve01 systemd[1]: Starting Proxmox VE replication runner...
Jan 30 11:19:01 pve01 systemd[1]: pvesr.service: Succeeded.
Jan 30 11:19:01 pve01 systemd[1]: Started Proxmox VE replication runner.
Jan 30 11:19:32 pve01 pveproxy[1314201]: Clearing outdated entries from certificate cache
Jan 30 11:20:00 pve01 systemd[1]: Starting Proxmox VE replication runner...
Jan 30 11:20:01 pve01 systemd[1]: pvesr.service: Succeeded.
Jan 30 11:20:01 pve01 systemd[1]: Started Proxmox VE replication runner.
Jan 30 11:25:57 pve01 systemd-modules-load[2086]: Inserted module 'iscsi_tcp'
Jan 30 11:25:57 pve01 kernel: [ 0.000000] microcode: microcode updated early to revision 0x2000064, date = 2019-07-31
Jan 30 11:25:57 pve01 systemd-modules-load[2086]: Inserted module 'ib_iser'
Jan 30 11:25:57 pve01 kernel: [ 0.000000] Linux version 5.3.13-1-pve (build@pve) (gcc version 8.3.0 (Debian 8.3.0-6)) #1 SMP PVE 5.3.13-1 (Thu, 05 Dec 2019 07:18:14 +0100) ()

Am Wochenende habe ich 24 Stunden lang Memtest86+ laufen lassen, dieser hat keine Fehler gefunden.
memtest86.jpg

Wie kann ich jetzt vorgehen, um den Fehler einzugrenzen oder zumindest beim nächsten Neustart mehr Informationen zu gewinnen?
Mein Gedanke wäre, ein externes Syslog einzurichten und kdump zu aktivieren.

Hier noch die Spezifikationen der Server:
  • Mainboard Supermicro X11DPi-N
  • 2x Intel Xeon Silver 4116 12x2,1GHz
  • 256 GB RAM DDR4 PC2666 Reg.
  • 2x SSD Intel DC 4610 480 GB (ZFS RAID1 für Proxmox)
  • 10x SSD Samsung SM836a 2TB (Ceph OSD)
  • Broadcom/LSI 9305-16I HBA
  • Intel 10G X710/X557 Quad Port
proxmox-ve: 6.1-2 (running kernel: 5.3.13-1-pve)
pve-manager: 6.1-5 (running version: 6.1-5/9bf06119)
pve-kernel-5.3: 6.1-1
pve-kernel-helper: 6.1-1
pve-kernel-4.15: 5.4-12
pve-kernel-5.3.13-1-pve: 5.3.13-1
pve-kernel-4.15.18-24-pve: 4.15.18-52
pve-kernel-4.15.18-21-pve: 4.15.18-48
pve-kernel-4.15.18-20-pve: 4.15.18-46
pve-kernel-4.15.18-18-pve: 4.15.18-44
pve-kernel-4.15.18-17-pve: 4.15.18-43
pve-kernel-4.15.18-15-pve: 4.15.18-40
pve-kernel-4.15.18-14-pve: 4.15.18-39
pve-kernel-4.15.18-11-pve: 4.15.18-34
pve-kernel-4.15.18-10-pve: 4.15.18-32
ceph: 14.2.5-pve1
ceph-fuse: 14.2.5-pve1
corosync: 3.0.2-pve4
criu: 3.11-3
glusterfs-client: 5.5-3
ifupdown: 0.8.35+pve1
ksm-control-daemon: 1.3-1
libjs-extjs: 6.0.1-10
libknet1: 1.13-pve1
libpve-access-control: 6.0-5
libpve-apiclient-perl: 3.0-2
libpve-common-perl: 6.0-9
libpve-guest-common-perl: 3.0-3
libpve-http-server-perl: 3.0-3
libpve-storage-perl: 6.1-3
libqb0: 1.0.5-1
libspice-server1: 0.14.2-4~pve6+1
lvm2: 2.03.02-pve3
lxc-pve: 3.2.1-1
lxcfs: 3.0.3-pve60
novnc-pve: 1.1.0-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.1-1
pve-cluster: 6.1-2
pve-container: 3.0-15
pve-docs: 6.1-3
pve-edk2-firmware: 2.20191127-1
pve-firewall: 4.0-9
pve-firmware: 3.0-4
pve-ha-manager: 3.0-8
pve-i18n: 2.0-3
pve-qemu-kvm: 4.1.1-2
pve-xtermjs: 3.13.2-1
qemu-server: 6.1-4
smartmontools: 7.0-pve2
spiceterm: 3.1-1
vncterm: 1.6-1
zfsutils-linux: 0.8.2-pve2

Viele Grüße
Patrick
 
Hi,
wenn ich SuperMicro lese würde ich es mit einem Bios-Update versuchen.
Vor längerem hatte ich auich mal eine SuperMicro-Büchse, die unregelmässig neu startete - nach einem Bios-Update war die Kiste mit einem mal sehr stabil.
Wenn nicht gerade Dein IO gestört ist, solltest Du sonst wa im Log finden...
Das Netzteil wäre auch noch ne Möglichkeit.


Viele Grüße

Udo
 
Hallo Udo,

vielen Dank für deine Antwort.
Ich hatte das BIOS zuletzt im Februar 2019 aktualisiet, als die Server in Betrieb gingen. Damals war die Verison 3.0a aktuell.
Inzwischen gibt es die Version 3.1a.
Mal schauen, ob der Server damit stabil läuft.

Viele Grüße
Patrick
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!