Hallo zusammen,
wir haben in der Firma einen 4-Node-Cluster laufen.
Seit einigen Monaten startet der Node PVE01 nach einer Uptime von ca. 20-25 Tagen unerwartet neu.
Wir nutzen kein HA und der Hardware Watchdog ist im BIOS ausgeschaltet, daher kann ich mir nicht erkären, was den Neustart ausgelöst hat.
Im Syslog konnte ich leider nichts finden.
Die letzte Meldung war der Proxmox VE replication runner um 11:20 Uhr und dann die Kernel Meldungen um 11:25 Uhr als der Server wieder gebootet hat.
Am Wochenende habe ich 24 Stunden lang Memtest86+ laufen lassen, dieser hat keine Fehler gefunden.
Wie kann ich jetzt vorgehen, um den Fehler einzugrenzen oder zumindest beim nächsten Neustart mehr Informationen zu gewinnen?
Mein Gedanke wäre, ein externes Syslog einzurichten und kdump zu aktivieren.
Hier noch die Spezifikationen der Server:
Viele Grüße
Patrick
wir haben in der Firma einen 4-Node-Cluster laufen.
Seit einigen Monaten startet der Node PVE01 nach einer Uptime von ca. 20-25 Tagen unerwartet neu.
Wir nutzen kein HA und der Hardware Watchdog ist im BIOS ausgeschaltet, daher kann ich mir nicht erkären, was den Neustart ausgelöst hat.
Im Syslog konnte ich leider nichts finden.
Die letzte Meldung war der Proxmox VE replication runner um 11:20 Uhr und dann die Kernel Meldungen um 11:25 Uhr als der Server wieder gebootet hat.
Jan 30 11:18:00 pve01 systemd[1]: Starting Proxmox VE replication runner...
Jan 30 11:18:01 pve01 systemd[1]: pvesr.service: Succeeded.
Jan 30 11:18:01 pve01 systemd[1]: Started Proxmox VE replication runner.
Jan 30 11:18:20 pve01 pveproxy[308181]: worker exit
Jan 30 11:18:20 pve01 pveproxy[4538]: worker 308181 finished
Jan 30 11:18:20 pve01 pveproxy[4538]: starting 1 worker(s)
Jan 30 11:18:20 pve01 pveproxy[4538]: worker 1314201 started
Jan 30 11:19:00 pve01 systemd[1]: Starting Proxmox VE replication runner...
Jan 30 11:19:01 pve01 systemd[1]: pvesr.service: Succeeded.
Jan 30 11:19:01 pve01 systemd[1]: Started Proxmox VE replication runner.
Jan 30 11:19:32 pve01 pveproxy[1314201]: Clearing outdated entries from certificate cache
Jan 30 11:20:00 pve01 systemd[1]: Starting Proxmox VE replication runner...
Jan 30 11:20:01 pve01 systemd[1]: pvesr.service: Succeeded.
Jan 30 11:20:01 pve01 systemd[1]: Started Proxmox VE replication runner.
Jan 30 11:25:57 pve01 systemd-modules-load[2086]: Inserted module 'iscsi_tcp'
Jan 30 11:25:57 pve01 kernel: [ 0.000000] microcode: microcode updated early to revision 0x2000064, date = 2019-07-31
Jan 30 11:25:57 pve01 systemd-modules-load[2086]: Inserted module 'ib_iser'
Jan 30 11:25:57 pve01 kernel: [ 0.000000] Linux version 5.3.13-1-pve (build@pve) (gcc version 8.3.0 (Debian 8.3.0-6)) #1 SMP PVE 5.3.13-1 (Thu, 05 Dec 2019 07:18:14 +0100) ()
Jan 30 11:18:01 pve01 systemd[1]: pvesr.service: Succeeded.
Jan 30 11:18:01 pve01 systemd[1]: Started Proxmox VE replication runner.
Jan 30 11:18:20 pve01 pveproxy[308181]: worker exit
Jan 30 11:18:20 pve01 pveproxy[4538]: worker 308181 finished
Jan 30 11:18:20 pve01 pveproxy[4538]: starting 1 worker(s)
Jan 30 11:18:20 pve01 pveproxy[4538]: worker 1314201 started
Jan 30 11:19:00 pve01 systemd[1]: Starting Proxmox VE replication runner...
Jan 30 11:19:01 pve01 systemd[1]: pvesr.service: Succeeded.
Jan 30 11:19:01 pve01 systemd[1]: Started Proxmox VE replication runner.
Jan 30 11:19:32 pve01 pveproxy[1314201]: Clearing outdated entries from certificate cache
Jan 30 11:20:00 pve01 systemd[1]: Starting Proxmox VE replication runner...
Jan 30 11:20:01 pve01 systemd[1]: pvesr.service: Succeeded.
Jan 30 11:20:01 pve01 systemd[1]: Started Proxmox VE replication runner.
Jan 30 11:25:57 pve01 systemd-modules-load[2086]: Inserted module 'iscsi_tcp'
Jan 30 11:25:57 pve01 kernel: [ 0.000000] microcode: microcode updated early to revision 0x2000064, date = 2019-07-31
Jan 30 11:25:57 pve01 systemd-modules-load[2086]: Inserted module 'ib_iser'
Jan 30 11:25:57 pve01 kernel: [ 0.000000] Linux version 5.3.13-1-pve (build@pve) (gcc version 8.3.0 (Debian 8.3.0-6)) #1 SMP PVE 5.3.13-1 (Thu, 05 Dec 2019 07:18:14 +0100) ()
Am Wochenende habe ich 24 Stunden lang Memtest86+ laufen lassen, dieser hat keine Fehler gefunden.
Wie kann ich jetzt vorgehen, um den Fehler einzugrenzen oder zumindest beim nächsten Neustart mehr Informationen zu gewinnen?
Mein Gedanke wäre, ein externes Syslog einzurichten und kdump zu aktivieren.
Hier noch die Spezifikationen der Server:
- Mainboard Supermicro X11DPi-N
- 2x Intel Xeon Silver 4116 12x2,1GHz
- 256 GB RAM DDR4 PC2666 Reg.
- 2x SSD Intel DC 4610 480 GB (ZFS RAID1 für Proxmox)
- 10x SSD Samsung SM836a 2TB (Ceph OSD)
- Broadcom/LSI 9305-16I HBA
- Intel 10G X710/X557 Quad Port
proxmox-ve: 6.1-2 (running kernel: 5.3.13-1-pve)
pve-manager: 6.1-5 (running version: 6.1-5/9bf06119)
pve-kernel-5.3: 6.1-1
pve-kernel-helper: 6.1-1
pve-kernel-4.15: 5.4-12
pve-kernel-5.3.13-1-pve: 5.3.13-1
pve-kernel-4.15.18-24-pve: 4.15.18-52
pve-kernel-4.15.18-21-pve: 4.15.18-48
pve-kernel-4.15.18-20-pve: 4.15.18-46
pve-kernel-4.15.18-18-pve: 4.15.18-44
pve-kernel-4.15.18-17-pve: 4.15.18-43
pve-kernel-4.15.18-15-pve: 4.15.18-40
pve-kernel-4.15.18-14-pve: 4.15.18-39
pve-kernel-4.15.18-11-pve: 4.15.18-34
pve-kernel-4.15.18-10-pve: 4.15.18-32
ceph: 14.2.5-pve1
ceph-fuse: 14.2.5-pve1
corosync: 3.0.2-pve4
criu: 3.11-3
glusterfs-client: 5.5-3
ifupdown: 0.8.35+pve1
ksm-control-daemon: 1.3-1
libjs-extjs: 6.0.1-10
libknet1: 1.13-pve1
libpve-access-control: 6.0-5
libpve-apiclient-perl: 3.0-2
libpve-common-perl: 6.0-9
libpve-guest-common-perl: 3.0-3
libpve-http-server-perl: 3.0-3
libpve-storage-perl: 6.1-3
libqb0: 1.0.5-1
libspice-server1: 0.14.2-4~pve6+1
lvm2: 2.03.02-pve3
lxc-pve: 3.2.1-1
lxcfs: 3.0.3-pve60
novnc-pve: 1.1.0-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.1-1
pve-cluster: 6.1-2
pve-container: 3.0-15
pve-docs: 6.1-3
pve-edk2-firmware: 2.20191127-1
pve-firewall: 4.0-9
pve-firmware: 3.0-4
pve-ha-manager: 3.0-8
pve-i18n: 2.0-3
pve-qemu-kvm: 4.1.1-2
pve-xtermjs: 3.13.2-1
qemu-server: 6.1-4
smartmontools: 7.0-pve2
spiceterm: 3.1-1
vncterm: 1.6-1
zfsutils-linux: 0.8.2-pve2
pve-manager: 6.1-5 (running version: 6.1-5/9bf06119)
pve-kernel-5.3: 6.1-1
pve-kernel-helper: 6.1-1
pve-kernel-4.15: 5.4-12
pve-kernel-5.3.13-1-pve: 5.3.13-1
pve-kernel-4.15.18-24-pve: 4.15.18-52
pve-kernel-4.15.18-21-pve: 4.15.18-48
pve-kernel-4.15.18-20-pve: 4.15.18-46
pve-kernel-4.15.18-18-pve: 4.15.18-44
pve-kernel-4.15.18-17-pve: 4.15.18-43
pve-kernel-4.15.18-15-pve: 4.15.18-40
pve-kernel-4.15.18-14-pve: 4.15.18-39
pve-kernel-4.15.18-11-pve: 4.15.18-34
pve-kernel-4.15.18-10-pve: 4.15.18-32
ceph: 14.2.5-pve1
ceph-fuse: 14.2.5-pve1
corosync: 3.0.2-pve4
criu: 3.11-3
glusterfs-client: 5.5-3
ifupdown: 0.8.35+pve1
ksm-control-daemon: 1.3-1
libjs-extjs: 6.0.1-10
libknet1: 1.13-pve1
libpve-access-control: 6.0-5
libpve-apiclient-perl: 3.0-2
libpve-common-perl: 6.0-9
libpve-guest-common-perl: 3.0-3
libpve-http-server-perl: 3.0-3
libpve-storage-perl: 6.1-3
libqb0: 1.0.5-1
libspice-server1: 0.14.2-4~pve6+1
lvm2: 2.03.02-pve3
lxc-pve: 3.2.1-1
lxcfs: 3.0.3-pve60
novnc-pve: 1.1.0-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.1-1
pve-cluster: 6.1-2
pve-container: 3.0-15
pve-docs: 6.1-3
pve-edk2-firmware: 2.20191127-1
pve-firewall: 4.0-9
pve-firmware: 3.0-4
pve-ha-manager: 3.0-8
pve-i18n: 2.0-3
pve-qemu-kvm: 4.1.1-2
pve-xtermjs: 3.13.2-1
qemu-server: 6.1-4
smartmontools: 7.0-pve2
spiceterm: 3.1-1
vncterm: 1.6-1
zfsutils-linux: 0.8.2-pve2
Viele Grüße
Patrick