Watchdog - HP ProLiant D380 G8

Quickly

Well-Known Member
Sep 16, 2012
97
4
48
Hallo.
Ich habe einige HP ProLiant D380 G8 am Laufen. Bisher alles ohne Probleme.
Jetzt wieder einen aufgesetzt und der Reboot klappt nicht.
Beim Neustart bleibt der Server mit einer Watchdog Meldung stehen. Ich muss dann den Knopf drücken.

Das ist meine erste Installation als Cluster. Es sind also 2x HP ProLiant D380 G8 im Einsatz.
Pauschalfrage: Muss ich jetzt Watchdog konfigurieren? Oder ist es ein bekanntes Problem?

BItte erst mal einen generellen Hinweis damit ich den Weg sehen kann.

Vielen Dank, Lars
 
Hallo,

ich habe hier genau das selbe Problem mit Version 5.2.
Ein Neustart bleibt mit IML:
Unrecoverable System Error (NMI) has occurred. System Firmware will log additional details in a separate IML entry if possible
und
Uncorrectable PCI Express Error (Slot 1, Bus 0, Device 3, Function 0, Error status 0x00000000)

stehen.
5.1er Cluster funktionieren.

Meine Einstellungen:
Code:
# hpasmcli -s 'show asr'

ASR timeout is 10 minutes.
ASR is currently enabled.

# grep  _watch /etc/default/pve-ha-manager /etc/default/grub 
/etc/default/pve-ha-manager:WATCHDOG_MODULE=ipmi_watchdog
/etc/default/grub:GRUB_CMDLINE_LINUX="nmi_watchdog=0"

# ipmitool mc watchdog get
Watchdog Timer Use:     SMS/OS (0x44)
Watchdog Timer Is:      Started/Running
Watchdog Timer Actions: Hard Reset (0x01)
Pre-timeout interval:   0 seconds
Timer Expiration Flags: 0x10
Initial Countdown:      10 sec
Present Countdown:      9 sec

# pveversion -v
proxmox-ve: 5.2-2 (running kernel: 4.15.18-1-pve)
pve-manager: 5.2-5 (running version: 5.2-5/eb24855a)
pve-kernel-4.15: 5.2-4
pve-kernel-4.15.18-1-pve: 4.15.18-15
pve-kernel-4.15.17-1-pve: 4.15.17-9
corosync: 2.4.2-pve5
criu: 2.11.1-1~bpo90
glusterfs-client: 3.8.8-1
ksm-control-daemon: 1.2-2
libjs-extjs: 6.0.1-2
libpve-access-control: 5.0-8
libpve-apiclient-perl: 2.0-5
libpve-common-perl: 5.0-35
libpve-guest-common-perl: 2.0-17
libpve-http-server-perl: 2.0-9
libpve-storage-perl: 5.0-24
libqb0: 1.0.1-1
lvm2: 2.02.168-pve6
lxc-pve: 3.0.0-3
lxcfs: 3.0.0-1
novnc-pve: 1.0.0-1
proxmox-widget-toolkit: 1.0-19
pve-cluster: 5.0-28
pve-container: 2.0-24
pve-docs: 5.2-4
pve-firewall: 3.0-13
pve-firmware: 2.0-5
pve-ha-manager: 2.0-5
pve-i18n: 1.0-6
pve-libspice-server1: 0.12.8-3
pve-qemu-kvm: 2.11.2-1
pve-xtermjs: 1.0-5
qemu-server: 5.0-29
smartmontools: 6.5+svn4324-1
spiceterm: 3.0-5
vncterm: 1.5-3
zfsutils-linux: 0.7.9-pve1~bpo9
 
Uncorrectable PCI Express Error
Das klingt nach HW Problem. Kontaktiere den technischen Support.

Firmewareupgrade ist bei HP immer (leider) wichtig. Der Watchdog von HP MUSS in einem Cluster deaktiviert werden. Diese funktioniert nur mit HPUIX richtig. Der Intelwachtdog onboard wurde von HP unbrauchbar gemacht. Bleibt leider nur mehr der Softdog. ASR und Watchdog auch im BIOS abdrehen. HP und Linux im Cluster war/ist einfach immer GAGA. Nehmt Dell oder gleich ThomasKrenn.
 
Hardware Fehler muss ich leider ausschließen.
Die Rechner liefen vorher mit 4.4 ohne Probleme.
Wäre schon ein arger Zufall wenn alle auf einmal mit dem selben Fehler abrauchen.

Firmware ist auf dem neusten Stand.
PVE (proxmox-ve_5.2-1.iso) frisch installiert. Neustart nach Installationsroutine funktioniert.
Dann direkt, ohne Aktualisierungen oder HP Management Tools, Neustart und NMI wird ausgelöst.
ASR ist deaktiviert.

Gleiches Spiel mit proxmox-ve_5.1-3.iso ohne Probleme.
 
Hallo,

Wir haben das gleiche Problem hier auf unseren HP Blades.
Gab es auch schon ein Post von mir dazu.
Wir konnten das Problem einschränken das es erst ab einer bestimmten BIOS Version auftritt.
Auf den BL460C G9 kommt die Meldung ab Version 2.30. Aktuell ist allerdings 2.60.
Wir haben das Thema beim HP 2. Level Support eskalieren lassen und warten auf Informationen.
Allerdings schein es für diese Geräte keine offizielle Freigabe für Proxmox zu geben.
Somit sehe ich die Gefahr das es darauf hinausläuft -> "unsupported System".
Startet ihr im Legacy Mode oder UEFI?


Peter
 
Hi Peter,

der G8 hat kein UEFI. Also im Legacy Mode.
Irgendetwas muss sich zwischen 5.1 (kernel 4.13) und 5.2 (kernel 4.15)
geändert haben was den Fehler auslöst.
Firmware würde ich fast ausschließen, da ja die 5.1 funktioniert.

Viele Grüße
Frank
 
Hallo Frank,

Was die Ursache genau ist kann ich nicht sagen.
Wir haben mehrere Blades im Einsatz welche den Fehler nicht haben.
In den letzten Tagen hatten wir zwei weitere bekommen und dort ist der Fehler vorhanden.
Alle Blades Version pve 5.2.
Funktionierende Blades BIOS 2.00, neue hatten 2.60.
Wir hatten daraufhin ein downgrade auf 2.00 gemacht.- Fehler weg.
Update auf 2.20 Fehler immer noch nicht da.
Update auf 2.30 Fehler ist wieder vorhanden.
Ich habe auch versucht das Problem weiter einzugrenzen wann es auftritt.
Es ist irgendwo ganz zum Schluss des Shutdownprozesses. FileSystem ist schon vorher auf ro remounted.
Dadurch wird man auch nichts in Logfiles finden.
Ich warte jetzt die Antwort von HP ab.

Wir hatten auch schon mal ein Knoppix live System gebootet. Dort beim runterfahren die selbe Meldung!


Peter
 
Habe soeben noch mal den Kernel aus dem Link getestet.
Fehler ist immer noch da.



81 PCI Bus 08/21/2018 11:22 08/21/2018 11:22 1 Uncorrectable PCI Express Error (Embedded device, Bus 0, Device 2, Function 2, Error status 0x00100000)
80 System Error 08/21/2018 11:22 08/21/2018 11:22 1 Unrecoverable System Error (NMI) has occurred. System Firmware will log additional details in a separate IML entry if possible
79 PCI Bus 08/21/2018 11:22 08/21/2018 11:22 1 PCI Bus Error (Slot 0, Bus 0, Device 2, Function 2)

Was mir noch auffällt ist das man in der ILO Console im Fuß einen POST Code flackern sieht.
Wechselt zwischen B20 und einem Wert den man aber nicht erkennen kann so schnell geht das.

Peter
 
Auch hier leider kein Erfolg mit 4.15.18-2-pve #1 SMP PVE 4.15.18-20~test1 (Tue, 14 Aug 2018 14:24:43 +0200).
Selbst wenn der Watchdog Dienst nicht läuft und kein Modul geladen ist.
Wir werden mit 5.1 weiter machen müssen.
 
Danke fuers Testen! - Schade, dass es nicht funktioniert hat.
Steht im IML etwas hilfreiches zu dem Error, oder nur die message mit Uncorrectable PCI Express error?

Sonst hilft vielleicht auch zu wissen welches device sich hinter "Bus 0, Device 2, Function 2" (BL460C G9), bzw. "Slot 1, Bus 0, Device 3, Function 0" (DL380) ('lspci -nnvv') befindet?
 
Vielleicht hängt es auch mit dem hpsa Treiber zusammen, da ja immer wieder der RAID Controller angemault wird.
Der 4.13 Kern verwendet 3.4.20-0 der 4.15 die Version 3.4.20-125.
Laut github Historie wurde die Versionsnummer am 20. Oktober 2017 erhöht.
Leider weiß ich nicht welchen Stand die pve kernel verwenden.
Aber möglicherweise ist hier eine Änderung schuld.
 
Ich habe nochmal die Ubuntu 18.04 Server Version installiert.
Da werkelt ja die selbe Kernel Version und leider der selbe Fehler :(.

Unterstützt wurden die Gen8 ProLiant's nur bis 14.04.
Sieht so aus als ob die alten Kisten für Proxmox nicht mehr zu gebrauchen sind.
 
Blade firmenware 2 runter dann gehts. Aber aufsieht Sicherheit achten
 
Kleine Zuinfo: Wenn wir bei HP Support anrufen geben wir als Betriebssystem auch immer Ubuntu an, sonst wird man sowieso gleich abgewiesen. Das hat bis jetzt noch immer funktioniert. Der Support bemühte sich dann.
Und das Gen8 Proliants nur bis 14.04 unterstützt werden ist ja wirklich ein Witz. Deswegen würd auch nie mehr HP kaufen..

Zum Servermodel: Von HP haben wir immer die ML350 Serie im Einsatz. Von G5 bis G10 mit Proxmox kein Problem. Das BIOS dürfte bei der DL Serie tatsächlich völlig anderes sein. Den in RedHat und VMwareforen list man jede Menge über Probleme mit der DL Serie. An einen Zufall glaub ich da schon nicht mehr. Wir haben auch einen DL380G7 am laufen, auch ohne Probleme. Wobei die Firmware auf der Kiste nie aktualisiert wurden.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!