Unerwarteter Reboot

Mrt12

Well-Known Member
May 19, 2019
134
9
58
44
Hallo

ich habe folgendes Phänomen.
Ich habe 2 Proxmox Server, einen neueren ("pve0") der ca. 2 Wochen alt ist, und einen älteren ("pve1") der ca. 5 Jahre alt ist. Ich habe sie in einem Cluster, damit ich über eine einzelne Web GUI beide Server betrachten kann. Soweit so gut. HA und Replication etc habe ich im Moment nicht in Benutzung.
Der ältere Server hat nur 1GBit on-board Netzwerk, da habe ich letzte Woche eine 25 GBit HPE Netzwerkkarte eingebaut.
Der neuere Server hat bereits ab Werk die 25 GBit Karte drin, eine Broadcom.

Jetzt habe ich folgendes Phänomen beobachtet, was mich sehr beunruhigt, und wo ich nicht erkennen kann, was der Grund ist:

wenn ich den pve0 neu boote, über die Command Line "reboot now" oder übers Web GUI, dann crasht der pve1 mehr oder weniger instantan, während der andere neu bootet. Und ich kann mir absolut nicht erklären, wieso das so ist.
Jetzt ist es natürlich so, dass ich 2 Änderungen gemacht habe, einerseits die 25 GBit Netzwerkkarte eingebaut, und andererseits die Beiden zu einem Cluster zusammengefügt.

Ich kann den Effekt reproduzieren, es scheint wirklich ein harter reset zu sein, deshalb steht auch in den Logs nicht viel nützliches. Aber ich kann über IPMI beobachten, wie der eine Server crasht. Man kann z.B. eine Shell offen haben, den pve0 rebooten, und dann kommt auf pve1 ZACK plötzlich das BIOS Logo und man sieht wie er neu bootet. Das ist sehr unschön. Und ich kann mir nicht erklären, woran es liegen kann, zumal in den Logs ja nicht viel nützliches steht.
Wie kann ich das Problem eruieren? kann es sein, dass das System ein Problem mit der 25 GBit Karte hat? wie finde ich das heraus?

Hier ein Auszug aus dem Syslog, bevor und nach dem Reset. Um 9:02:41 habe ich den Node pve0 neu gebootet. Um 9:03:09 fand der Crash statt; die "@" habe nicht ich in den Syslog eingefügt, die stehen da wirklich so drin. Im dmesg steht nichts nützliches, das wird ja beim Booten leider überschrieben.



Code:
2024-02-08T09:01:01.401372+01:00 pve1 CRON[34547]: (root) CMD ( /usr/bin/ipmiutil wdt -r >/dev/null 2>&1)
2024-02-08T09:02:01.451098+01:00 pve1 CRON[35195]: (root) CMD ( /usr/bin/ipmiutil wdt -r >/dev/null 2>&1)
2024-02-08T09:02:23.941966+01:00 pve1 pmxcfs[8202]: [status] notice: received log
2024-02-08T09:02:23.947547+01:00 pve1 pmxcfs[8202]: [status] notice: received log
2024-02-08T09:02:30.955166+01:00 pve1 pmxcfs[8202]: [status] notice: received log
2024-02-08T09:02:41.962498+01:00 pve1 corosync[8303]:   [CFG   ] Node 2 was shut down by sysadmin
2024-02-08T09:02:41.963970+01:00 pve1 pmxcfs[8202]: [dcdb] notice: members: 1/8202
2024-02-08T09:02:41.964052+01:00 pve1 pmxcfs[8202]: [status] notice: members: 1/8202
2024-02-08T09:02:41.964816+01:00 pve1 corosync[8303]:   [QUORUM] Sync members[1]: 1
2024-02-08T09:02:41.964868+01:00 pve1 corosync[8303]:   [QUORUM] Sync left[1]: 2
2024-02-08T09:02:41.964925+01:00 pve1 corosync[8303]:   [TOTEM ] A new membership (1.332e) was formed. Members left: 2
2024-02-08T09:02:41.965200+01:00 pve1 corosync[8303]:   [QUORUM] This node is within the non-primary component and will NOT provide any services.
2024-02-08T09:02:41.965244+01:00 pve1 corosync[8303]:   [QUORUM] Members[1]: 1
2024-02-08T09:02:41.965276+01:00 pve1 corosync[8303]:   [MAIN  ] Completed service synchronization, ready to provide service.
2024-02-08T09:02:41.965310+01:00 pve1 pmxcfs[8202]: [status] notice: node lost quorum
2024-02-08T09:02:42.827363+01:00 pve1 corosync[8303]:   [KNET  ] link: host: 2 link: 0 is down
2024-02-08T09:02:42.827463+01:00 pve1 corosync[8303]:   [KNET  ] host: host: 2 (passive) best link: 0 (pri: 1)
2024-02-08T09:02:42.827499+01:00 pve1 corosync[8303]:   [KNET  ] host: host: 2 has no active links
2024-02-08T09:02:49.132017+01:00 pve1 pve-ha-lrm[8371]: lost lock 'ha_agent_pve1_lock - cfs lock update failed - Permission denied
2024-02-08T09:02:54.133965+01:00 pve1 pve-ha-lrm[8371]: status change active => lost_agent_lock
2024-02-08T09:03:01.498754+01:00 pve1 CRON[35841]: (root) CMD ( /usr/bin/ipmiutil wdt -r >/dev/null 2>&1)
2024-02-08T09:03:09.054676+01:00 pve1 pvescheduler[35774]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
2024-02-08T09:03:09.057231+01:00 pve1 pvescheduler[35772]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^2024-02-08T09:07:32.741178+01:00 pve1 systemd-modules-load[2021]: Inserted module 'vhost_net'
2024-02-08T09:07:32.741243+01:00 pve1 kernel: [    0.000000] Linux version 6.5.11-8-pve (build@proxmox) (gcc (Debian 12.2.0-14) 12.2.0, GNU ld (GNU Binutils for >
2024-02-08T09:07:32.741261+01:00 pve1 kernel: [    0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-6.5.11-8-pve root=UUID=a5834fe4-61bb-479f-9648-9c7b501ed27a r>
2024-02-08T09:07:32.741262+01:00 pve1 kernel: [    0.000000] KERNEL supported cpus:

In der Beilage habe ich mal noch die Outputs von LSHW und Syslog angehängt. Kann jemand etwas damit anfangen?

Der pve1 ist bis jetzt durchgehend sehr zuverlässig gelaufen.
Wir hatten einmal einen defekten Power Distributor, der wurde ersetzt, sonst gab es nie Probleme. Und jetzt diese Crashs....... Hardwareproblem? warum?

Edit: grade nochmal im IPMI geschaut.
Da sehe ich unter "Health Event Log" folgende Einträge: (siehe Bild im Anhang)
da wird ein Hardware Reset asserted. Warum?
 

Attachments

  • pve1_lshw.txt
    68.2 KB · Views: 0
  • pve0_lshw.txt
    75.4 KB · Views: 0
  • pve1_syslog.txt
    694.1 KB · Views: 0
  • pve0_syslog.txt
    596.7 KB · Views: 0
  • pve1ipmi.png
    pve1ipmi.png
    50.4 KB · Views: 1
Last edited:
Hi
wenn ich den pve0 neu boote, über die Command Line "reboot now" oder übers Web GUI, dann crasht der pve1 mehr oder weniger instantan, während der andere neu bootet. Und ich kann mir absolut nicht erklären, wieso das so ist.
Das ist erwartetes Verhalten für deinen 2 Node Cluster mit HA (ist laut deinen Logs wohl eingerichtet). Sobald du den einen Node rebootest, wird der 2-te node gefenced, da er nicht mehr Teil des Quorums im Cluster ist, siehe dazu im Detail https://pve.proxmox.com/pve-docs/pve-admin-guide.html#ha_manager_fencing.

Generell empfiehlt sich ein Cluster mit ungerader Zahl an Nodes, oder das Hinzufügen eines externen vote devices, siehe dazu https://pve.proxmox.com/pve-docs/pve-admin-guide.html#_corosync_external_vote_support
 
Hallo Chris,
OK aber wenn er gefenced wird, heisst das er muss auch neu booten?
 
Hallo Chris,
OK aber wenn er gefenced wird, heisst das er muss auch neu booten?
Ja, als Schutz, damit nicht bei einem Netzwerkausfall auf beiden Hosts, die gleichen VMs laufen.
Wenn du kein HA und so weiter nutzen möchtest, kannst du die Quorum Einstellung auch auf expected = 1 setzen. So hast du eine GUI für beide, aber wenn man doch einmal HA konfigurieren möchte MUSS die Einstellung wieder raus.
 
OK. Ich verstehe das Problem. Den Hard Reset über den Watchdog finde ich allerdings nicht so nett :-D
 
OK. Ich verstehe das Problem. Den Hard Reset über den Watchdog finde ich allerdings nicht so nett :-D
Der ist aber extrem wichtig in HA Setups um die Datenintegrität zu gewährleisten. Cluster sind ja für HA gedacht, die gemeinsame GUI ist ja nur der positive Nebeneffekt.
 
  • Like
Reactions: Chris
Der ist aber extrem wichtig in HA Setups um die Datenintegrität zu gewährleisten. Cluster sind ja für HA gedacht, die gemeinsame GUI ist ja nur der positive Nebeneffekt.
das stimmt. Habe mich nur gefragt, ob es z.B. für ein Dateisystem so gut ist, wenn während eines Schreibzugriffs gleich ein Hard Reset daher kommt.

In der Tat hatte ich für eine VM testweise HA aktiviert gehabt, was zu dem Hard Reset geführt hat. Nun habe ich HA wieder komplett raus genommen, den Cluster aber sonst belassen wie er ist, und in der Tat kann ich nun beide Nodes unabhängig voneinander rebooten, ohne dass es zu komischen Effekten kommt. Der Hard Reset war also wirklich von dem HA Setup.
 
  • Like
Reactions: Falk R.
Das Dateisystem sollte das nicht stören. Die Zeiten wo ein Reset oder Absturz ein FS killen liegen zum Glück Jahrzehnte zurück.
 
  • Like
Reactions: Mrt12

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!