wir haben nun schon einige zeit ein ha-cluster mit 3 member nodes am laufen (sind auch subscribed).
alle nodes sind auf identischer hardware aufgesetzt.
in unregelmäßigen abständen fallen 2 der nodes aus, starten neu und hinterlassen keinerlei verwertbare log-schriebe.
journal und dmesg sind zu diesen zeitpunkten praktisch leer bzw. unbrauchbar.
laut "last reboot" scheint es so als würden die maschinen noch immer laufen.
von zeit zu zeit taucht kurz vor absturz eine hdd mit angeblichen 192 grad in den logs auf, das ist allerdings falsch.
temperatur, netzteil, memory und emv können ausgeschlossen werden.
es wurde auch mit windows gebootet und 6 stunden cpu und memory intensiv gestresst -> system läuft kühl und stabil.
eine sache haben beide nodes gemein, es läuft eine identische windows10 vm auf beiden nodes die als build-server fungiert.
startet die build-pipeline sterben die nodes.
gestern wollten wir testweise ein inplace upgrade auf windows11 machen, beim starten des setup fiel die node wieder aus.
gibt es bekannte probleme beim betreiben von windows vms oder fallhürden beim aufsetzen/konfigurieren?
es wurden bereits einige power-management funktionen im bios der maschinen deaktiviert, jedoch ohne erfolg.
andere nutzer vermuten eine gewissen inkompatibilität des kernels mit cpu-powermanagement funktionen.
auch ein bios-update half nicht.
falls es noch zusätzlich verwertbare logs gibt, würde das natürlich auch weiterhelfen.

alle nodes sind auf identischer hardware aufgesetzt.
in unregelmäßigen abständen fallen 2 der nodes aus, starten neu und hinterlassen keinerlei verwertbare log-schriebe.
journal und dmesg sind zu diesen zeitpunkten praktisch leer bzw. unbrauchbar.
laut "last reboot" scheint es so als würden die maschinen noch immer laufen.
von zeit zu zeit taucht kurz vor absturz eine hdd mit angeblichen 192 grad in den logs auf, das ist allerdings falsch.
temperatur, netzteil, memory und emv können ausgeschlossen werden.
es wurde auch mit windows gebootet und 6 stunden cpu und memory intensiv gestresst -> system läuft kühl und stabil.
eine sache haben beide nodes gemein, es läuft eine identische windows10 vm auf beiden nodes die als build-server fungiert.
startet die build-pipeline sterben die nodes.
gestern wollten wir testweise ein inplace upgrade auf windows11 machen, beim starten des setup fiel die node wieder aus.
gibt es bekannte probleme beim betreiben von windows vms oder fallhürden beim aufsetzen/konfigurieren?
es wurden bereits einige power-management funktionen im bios der maschinen deaktiviert, jedoch ohne erfolg.
andere nutzer vermuten eine gewissen inkompatibilität des kernels mit cpu-powermanagement funktionen.
auch ein bios-update half nicht.
falls es noch zusätzlich verwertbare logs gibt, würde das natürlich auch weiterhelfen.
