[PVE 8.1.3, KERNEL 6.5.11] plötzliche abstürze zweier nodes in einem 3 node ha-cluster

Jan 16, 2024
20
2
3
wir haben nun schon einige zeit ein ha-cluster mit 3 member nodes am laufen (sind auch subscribed).
alle nodes sind auf identischer hardware aufgesetzt.

in unregelmäßigen abständen fallen 2 der nodes aus, starten neu und hinterlassen keinerlei verwertbare log-schriebe.
journal und dmesg sind zu diesen zeitpunkten praktisch leer bzw. unbrauchbar.
laut "last reboot" scheint es so als würden die maschinen noch immer laufen.
von zeit zu zeit taucht kurz vor absturz eine hdd mit angeblichen 192 grad in den logs auf, das ist allerdings falsch.
temperatur, netzteil, memory und emv können ausgeschlossen werden.
es wurde auch mit windows gebootet und 6 stunden cpu und memory intensiv gestresst -> system läuft kühl und stabil.

eine sache haben beide nodes gemein, es läuft eine identische windows10 vm auf beiden nodes die als build-server fungiert.
startet die build-pipeline sterben die nodes.
gestern wollten wir testweise ein inplace upgrade auf windows11 machen, beim starten des setup fiel die node wieder aus.

gibt es bekannte probleme beim betreiben von windows vms oder fallhürden beim aufsetzen/konfigurieren?
es wurden bereits einige power-management funktionen im bios der maschinen deaktiviert, jedoch ohne erfolg.
andere nutzer vermuten eine gewissen inkompatibilität des kernels mit cpu-powermanagement funktionen.
auch ein bios-update half nicht.
falls es noch zusätzlich verwertbare logs gibt, würde das natürlich auch weiterhelfen.

1709134922022.png
 
Das Phänomen kenne ich noch nicht, Habt ihr in den Win10 mal das Powermanagement auf Höchstleistung gestellt?
Welchen CPU Typ gebt ihr denn den VMs?
P.S. ohne TPM wird das Upgrade auf Win11 vermutlich eh auf die Nase fallen.
Wenn ihr die Kisten als Server nutzt, würde ich eh lieber zu Windows Server tendieren, da die virtuelle Win10 Nutzung auch eine Zusatzlizenz benötigt (das Virtualisierungsrecht) und bei Server Standard darf man ja außerdem 2 VMs mit einer Lizenz auf einem Host betreiben.
Da ist Win10/11 mit der Zusatzlizenz teurer.

Das mit den überhitzten SSDs kenne ich von HPE Servern, wenn keine original SSD verbaut ist, dann wird ab und zu eine Falsche Temperatur vom iLO an das OS geliefert und das macht dann einen Notreset um die Disk nicht zu killen. Die Temperaturanzeige im iLO ist aber immer OK.
 
windows steht auf „ultimative performance“.
cpu type ist „host“.
windows 11 kann ohne tpm und secureboot betrieben werden.
das mit dem server werden wir uns mal überlegen.
das lizenzthema ist mir so nicht bekannt, jede maschine also vm wird ganz normal mit einer windows lizenz versehen. bei windows-server lizenzen sind 2 maschinen für die hyper-v nutzung inklusive.
die überhitze hdd wird ans journal gemeldet, ich hatte testweise einen zweiten monitoring dienst laufen, der meldet konstant 46 grad.

das problem ist eigentlich fast schon auf die 2 vms eingegrenzt.
unklar ist was das problem auslöst.
 
Du kannst dein Win11 aber nicht mehr updaten. Mit 23H2 bootet der nicht ohne TPM..
 
woher stammt diese info?

edit: ich sehe gerade, proxmox unterstützt ja ein virtuelles tpm, also sollte das ja überhaupt kein problem sein.
 
Last edited:
23h2 lässt sich durchaus ohne tpm neu installieren und betreiben, aber upgrades von z.b. 22h2 auf 23h2 sind nervig, wenn man unsupportete hardware verwendet.

geht dann nur über das gemountete iso mit einigen klimmzügen, aber es geht (mach ich grad bei einer maschine hier).
 
  • Like
Reactions: intelliIT
Win11 23H2 lässt sich nicht normal von der aktuellen ISO ohne TPM installieren. Wenn es da einen Trick gibt, kannst du den ja gern teilen.
Wenn du TPM aktivierst, musst du auch den TPM Schlüssel sichern.
 
Win11 23H2 lässt sich nicht normal von der aktuellen ISO ohne TPM installieren. Wenn es da einen Trick gibt, kannst du den ja gern teilen.
Wenn du TPM aktivierst, musst du auch den TPM Schlüssel sichern.
ich hatte eine Maschine mit Win11 22h2 mit entsprechenden tricks ohne tpm und mit unsupporteter cpu installiert (registry keys etc).

ich habe dann das normale 23h2 iso von microsoft gemounted und setup.exe /product server ausgeführt.
dieser befehl führt dazu, dass das setup keine hardware-checks durchführt, da es den server-installer ausführt und nicht die desktop version (installiert aber trotzdem windows 11).

das setup upgraded dann klaglos die maschine.

für ne neuinstallation müsstest du entweder win10 zuerst draufbügeln und dann upgraden, oder das iso entsprechend modifizieren (z.b. mit rufus), damit es eine neuinstallation erlaubt.
 
Ganz genau, mit Upgrades und Tricks. Neuinstallation von der regulären ISO geht nicht mehr ohne TPM.
TPM Sichern ist kein Problem, muss halt nur gemacht werden. Das einzige Problem bei Backups ist immer Layer 8.
 
noch etwas zusätzliche info.
hab gerade ein unmodifiziertes windows 10 22H2 VM (auf vmware) ohne TPM und auf nicht supporteter CPU (e5 2600v3 serie) mit dem default windows 11 23H2 iso und dem befehl setup.exe /product server upgegraded.

keine regedit-spielchen oder sonstige modifikationen.

wem es also nichts ausmacht erst windows 10 auszurollen und dann upzugraden, für den ist das eine gangbare lösung.

das wird auch weiter so funktionieren, solange microsoft per default auch den server-installer mitliefert, der die hw-checks umgeht.

edit: die VM hatte ein virtuelles TPM. verdammt. ich teste das nochmal mit einer komplett neuen maschine ;)

edit2: neue win10 vm ausgerollt (diesmal auf der ältesten Hardware, auf die ich zugriff habe (e5 2600v1) und upgrade wie oben angestossen. bislang gibt sich das setup zufrieden, auch ohne tpm und mit unsupporteter cpu. das dauert jetzt aber etwas, da das storage nicht unbedingt der überperformer ist.
 
Last edited:
noch etwas zusätzliche info.
hab gerade ein unmodifiziertes windows 10 22H2 VM (auf vmware) ohne TPM und auf nicht supporteter CPU (e5 2600v3 serie) mit dem default windows 11 23H2 iso und dem befehl setup.exe /product server upgegraded.

keine regedit-spielchen oder sonstige modifikationen.

wem es also nichts ausmacht erst windows 10 auszurollen und dann upzugraden, für den ist das eine gangbare lösung.

das wird auch weiter so funktionieren, solange microsoft per default auch den server-installer mitliefert, der die hw-checks umgeht.

edit: die VM hatte ein virtuelles TPM. verdammt. ich teste das nochmal mit einer komplett neuen maschine ;)

edit2: neue win10 vm ausgerollt (diesmal auf der ältesten Hardware, auf die ich zugriff habe (e5 2600v1) und upgrade wie oben angestossen. bislang gibt sich das setup zufrieden, auch ohne tpm und mit unsupporteter cpu. das dauert jetzt aber etwas, da das storage nicht unbedingt der überperformer ist.
Es geht ja nicht um Workarounds. Die sind ja bekannt, es geht tatsächlich um eine Neuinstallation und die wird von Microsoft ohne TPM erfolgreich verhindert. Das mit dem Server Workaround wird vermutlich mit Server 2025 auch wegfallen.
 
es gibt auch workarounds für eine neuinstallation, mehr als nur einen.
aber das war hier tatsächlich nie das thema.:)
das setzen eines flags für setup.exe sollte unabhängig von windows server versionen funktionieren.
 
es gibt auch workarounds für eine neuinstallation, mehr als nur einen.
aber das war hier tatsächlich nie das thema.:)
das setzen eines flags für setup.exe sollte unabhängig von windows server versionen funktionieren.
zumindest, solange microsoft für desktops und server den selben installer mit unterschiedlichen flags verwendet.
wenn microsoft irgendwann mal einen eigenen installer für den server schreibt, dann wars das evtl.