[SOLVED] PVE 7.3.3 auf TK LESv4 / 3CX VM und OPNsense VM stürzen immer wieder ab

L_Thomas · May 22, 2023

Guten Tag!

Ich bin ein Proxmox Neuling und stehe bei unserer ersten Kundeninstallation vor einem Problem.

Es handelt sich um einen Thomas Krenn LESv4 Mini Server mit passiver Kühlung mit PVE 7.3.3.

Darauf laufen 2 VMs: OPNsense 23.1 und 3CX

Am Anfang ist die 3CX VM sehr häufig mit einem Kernel Panic abgestürzt. Nachdem wir die VM auf das offizielle Debian Repository aktualisiert hatten lief es jetzt eine Woche durch. Jetzt ist allerdings auch erstmalig die OPNsense abgestürzt.

Der Host läuft durch. Auffällig ist die Temperatur der SSD. Der SMART Wert 194 liegt zwischen 60 und 72 °C. Der SMART Wert 231 zwischen 80 und 100. Es ist eine ATP SSD verbaut die lt. Hersteller bis 70°C laufen soll.

Ist es möglich, dass VMs abtürzen aufgrund von SSD Problemen und der Host davon nichts protokolliert?

Welche Daten soll ich liefern, damit ihr mir bei der Fehlersuche möglichst gut helfen könnt?

Vielen Dank für eure Hilfe!

Thomas

Falk R. · May 22, 2023

Hi Thomas, war die SSD schon im LES verbaut?
Wenn ja, dann am besten direkt bei TK mal anfragen, erstens kennen die schon die meisten Probleme mit ihren Geräten und falls noch nicht, wird TK das Problem aber sicher interessieren.
Eventuell liest @jsterr ja mit.

L_Thomas · May 22, 2023

Hallo Falk,

vielen Dank für deine Antwort.

Ja, der Server ist wie von TK geliefert.

Die Frage ist eben auch, kann überhaupt ein Hardwareproblem die VMs betreffen, wenn der Host davon nichts in seine Logs schreibt (zumindest nicht ins Syslog). Keine IO Fehler und dgl. Meiner Meinung nach sollte das nicht der Fall sein können. Aber ich bin kein Experte.

Aber ich werde dann auch mal mit TK in Verbindung treten wenn @jsterr hier nicht mitliest.

Thomas.

Falk R. · May 22, 2023

Ja es gibt genügend Phänomene, die in VMs auftreten können, wovon der Host nicht unbedingt etwas mitbekommt.

sherminator · May 22, 2023

Hallo Thomas und herzlich Willkommen!

Eine konkrete Idee habe ich noch nicht, wohl aber Stellschrauben, an denen ich drehen würde, in der Hoffnung, mehr über das Problem zu erfahren. Zum einen würde ich auf die aktuelle PVE-Version aktualisieren. Und dann würde ich, falls möglich, testweise mal eine ganz andere Hardware nehmen. In Bezug auf die Hardware-Ressourcen müsste jeder einigermaßen aktuelle Desktop-PC zum Testen geeignet sein.

Wieviel RAM ist in dem LESv4 verbaut? Und wie sieht die Auslastung (CPU, RAM) aus, wenn alles erwartungsgemäß läuft?

Grundsätzlich finde ich Deinen Ansatz (PVE und 3CX & OPNsense auf einem LESv4) interessant. Aber ob das für einen produktiven Einsatz im Unternehmen geeignet ist... ich weiß nicht. Was nichts heißen muss; ich habe einfach keine Erfahrung mit PVE auf 10W-CPUs.

Liebe Grüße
Stephan

mr44er · May 23, 2023

Bei 'komplett passiv' guck ich immer schief, da ich eine Mischkalkulation mit idle erwarte. Mehrere Laufende VMs peitschen dann doch durchweg die Last hoch.

Wo steht das Gerät? Klimatisierter Raum? Wenn nein, würde ich das mal für den Testzeitraum mit einem Ventilator bepusten lassen, ggf. sogar mit offenem Gehäuse, wenn dadurch nicht die Garantie verloren geht.

Neobin · May 23, 2023

Mal den aktuellen: intel-microcode installieren: [1] und danach den PVE-Host neu starten.
Falls das Problem weiterhin besteht, zusätzlich mal mit dem 6.2er opt-in Kernel: [2] testen.

Die smartctl -a Ausgabe wäre interessant bezüglich der Temperaturen...

[1] https://wiki.debian.org/Microcode
[2] https://forum.proxmox.com/threads/opt-in-linux-6-2-kernel-for-proxmox-ve-7-x-available.124189

L_Thomas · May 23, 2023

Guten Morgen und vielen Dank für die vielen Antworten!

Zuerst zum Umfeld: Es handelt sich um eine Arztpraxis mit 2 PCs und 2 Telefonen.
Der Internet-Zugang hat 40MBit DSL.
Es gibt keinen eigenen Server, daher die Lösung mit dem LESv4.
Und Ärzte müssen immer sparen ...

Der LESV4 hat eine Intel Celeron J6412 CPU, 16GB RAM und eine 240 GB SATA SSD.
Beide VMs laufen mit jeweils 4GB RAM, die 3CX VM braucht davon derzeit 32% und die OPNsense 82%.
Die CPU Last lag in der letzten Stunde zwischen 4 und 6 %.

Er steht in einem kleinen aber 2-seitig offenen Serverschrank mit mind. 50cm Luft nach oben.

Ich denke, es ist keine fahrlässige Konfiguration für dieses kleine Umfeld.
Üblicherweise läuft die 3CX als VM auf einem Server und die Firewall physisch.

Die Sache mit den Updates und dem Kernel Tausch muss ich mir im Detail anschauen, da ich das Update aus der Ferne machen muss - aber vielen Dank für den Tipp.

smartctl meldet aktuell:
1 Raw_Read_Error_Rate 0x002f 100 100 000 Pre-fail Always - 0
5 Reallocated_Sector_Ct 0x0032 100 100 010 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 193
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 17
14 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 692453376
15 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 468862128
16 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 162
17 Unknown_Attribute 0x0033 000 000 000 Pre-fail Always - 52
100 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 2332
160 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0
172 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0
173 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 9
174 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0
175 Program_Fail_Count_Chip 0x0032 100 100 000 Old_age Always - 4
181 Program_Fail_Cnt_Total 0x0032 100 100 000 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
194 Temperature_Celsius 0x0022 065 075 000 Old_age Always - 65 (Min/Max 18/75)
195 Hardware_ECC_Recovered 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 100 100 000 Old_age Always - 0
202 Unknown_SSD_Attribute 0x0030 100 100 000 Old_age Offline - 0
205 Thermal_Asperity_Rate 0x0032 100 100 000 Old_age Always - 0
231 Unknown_SSD_Attribute 0x0022 084 104 000 Old_age Always - 1729822804
234 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 2247681728
235 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 629583984
241 Total_LBAs_Written 0x0032 100 100 000 Old_age Always - 1211554048
242 Total_LBAs_Read 0x0032 100 100 000 Old_age Always - 383250227
248 Unknown_Attribute 0x0030 100 100 001 Old_age Offline - 100
249 Unknown_Attribute 0x0033 000 000 000 Pre-fail Always - 52

Ich wünsche euch allen einen schönen Tag und bedanke mich nochmals herzlich für eure Hilfe!

Thomas

sherminator · May 23, 2023

Guten Morgen,

L_Thomas said:
Ich denke, es ist keine fahrlässige Konfiguration für dieses kleine Umfeld.

ja, das sehe ich auch so.

L_Thomas said:
Die Sache mit den Updates und dem Kernel Tausch muss ich mir im Detail anschauen, da ich das Update aus der Ferne machen muss - aber vielen Dank für den Tipp.

Falls Du aus der Ferne SSH-Zugriff hast, sehe ich das entspannt. PVE auf die derzeit aktuelle Version 7.4-3 zu aktualisieren, ist ein einfaches

Code:

apt dist-upgrade

mit anschließendem Neustart.
Den Wechsel auf den Kernel-Zweig 6.2 habe ich selbst noch nie gemacht, aber auch das scheint leicht von der Hand zu gehen.

Hast Du eine (mind. Basic-) Proxmox-Subskription für diese Installation? Falls ja, würde ich auch den Support mal mit ins Boot holen.

mr44er · May 23, 2023

L_Thomas said:
Er steht in einem kleinen aber 2-seitig offenen Serverschrank mit mind. 50cm Luft nach oben.

Das ist ok, vermute aber, dass der Kleine innen zu heiß wird, weil die Box winzig ist. -> Die Abwärme wird eventuell nicht ausreichend raustransportiert.

Könnte sein, dass die disk deswegen auch langsam die Hufe streckt und 'zu heiß' der ursprüngliche Auslöser war:

Code:

17 Unknown_Attribute       0x0033   000   000   000    Pre-fail  Always       -       52
175 Program_Fail_Count_Chip 0x0032   100   100   000    Old_age   Always       -       4
249 Unknown_Attribute       0x0033   000   000   000    Pre-fail  Always       -       52

L_Thomas · May 23, 2023

Hallo,

vielen Dank für eure Antworten.

Code:

Falls Du aus der Ferne SSH-Zugriff hast, sehe ich das entspannt. PVE auf die derzeit aktuelle Version 7.4-3 zu aktualisieren

Die Updates werde ich wohl machen müssen. Ich hoffe ich verliere ihn dabei nicht.

Code:

Könnte sein, dass die disk deswegen auch langsam die Hufe streckt und 'zu heiß' der ursprüngliche Auslöser war:

Der LESv4 ist erst seit einem guten Monat im Einsatz. Lt. TK sollte der Einsatzbereich 0-40°C sein, davon sind wir hier sicher weit entfernt.
Schließt du dass aus dem SMART Attribut 175 oder aus den beiden anderen wo Pre-fail steht?

Vielen Dank!

Thomas

mr44er · May 23, 2023

Ja, das hatte ich gesehen auch die Umgebungstemp. bis max. 40°C.

Attribut 175 halte ich für die direkteste Antwort, dass was nicht in Ordnung ist (nach der kurzen Zeit). Entweder ist die disk ein Montagsmodell oder sie läuft sporadisch zu heiß/tripping (was ja naheliegend ist aufgrund des kleinen Gehäuses + nur passiv). Wenn disks zu heiß werden, machen sie dicht. Der Bus resettet sich dann und wann und bestenfalls gehts danach wieder kurz. Du solltest im log bei Stichworten wie 'bus, reset, resetting' was finden. Der Host läuft weiter, aber die VMs bekommen den Storage unterm Hintern temporär weggezogen, das gibt dann ganz komische Effekte.

Ich muss nicht richtig liegen mit der Überhitzung, TK wird sich ja was dabei gedacht haben und getestet etc., aber die disk hat so oder so ne Macke. Wenn das aber durch die Überhitzung kommt, wird das mit einer Tauschplatte vermutlich auch so laufen...

L_Thomas · May 23, 2023

In welchem Log sollte ich das sehen? Ich bin leider nicht so ein Linux Profi.
Die OPNsense ist gerade wieder abgestürzt. Im Syslog sehe ich aber keine Fehler direkt vor der Absturzmeldung.
Wenn ich dmesg eingebe habe ich auch keinen Fehler gesehen.
Wo könnte ich noch suchen?

Vielen Dank (für die Geduld mit mir)!

Thomas

mr44er · May 23, 2023

Du gehst ins syslog der GUI von proxmox. 'Select timespan', da sollte dann drei Tage zurück als default stehen. 'Update' klicken, dann immer weiter hochscrollen, dann wird das log geladen. Mittels Strg+F kann man jetzt im Browser das log durchsuchen.

Wenn da nichts Auffälliges steht, könnte es auch bedeuten, dass das log nicht geschrieben wurde (die disk war ja in dem Moment in einer anderen Dimension). Kann, aber muss nicht.

Hier als Beispiel:

Code:

May 22 12:09:35 ps01 kernel: sd 0:0:22:0: Power-on or device reset occurred
May 22 12:09:35 ps01 smartd[2339]: Device: /dev/sdb, failed to read SMART values
May 22 12:09:35 ps01 smartd[2339]: Sending warning via /usr/share/smartmontools/smartd-runner to root ...
May 22 12:09:35 ps01 smartd[2339]: Warning via /usr/share/smartmontools/smartd-runner to root: successful
May 22 12:09:35 ps01 smartd[2339]: Device: /dev/sdb, Self-Test Log error count increased from 0 to 6
May 22 12:09:35 ps01 smartd[2339]: Sending warning via /usr/share/smartmontools/smartd-runner to root ...

L_Thomas · May 23, 2023

Hallo,

ich finde da eben nichts. Hier von heute als die OPNsense abgestürzt ist. 14 Minuten davor hat er nur Schlüssen rotiert.
Das ganze Zahlen und Buchstaben-Müsli sagt mir natürlich nichts

.

May 23 11:18:18 pve pvestatd[949]: auth key pair too old, rotating..
May 23 11:32:04 pve QEMU[2101500]: KVM internal error. Suberror: 3
May 23 11:32:04 pve QEMU[2101500]: extra data[0]: 0x0000000080000b0e
May 23 11:32:04 pve QEMU[2101500]: extra data[1]: 0x0000000000000031
May 23 11:32:04 pve QEMU[2101500]: extra data[2]: 0x0000000000000083
May 23 11:32:04 pve QEMU[2101500]: extra data[3]: 0x0000000801119fe0
May 23 11:32:04 pve QEMU[2101500]: extra data[4]: 0x0000000000000002
May 23 11:32:04 pve QEMU[2101500]: RAX=0000000801119db0 RBX=fffffe000ab66090 RCX=00000000c0000101 RDX=00000000ffffffff
May 23 11:32:04 pve QEMU[2101500]: RSI=0000000000000000 RDI=fffffe000ab66090 RBP=fffffe000ab66080 RSP=fffffe000ab65fb0
May 23 11:32:04 pve QEMU[2101500]: R8 =0000000000000000 R9 =00000000ffffffff R10=0000000000000001 R11=dad38cdaff8b8a90
May 23 11:32:04 pve QEMU[2101500]: R12=000000000102296f R13=0000000000000000 R14=0000000000000078 R15=0000000801119db0
May 23 11:32:04 pve QEMU[2101500]: RIP=ffffffff811332b1 RFL=00010082 [--S----] CPL=0 II=0 A20=1 SMM=0 HLT=0
May 23 11:32:04 pve QEMU[2101500]: ES =003b 0000000000000000 ffffffff 00c0f300 DPL=3 DS [-WA]
May 23 11:32:04 pve QEMU[2101500]: CS =0020 0000000000000000 ffffffff 00a09b00 DPL=0 CS64 [-RA]
May 23 11:32:04 pve QEMU[2101500]: SS =0000 0000000000000000 ffffffff 00c00000
May 23 11:32:04 pve QEMU[2101500]: DS =003b 0000000000000000 ffffffff 00c0f300 DPL=3 DS [-WA]
May 23 11:32:04 pve QEMU[2101500]: FS =0013 0000000801064120 ffffffff 00c0f300 DPL=3 DS [-WA]
May 23 11:32:04 pve QEMU[2101500]: GS =001b ffffffff82c12000 ffffffff 00c0f300 DPL=3 DS [-WA]
May 23 11:32:04 pve QEMU[2101500]: LDT=0000 0000000000000000 ffffffff 00c00000
May 23 11:32:04 pve QEMU[2101500]: TR =0048 ffffffff82c12384 00002068 00008b00 DPL=0 TSS64-busy
May 23 11:32:04 pve QEMU[2101500]: GDT= ffffffff82c123ec 00000067
May 23 11:32:04 pve QEMU[2101500]: IDT= ffffffff81f5d710 00000fff
May 23 11:32:04 pve QEMU[2101500]: CR0=80050033 CR2=ffffffff811332b1 CR3=0000000801119db0 CR4=003506e0
May 23 11:32:04 pve QEMU[2101500]: DR0=0000000000000000 DR1=0000000000000000 DR2=0000000000000000 DR3=0000000000000000
May 23 11:32:04 pve QEMU[2101500]: DR6=00000000ffff0ff0 DR7=0000000000000400
May 23 11:32:04 pve QEMU[2101500]: EFER=0000000000000d01
May 23 11:32:04 pve QEMU[2101500]: Code=?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? <??> ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ??

Ich bin inzwischen auch mit TK in Kontakt. Mal schauen was da herauskommt.

Wenn es etwas neues von meiner Seite gibt, melde ich mich hier wieder.

Vielen Dank!

Thomas

mr44er · May 23, 2023

https://forum.proxmox.com/threads/kvm-internal-error-suberror-3.124406/
https://duckduckgo.com/?q=KVM+internal+error.+Suberror:+3&t=h_&ia=web

Gar nicht selten...

Entweder eine neuere Version hilft doch, falls bug in qemu oder das ist jetzt Zufall. Jetzt könnte es auch ein defektes RAM-Modul sein oder dass sogar das Modul überhitzt und Bits kippen. Auch das könnte die Fehler der disk provozieren, ohne dass diese selbst überhitzt, auch wenn die Tempzahlen von smart was anderes sagen.
Schwierig...ich bin jetzt aber mal gespannt, was TK meint.

Falk R. · May 23, 2023

Die LES haben ja ein Gehäuse, bestehend aus Kühlrippen. Bei normaler Last ist das mehr als ausreichend.
Ich würde zuerst einmal updaten und der Wechsel auf den 6.2er Kernel hat auch schon bei einigen Phänomenen geholfen. Kann man alles völlig gefahrlos aus der Ferne machen.

sherminator · May 23, 2023

mr44er said:
Könnte sein, dass die disk deswegen auch langsam die Hufe streckt und 'zu heiß' der ursprüngliche Auslöser war:

Ich glaube, dass die Infos und "Bewertungen" von smartctl mit Vorsicht zu genießen sind. Meine Laptop-SSD hier hat schlappe 10000 Power_On_Hours auf dem Buckel, und alle Werte stehen auf "Old_age" oder "Pre-fail". Ich hingegen behaupte, dass er der SSD bestens geht.

Ich würde auch erstmal davon ausgehen, dass TK weiß, was sie da tun. Wir haben seit Jahren mehrere LESv3 im Einsatz, nicht immer unter klimatisch günstigen Bedingungen, und wir hatten bislang keine Schwierigkeiten (die sich auf zu hohe Temperaturen zurückführen lassen).

sherminator · May 23, 2023

Einiges hier im Forum und anderswo deutet darauf hin, dass es Schwierigkeiten mit bestimmten Intel-CPUs gibt. Das Paket intel-microcode aus non-free nachinstallieren wäre mein nächster Versuch.

L_Thomas · May 24, 2023

Guten Morgen!

Vielen Dank für euer Interesse an meinem Problem.

Ich werde das Microcode Update heute nach Ordinationsschluss einspielen.

Ich denke es macht Sinn einen Schritt nach dem anderen durchzuführen um danach auch ein Ergebnis zu erhalten.

Wenn es nach dem Microcode Update noch Probleme gibt, werde ich den PVE von 7.3.3 auf die aktuelle Version updaten.

Wenn das auch nicht hilft, werde ich den Kernel auf die empfohlene Version tauschen.

Bzw. wenn von TK weitere Hinweise kommen werde ich die auch durchführen.

Vielen Dank soweit für eure Hilfe, ich werde den Fortschritt hier weiter dokumentieren.

Ich wünsche euch einen schönen Tag und wenige IT-Probleme!

Thomas

[SOLVED] PVE 7.3.3 auf TK LESv4 / 3CX VM und OPNsense VM stürzen immer wieder ab

New Member

Distinguished Member

New Member

Distinguished Member

Renowned Member

Famous Member

Distinguished Member

New Member

Renowned Member

Famous Member

New Member

Famous Member

New Member

Famous Member

New Member

Famous Member

Distinguished Member

Renowned Member

Renowned Member

New Member

We value your privacy