[SOLVED] Proxmox startet Unregelmäßig neu

Master67 · Apr 9, 2023

Ich habe folgendes im Log gefunden, das passiert immer vor einem Neu Start:

Code:

Apr 09 14:07:15 pve lxcfs[1425]: ../src/utils.c: 316: read_file_fuse: Write to cache was truncated
Apr 09 14:07:16 pve lxcfs[1425]: ../src/utils.c: 316: read_file_fuse: Write to cache was truncated
Apr 09 14:07:17 pve lxcfs[1425]: ../src/utils.c: 316: read_file_fuse: Write to cache was truncated
Apr 09 14:07:18 pve lxcfs[1425]: ../src/utils.c: 316: read_file_fuse: Write to cache was truncated
Apr 09 14:07:19 pve lxcfs[1425]: ../src/utils.c: 316: read_file_fuse: Write to cache was truncated
-- Reboot --
Apr 09 14:08:53 pve kernel: Linux version 6.1.15-1-pve (build@proxmox) (gcc (Debian 10.2.1-6) 10.2.1 20210110, GNU ld (GNU Binutils for Debian) 2.35.2) #1 SMP PREEMPT_DYNAMIC PVE 6.1.15-1 (2023-03-08T08:53Z)
Apr 09 14:08:53 pve kernel: Command line: BOOT_IMAGE=/boot/vmlinuz-6.1.15-1-pve root=/dev/mapper/pve-root ro quiet intel_iommu=on
Apr 09 14:08:53 pve kernel: KERNEL supported cpus:
Apr 09 14:08:53 pve kernel:   Intel GenuineIntel
Apr 09 14:08:53 pve kernel:   AMD AuthenticAMD
Apr 09 14:08:53 pve kernel:   Hygon HygonGenuine
Apr 09 14:08:53 pve kernel:   Centaur CentaurHauls
Apr 09 14:08:53 pve kernel:   zhaoxin   Shanghai 
Apr 09 14:08:53 pve kernel: x86/fpu: Supporting XSAVE feature 0x001: 'x87 floating point registers'
Apr 09 14:08:53 pve kernel: x86/fpu: Supporting XSAVE feature 0x002: 'SSE registers'
Apr 09 14:08:53 pve kernel: x86/fpu: Supporting XSAVE feature 0x004: 'AVX registers'
Apr 09 14:08:53 pve kernel: x86/fpu: Supporting XSAVE feature 0x008: 'MPX bounds registers'
Apr 09 14:08:53 pve kernel: x86/fpu: Supporting XSAVE feature 0x010: 'MPX CSR'

Klar, dass vor dem "Reboot" muss der Auslöser sein, ich verstehe auch das Proxmox nicht in den "Cache" Schreiben kann, aber wie ich das Beheben kann, ist mir völlig schleierhaft.
Kennt Ihr den Fehler und gibt es eine Möglichkeit das auch ICH diesen beheben kann?

Ach, und bevor ich es vergesse, schöne Ostern, euch allen

Grüße Olaf

fireon · Apr 9, 2023

Ich hatte bis jetzt mit Kernel 6.1 auch keine gute Erfahrung. Starte bitte wieder mit LTS Kernel und schau ob das Verhalten damit behoben ist. Plattenspeicher hat root genug?

Falk R. · Apr 9, 2023

Ich bin mit dem Kernel 6.2 sehr zufrieden. Wie voll ist denn der RAM des Hosts? Wenn er nicht in den Cache schreiben kann, könnte auch der RAM voll sein.

Master67 · Apr 10, 2023

fireon said:
Ich hatte bis jetzt mit Kernel 6.1 auch keine gute Erfahrung. Starte bitte wieder mit LTS Kernel und schau ob das Verhalten damit behoben ist. Plattenspeicher hat root genug?

Hmmm...... also Platten Speicher hat "root" genug, ich habe aber in letzter Zeit auch öfter mal Probleme mit den Kernen, bei einem Kernel Update musste ich sogar die alte Version Installieren, da gab es wohl Probleme mit dem Ansprechen der Nvme´s die im Board verbaut sind.
Ich habe mich erinnert das ich bei einigen CTs, den Swap auf null gesetzt hatte, habe das geändert, ggf. hat es damit was zu tun?
Lass das System jetzt mal laufen, wenn das wieder mit der gleichen Meldung neu startet versuche ich mal den "alten" Kernel.

Master67 · Apr 10, 2023

Falk R. said:
Ich bin mit dem Kernel 6.2 sehr zufrieden. Wie voll ist denn der RAM des Hosts? Wenn er nicht in den Cache schreiben kann, könnte auch der RAM voll sein.

Es sind 64GB verbaut, laut Grafik sind max. 18GB ausgelastet und der Swap 64MB von 8GB.
Gibt es eine Möglichkeit unter Proxmox einen Ram Test zu starten?, ggf. hat ja auch ein Riegel einen Schaden (ist kein ECO)

Master67 · Apr 12, 2023

So drei Tage ohne Neu Start

Ich habe nur bei einigen LXC den Swap Aktiviert, was aber weiterhin Besteht ist diese Meldung:

Code:

Apr 09 14:07:15 pve lxcfs[1425]: ../src/utils.c: 316: read_file_fuse: Write to cache was truncated
Apr 09 14:07:16 pve lxcfs[1425]: ../src/utils.c: 316: read_file_fuse: Write to cache was truncated
Apr 09 14:07:17 pve lxcfs[1425]: ../src/utils.c: 316: read_file_fuse: Write to cache was truncated

Und diese kommt im Sekundentakt, hat aber nach jetzt 3 Tagen Laufzeit "noch" keine Auswirkungen auf das System gehabt.
Ich werde das weiter Beobachten

Falk R. · Apr 12, 2023

Guckst du mal hier:
https://forum.proxmox.com/threads/l..._file_fuse-write-to-cache-was-truncated.67729

Master67 · Apr 12, 2023

Falk R. said:
Guckst du mal hier:
https://forum.proxmox.com/threads/l..._file_fuse-write-to-cache-was-truncated.67729

Danke, aber eine Lösung gibt es dort auch nicht, ober ich habe es nicht Lesen/Verstehen können, weil das nicht in meiner Sprache ist (Sorry, müsste jeden Post mit Google übersetzen, oder mir nen App installieren die mir Seiten von EN in DE im Browser übersetzt).
Kann ja nicht sein das ich der Einzige Deutschsprachige bin der so ein Problem hat, also warte ich noch ;-)

EDIT: Was ich aber Verstanden habe, ist das es wohl Probleme geben kann wenn ein LXC nicht Sauber runtergefahren wird, ich konnte so den LCX-Identifizieren, ein Ubuntu 22.04 mit Docker und 11 Docker-Containern.
Nach einem "Herunterfahren" und neu Start ist die Meldung weg, nun stellt sich mir aber die Frage, wenn das nur ein Erscheinungsbild und nicht die Ursache für die Neu Starts ist, was verursacht diese Neu Starts dann?
Im Syslog finde ich nichts, somit Tippe ich wieder auf ein Hardware Problem!

Falk R. · Apr 12, 2023

Die Ursachen sind scheinbar verschieden, oft hängt es mit privilegierten LXCs zusammen oder einmal mit ZFS Replikation und LXC.
Wenn das neustarten des LXC geholfen hat, ist ja schon mal gut.
Lässt sich wohl nicht ganz so einfach reproduzieren.

Master67 · Apr 13, 2023

Falk R. said:
Die Ursachen sind scheinbar verschieden, oft hängt es mit privilegierten LXCs zusammen oder einmal mit ZFS Replikation und LXC

ZFS, nutze ich nicht....aber was mir (wenn man sucht findet man auch was) jetzt Aufgefallen ist, das Proxmox Daten verliert.
Problem daran ist ich weiß nicht welche HDD "Spinnt", oder ist es gar die System HDD!
ich habe OMV als VM-Installiert, dort alle HDDs, bis auf das System (klar) und 2 Nvmes als Raid 0 (ich weiß Raid 0 ist Böse, aber ich Speigel das Raid 0 1:1 auf einen Unraid Server, Sicher ist Sicher).
Nun frage ich mich wie man hier vorgehen sollte und wie ich die mögliche defekte HDD finden kann;
1. alles Platt machen und die Platten Einzeln Prüfen (somit hätte ich auch die Möglichkeit mit einem Linux Programm den RAM zu Testen)
2. oder eine Platte nach der anderen zu entfernen und zu Prüfen um ggf. nur die Verlorenen Daten wiederherzustellen
3. oder habt Ihr noch andere Vorschläge für mich?

P.S. Grundsätzlich Tendiere ich zu Möglichkeit 1

Falk R. · Apr 13, 2023

Erst mal unter Disks die Smart Werte anschauen. Da müsste man ja was sehen.

Master67 · Apr 16, 2023

Soooooo...... ich habe den "Übeltäter" gefunden!

@Falk R. die Smart Werte sahen normal aus, die Platte war eine SSD die ein paar kleinere LXC beheimatet, die SSD hat sich schlussendlich selbst verraten.
Einmal in der Woche prüfe ich alle LXCs auf Updates und installiere diese, wenn vorhanden, so geschehen am Donnerstag, für jeden LXCs gab es ein kleineres Update, am Freitag (warum auch immer) habe ich die Prüfung noch mal laufen lassen, die LXCs der SSD wollten die Updates Installieren, so als wären die nicht vor einem Tag installiert worden, die anderen LXCs zeigen keine Vorhanden Updates an.
Da war klar, dass die SSD einen Schaden hat, nach dem Ausbau konnte ich das nochmals Prüfen es wurden wohl die Partiontionen nicht sauber geschrieben, auch wurde die Kennung nicht mehr ausgegeben, also es war ein Hardwareproblem!
Nach dem Austausch und zurückspielen der Sicherungen der einzelnen LXCs ist das Problem nicht mehr aufgetreten!
Danke für eure Hilfe

Search

Search

[SOLVED] Proxmox startet Unregelmäßig neu

Master67

Member

fireon

Distinguished Member

Falk R.

Famous Member

Master67

Member

Master67

Member

Master67

Member

Falk R.

Famous Member

Master67

Member

Falk R.

Famous Member

Master67

Member

Falk R.

Famous Member

Master67

Member