[SOLVED] Komischer Fehler bei Node

corin.corvus

Active Member
Apr 8, 2020
132
13
38
37
Moin,

ich habe einen von meinen 5 Nodes, der aktuell irgendwie ein paar Probleme macht. Es handelt sich dabei um einen einfachen 4 Core Node mit 32 GB Ram und 2TB speicher. Keine dedizierte GPU drin.

Dieser hat sich heute 3x unvermittelt rebootet. Vorher wurde das hier in den Syslog gespamt und zwar 349 mal:
Code:
Purging GPU memory, 0 pages freed, 0 pages still pinned, 1 pages left available.

Kann mir irgendjemand erklären was genau das bedeuten soll? Ich habe auf dem Node 3 VMs laufen gehabt, keine hat eine GPU durchgeleitet oder ähnliches.

LG
 
Da in den Dingern eine Grafikkarte integriert ist, arbeiten die mit shared Memory.
Wenn der Node den Memory purgen will, ist oft der RAM voll, oder ich würde auf ein Treiberproblem tippen.
 
Meine CPU hat eine iGPU, ja. Ich verwende diese auch innerhalb einer VM per PCI passthrough.

Das ist meine Hardware:
1709194458655.png


Hier die Konfiguration des passthrough:
1709194541353.png

Das Problem tritt immer Nachts auf, wenn die GPU auf der VM am Tag zuvor verwendet wurde.

@Falk R. hast du eine Idee, wie ich hier weiter vorgehen kann?
 
iGPU durchreichen wird von keinem Hersteller unterstützt und da wird immer vor Instabilitäten gewarnt.
Vermutlich gibt es da keine gute Lösung. Mir ist zumindest nix bekannt.
 
Da in den Dingern eine Grafikkarte integriert ist, arbeiten die mit shared Memory.
Wenn der Node den Memory purgen will, ist oft der RAM voll, oder ich würde auf ein Treiberproblem tippen.
Der Ram meiner Nodes ist nie voll. Habe seit Monaten nicht einmal über 85% Auslastung gesehen.
GPU reiche ich mit meinen Nodes auch nicht durch.
 
Der Ram meiner Nodes ist nie voll. Habe seit Monaten nicht einmal über 85% Auslastung gesehen.
GPU reiche ich mit meinen Nodes auch nicht durch.
Dann guck mal ob es einen neuen Treiber gibt
 
Dann guck mal ob es einen neuen Treiber gibt
Muss ehrlich sagen, dass ich abseits von normalen Proxmox Updates noch nie explizit Treiber aktualisiert habe. Bin bisher davon ausgegangen, dass es das System selbstständig macht (heute erst Updates gemacht)
 
Warum hast du ein CPU Limit konfiguriert?
Warum zeigt dein htop 40 offline Kerne an? Da ist dorch irgend etwas unsauber.
 
Nein, habe das System jetzt 3x neu aufgesetzt. Dieser Fehler tritt leider bei LXC Container auf... :(
Das war keine Ja/Nein Frage. Laut Screenshot hast du in deinem Container ein CPU Limit konfiguriert.
Container nutzen den Kernel des Hosts mit. Wenn du dann 40 offline Kerne im Host angezeigt bekommst, könnte das ja auch das Problem in den Containern verursachen.
P.S.
Was für eine CPU hast du denn im PVE?
 
Last edited:
Also ich haben auf dem Host folgende CPU

Intel® Xeon® Gold 5412U
incl. Hyper-Threading Technology

Das war keine Ja/Nein Frage. Laut Screenshot hast du in deinem Container ein CPU Limit konfiguriert.
Container nutzen den Kernel des Hosts mit. Wenn du dann 40 offline Kerne im Host angezeigt bekommst, könnte das ja auch das Problem in den Containern verursachen.
P.S.
Was für eine CPU hast du denn im PVE?

PVE 8 auf dem neuesten Kernel usw.
 
Das ist eine 24Core CPU, also sind die 48 Threads ja richtig.
Warum die ersten 40 Cores offline sind, würde ich an deiner Stelle mal versuchen nachzuvollziehen.
Vor allem weil Core0 mit dabei ist und der gern auch mal direkt angesprochen wird.
 
Das ist eine 24Core CPU, also sind die 48 Threads ja richtig.
Warum die ersten 40 Cores offline sind, würde ich an deiner Stelle mal versuchen nachzuvollziehen.
Vor allem weil Core0 mit dabei ist und der gern auch mal direkt angesprochen wird.
Hallöchen ich übernehm mal kurz, wir haben das Hostsystem neu aufgesetzt, leider zeigt sich der Fehler immer noch mit den 48 offline kernen. Ich kann mir das nur erklären das sich innerhalb von LXC etwas mit 8.0 geändert hat das es jetzt von Haus aus alle kerne sieht. Auf einer KVM passiert dies nicht. Auf unserem AMD EPYC Host zeigt sich selbiges Bild mit PVE 8.0, mit 7.X zeigt sich dieses verhalten nicht.
 
Last edited:
  • Like
Reactions: equestrian
Ich frage mich ja, wieso mein Problemthread hier so gekarpert wird und nicht einfach ein eigener aufgemacht wird?

Danke für die Hilfe so ;)
 
  • Like
Reactions: equestrian

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!