PVE 8.3.3 | NVMe-Laufwerk fällt regelmäßig aus

canefield

New Member
Jan 25, 2025
4
0
1
Liebe Mitglieder,

Ich habe eine Frage zu PVE auf einem NUC 14 Pro in Kombination mit einer SSD und NVMe.

Hardware:
ASUS NUC 14 Pro
CPU: i7-155H, RAM: 96GB (SO-DIMM, DDR5, 5600 MHz), SSD: 1x 2.5“ SAMSUNG EVO 870 (500GB), 1x M.2 SAMSUNG 990 PRO (2TB)

Software:
Proxmox Virtual Environment 8.3.3

Situation:
- Auf der SAMSUNG EVO 870 ist PVE installiert.
- SAMSUNG 990 PRO beherbergt alle VMs und dergleichen.
- Siehe Bilder für die Konfiguration der SSDs.

Problem:
- Mit einer gewissen Regelmäßigkeit verliert PVE plötzlich die Verbindung mit dem SAMSUNG 990 PRO.
1) Manchmal hilft ein Neustart, 2) Manchmal muss ich das System komplett ausschalten und 2 Minuten warten, 3) Manchmal schraube ich die NVMe heraus, starte PVE mit Fehlern neu, schalte das System aus und schraube die NVMe wieder ein und es funktioniert wieder.

Alles in allem, seltsam, dass die oben genannten Schritte notwendig sind, oder?
Es ist mir jetzt 2x mit diesem System passiert, aber auch 4-5x mit einem identischen anderen System.

Als Vorsichtsmaßnahme habe ich auch die Firmware/Bios sowohl des NUC als auch des NVMe auf die neuesten Versionen aktualisiert. Dies hat das Problem bisher nicht gelöst. Ich hätte möglicherweise den Verweis in /etc/fstab für einen direkten Neustart zu einem funktionierenden PVE entfernen können, aber dann bleibt das Problem mit dem NVMe bestehen.
Hat jemand eine Idee, woran das liegen könnte? Liegt es am NUC, am NVMe-Laufwerk oder woran?

Fehlermeldung:
Dies ist leider variabel, aber es läuft darauf hinaus, dass die Verbindung zum NVMe verloren geht. Die aktuellste Fehlermeldung:
"[TIME] Timed out waiting for device dev-nvme\x2dvg-nvme\x2dvz.device - /dev/nvme-vg/nvme-vz.
[DEPEND] Dependency failed for systemd-fsck@dev-nvme\x2dvg-nvme\x2dvz.service - File System Check on /dev/nvme-vg/nvme-vz.
[DEPEND] Dependency failed for mnt-nvme\x2dvz.mount - /mnt/nvme-vz.
[DEPEND] Dependency failed for local-fs.target - Local File Systems.
You are in emergency mode. After logging in, type ..."

Bilder:
Software
1737798593498.png

Anzeige
1737799715990.png

Festplatten
1737798422079.png

LVM
1737798625678.png

LVM-Thin
1737798659862.png

/etc/fstab
1737798723933.png

Logbuch:
Das Protokoll basiert auf den unten aufgeführten Schritten.
1) Feststellen, dass kein Server mehr online war.
2) Einfach einen Neustart von PVE durchgeführt.
3) Kein Ergebnis, NVMe nicht gefunden und Booten in den Notfallmodus.

Schließlich schalte ich den Server für eine geringere Zeit aus und schaltete ihn nach 10 Minuten wieder ein. Diesmal konnte er dann alles wieder finden. In dem früheren Bericht habe ich mir andere Tricks einfallen lassen, um ihn wieder online zu bekommen. Es variiert also, ist aber alles andere als stabil.

>>> Das Logbuch ist aus Gründen der Länge beigefügt. <<<

Ich bin sehr gespannt auf Ihre Ideen und Inspirationen. Hoffentlich bekomme ich das in den Griff und wird es stabil werden.

Vielen Dank für den Hinweis,
Canefield
 

Attachments

Hardware Problem, Temperatur, läuft der Anschluss M.2 auf dem PCIe 4.0 x4 Protokoll, dann auf PCIe 3.0 x4 stellen.
Da sind mehrere SPO verbaut, das BS und die Daten liegen nur auf jeweils einer einfachen und langsamen NVMe.
 
Last edited:
Aus deiner Datei kann man mal die "Error" Einträge sichten:
# error: vmbr0: bridge port enp86s0 does not exist
# EDAC igen6 MC1: HANDLING IBECC MEMORY ERROR
# Was machst Du den da mit Wifi? "iwlwifi" mal schnell alles Löschen
 
Halbwegs ins Blaue geraten, versuche mal ASPM im BIOS zu deaktivieren und beobachte wie sich das verhält.
Ich hatte eine ähnliche Situation, allerdings mit einer NIC und nicht mit NVMes (die betrifft aber ASPM auch) und weiter hinten hab ich noch einen langen Thread auf reddit gefunden, wo allerhand Probleme bei ASUS mit unterschiedlichen Chipsätzen auftauchen, egal ob AMD oder Intel:
 
Hardware Problem, Temperatur, läuft der Anschluss M.2 auf dem PCIe 4.0 x4 Protokoll, dann auf PCIe 3.0 x4 stellen.
Da sind mehrere SPO verbaut, das BS und die Daten liegen nur auf jeweils einer einfachen und langsamen NVMe.
Entschuldigung. Deutsch ist nicht meine Muttersprache. Was versteht man unter SPO und BS?
Als Antwort auf Ihre Frage, der Anschluss M.2 läuft auf PCIe 3.0 x4.
 
Aus deiner Datei kann man mal die "Error" Einträge sichten:
# error: vmbr0: bridge port enp86s0 does not exist
# EDAC igen6 MC1: HANDLING IBECC MEMORY ERROR
# Was machst Du den da mit Wifi? "iwlwifi" mal schnell alles Löschen
Ich nutze das WLAN überhaupt nicht. Alles ist verkabelt.

Bilder:
1737813535017.png
 
Halbwegs ins Blaue geraten, versuche mal ASPM im BIOS zu deaktivieren und beobachte wie sich das verhält.
Ich hatte eine ähnliche Situation, allerdings mit einer NIC und nicht mit NVMes (die betrifft aber ASPM auch) und weiter hinten hab ich noch einen langen Thread auf reddit gefunden, wo allerhand Probleme bei ASUS mit unterschiedlichen Chipsätzen auftauchen, egal ob AMD oder Intel:
Großartig. Ich werde es versuchen. Danke schön.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!