PVE 8.3.3 | NVMe-Laufwerk fällt regelmäßig aus

canefield

New Member
Jan 25, 2025
4
0
1
Liebe Mitglieder,

Ich habe eine Frage zu PVE auf einem NUC 14 Pro in Kombination mit einer SSD und NVMe.

Hardware:
ASUS NUC 14 Pro
CPU: i7-155H, RAM: 96GB (SO-DIMM, DDR5, 5600 MHz), SSD: 1x 2.5“ SAMSUNG EVO 870 (500GB), 1x M.2 SAMSUNG 990 PRO (2TB)

Software:
Proxmox Virtual Environment 8.3.3

Situation:
- Auf der SAMSUNG EVO 870 ist PVE installiert.
- SAMSUNG 990 PRO beherbergt alle VMs und dergleichen.
- Siehe Bilder für die Konfiguration der SSDs.

Problem:
- Mit einer gewissen Regelmäßigkeit verliert PVE plötzlich die Verbindung mit dem SAMSUNG 990 PRO.
1) Manchmal hilft ein Neustart, 2) Manchmal muss ich das System komplett ausschalten und 2 Minuten warten, 3) Manchmal schraube ich die NVMe heraus, starte PVE mit Fehlern neu, schalte das System aus und schraube die NVMe wieder ein und es funktioniert wieder.

Alles in allem, seltsam, dass die oben genannten Schritte notwendig sind, oder?
Es ist mir jetzt 2x mit diesem System passiert, aber auch 4-5x mit einem identischen anderen System.

Als Vorsichtsmaßnahme habe ich auch die Firmware/Bios sowohl des NUC als auch des NVMe auf die neuesten Versionen aktualisiert. Dies hat das Problem bisher nicht gelöst. Ich hätte möglicherweise den Verweis in /etc/fstab für einen direkten Neustart zu einem funktionierenden PVE entfernen können, aber dann bleibt das Problem mit dem NVMe bestehen.
Hat jemand eine Idee, woran das liegen könnte? Liegt es am NUC, am NVMe-Laufwerk oder woran?

Fehlermeldung:
Dies ist leider variabel, aber es läuft darauf hinaus, dass die Verbindung zum NVMe verloren geht. Die aktuellste Fehlermeldung:
"[TIME] Timed out waiting for device dev-nvme\x2dvg-nvme\x2dvz.device - /dev/nvme-vg/nvme-vz.
[DEPEND] Dependency failed for systemd-fsck@dev-nvme\x2dvg-nvme\x2dvz.service - File System Check on /dev/nvme-vg/nvme-vz.
[DEPEND] Dependency failed for mnt-nvme\x2dvz.mount - /mnt/nvme-vz.
[DEPEND] Dependency failed for local-fs.target - Local File Systems.
You are in emergency mode. After logging in, type ..."

Bilder:
Software
1737798593498.png

Anzeige
1737799715990.png

Festplatten
1737798422079.png

LVM
1737798625678.png

LVM-Thin
1737798659862.png

/etc/fstab
1737798723933.png

Logbuch:
Das Protokoll basiert auf den unten aufgeführten Schritten.
1) Feststellen, dass kein Server mehr online war.
2) Einfach einen Neustart von PVE durchgeführt.
3) Kein Ergebnis, NVMe nicht gefunden und Booten in den Notfallmodus.

Schließlich schalte ich den Server für eine geringere Zeit aus und schaltete ihn nach 10 Minuten wieder ein. Diesmal konnte er dann alles wieder finden. In dem früheren Bericht habe ich mir andere Tricks einfallen lassen, um ihn wieder online zu bekommen. Es variiert also, ist aber alles andere als stabil.

>>> Das Logbuch ist aus Gründen der Länge beigefügt. <<<

Ich bin sehr gespannt auf Ihre Ideen und Inspirationen. Hoffentlich bekomme ich das in den Griff und wird es stabil werden.

Vielen Dank für den Hinweis,
Canefield
 

Attachments

Hardware Problem, Temperatur, läuft der Anschluss M.2 auf dem PCIe 4.0 x4 Protokoll, dann auf PCIe 3.0 x4 stellen.
Da sind mehrere SPO verbaut, das BS und die Daten liegen nur auf jeweils einer einfachen und langsamen NVMe.
 
Last edited:
Aus deiner Datei kann man mal die "Error" Einträge sichten:
# error: vmbr0: bridge port enp86s0 does not exist
# EDAC igen6 MC1: HANDLING IBECC MEMORY ERROR
# Was machst Du den da mit Wifi? "iwlwifi" mal schnell alles Löschen
 
Halbwegs ins Blaue geraten, versuche mal ASPM im BIOS zu deaktivieren und beobachte wie sich das verhält.
Ich hatte eine ähnliche Situation, allerdings mit einer NIC und nicht mit NVMes (die betrifft aber ASPM auch) und weiter hinten hab ich noch einen langen Thread auf reddit gefunden, wo allerhand Probleme bei ASUS mit unterschiedlichen Chipsätzen auftauchen, egal ob AMD oder Intel:
 
Hardware Problem, Temperatur, läuft der Anschluss M.2 auf dem PCIe 4.0 x4 Protokoll, dann auf PCIe 3.0 x4 stellen.
Da sind mehrere SPO verbaut, das BS und die Daten liegen nur auf jeweils einer einfachen und langsamen NVMe.
Entschuldigung. Deutsch ist nicht meine Muttersprache. Was versteht man unter SPO und BS?
Als Antwort auf Ihre Frage, der Anschluss M.2 läuft auf PCIe 3.0 x4.
 
Aus deiner Datei kann man mal die "Error" Einträge sichten:
# error: vmbr0: bridge port enp86s0 does not exist
# EDAC igen6 MC1: HANDLING IBECC MEMORY ERROR
# Was machst Du den da mit Wifi? "iwlwifi" mal schnell alles Löschen
Ich nutze das WLAN überhaupt nicht. Alles ist verkabelt.

Bilder:
1737813535017.png
 
Halbwegs ins Blaue geraten, versuche mal ASPM im BIOS zu deaktivieren und beobachte wie sich das verhält.
Ich hatte eine ähnliche Situation, allerdings mit einer NIC und nicht mit NVMes (die betrifft aber ASPM auch) und weiter hinten hab ich noch einen langen Thread auf reddit gefunden, wo allerhand Probleme bei ASUS mit unterschiedlichen Chipsätzen auftauchen, egal ob AMD oder Intel:
Großartig. Ich werde es versuchen. Danke schön.
 
Ich habe möglicherweise ein ähnliches Problem mit folgendem System

  • ASUS PRIME B760 plus, CPU I7- 14700, 128GB DDR5-4800
  • 3x M.2 Samsung 990 PRO (2TB)
  • Proxmox VE 8.3
  • ZFS RAID-Z1 (RAID 5) mit allen 3 Platten

Sporadisch fällt die Platte im 3. M.2 Slot aus und ZFS läuft in einem degraded mode. Die ausgefallene Platte bleibt auch über mehrere Wochen ausgefallen und meldet sich nicht mehr zurück, auch nicht nach einem Kaltstart.

Letzte Woche wollte ich die scheinbar defekte Platte tauschen, habe vorher aber ein BIOS Update auf V1810 gemacht. Danach war die Platte wieder da und ZFS hat sofort ca. 500GB synchronisiert ("resilvered").

Jetzt ist das ganze eine Woche gelaufen und die selbe Platte ist wieder ausgefallen. Morgen werde ich nun eine Transcend TS2TMTE220S einbauen und hoffe, dass das funktioniert. Ja, die hat nur PCI 3.0x4 und ist nur halb so schnell, aber vielleicht macht das ja gerade den Unterschied.

Die 3. NVME (Samsung 990 PRO) fällt nämlich – wenn sie ausfällt – immer zur selben Zeit aus; nämlich genau dann wenn Backup gemacht wird und ca. 150GB herumgeschoben werden.



Ist es möglich, die Schreibgeschwindigkeit bei ZFS zu limitieren?
 
Last edited: