Permanentes Boot-Problem (PCIE bus error) nach temp. Einsetzen einer weiteren PCIE-Karte ...

drnicolas

Renowned Member
Dec 8, 2010
169
7
83
Ich bin völlig verzweifelt.
Ein funktiionierendes PVE-System mit installiertem PBS als Ausgangssituation. Ein Datastore mit 2 NVMe (ZFS mirror) auf so einer PCIE-Karte mit insgesamt 4 Plätzen für NVMe.

Gestern wurde probehalber eine vorhandene Adaptec SCSIS-Karte eingesetzt.
Beim Booten traten dann permanent Meldungen über PCIE bus error auf, die letztlich das Booten verhinderten.

- Entfernen der SCSI-Karte hat keinerlei Besserung gebracht
- BIOS-Reset auch nicht
- Stattdessen bekomme ich jetzt immer wieder Meldungen über NVMe reset controller ....
- ebenfalls kein Booten möglich und schon gar nicht der Import des ZFS storage

- Nach Entfernen der PCIE-Karte mit den beiden NVMe bootet die Maschine wieder, aber eben ohne den ZFS storage

Was kann ich tun? WIe kommt es, daß das vorübergehende EInstecken der SCSI-Karte so nachhaltige probleme auslöst - die aber wohl dann letztlich von der NVMe-Karte kommen.

Ach ja: Im BIOS wurde nach dem Reset wieder der entsprechende Slot auf x4x4x4x4 gesetzt.

Ich bin ratlos.
 
Hi,
hast du einen anderen Server wo du die PCI Karte testen kannst?
 
Was sind denn die genauen Fehler im Log?
 
Diese Fehler habe ich im kern.log gefunden.
ich habe aber auch Fehler, die komplett das Booten verhindern. Die konnte ich leider weder finden noch kopieren

Code:
Oct 12 20:51:09 pve-main kernel: [   71.961880] nvme nvme0: frozen state error d                                  etected, reset controller
Oct 12 20:51:12 pve-main kernel: [   74.380894] pcieport 0000:00:02.0: AER: Unco                                  rrected (Fatal) error received: 0000:00:02.0
Oct 12 20:51:12 pve-main kernel: [   74.382564] pcieport 0000:00:02.0:   device                                   [8086:0e04] error status/mask=00000020/00000000
Oct 12 20:51:12 pve-main kernel: [   74.384305] nvme nvme0: frozen state error d                                  etected, reset controller
Oct 12 20:51:14 pve-main kernel: [   76.738827] pcieport 0000:00:02.0: AER: Unco                                  rrected (Fatal) error received: 0000:00:02.0
Oct 12 20:51:14 pve-main kernel: [   76.740522] pcieport 0000:00:02.0:   device                                   [8086:0e04] error status/mask=00000020/00000000
Oct 12 20:51:14 pve-main kernel: [   76.742261] nvme nvme0: frozen state error d                                  etected, reset controller
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!