Proxmox Reboot hängt

scaa

Renowned Member
Nov 20, 2015
152
6
83
Hallo!

Wir haben einen der neuen AX42-Server bei Hetzner gebucht in Proxmox 8.2.4 installiert.
AMD Ryzen™ 7 PRO 8700GE
2x 512 NVME im Software Raid 1

Leider ist es so, das ein reboot-Befehl in putty eine Kernal-Panic auslöst und man nur noch kalt resetten kann.
Mehrfach wiederholt, immer dasselbe Ergebnis:

p1.jpg

Ein reboot, ausgelöst über die Proxmox-Gui hat ein paarmal geklappt, daber zuletzt hing auch dieser Vorgang, Allerdings mit einer anderen Meldung:

p2.jpg

So einen Effekt habe ich bislang noch nicht erlebt.
Kennt jemand das Problem oder hat eine Idee!
 

Attachments

Laut Hetzner crashed Proxmos wenn vor Fertigstellung des initialen RAID-syncs ein Softreboot ausgelöst wird

Aber das Raid ist fertig:

root@prox03 ~ # cat /proc/mdstat
Personalities : [raid1] [raid0] [raid6] [raid5] [raid4] [raid10]
md3 : active raid1 nvme1n1p4[0] nvme0n1p4[1]
489225536 blocks super 1.2 [2/2] [UU]
bitmap: 3/4 pages [12KB], 65536KB chunk

md2 : active raid1 nvme1n1p3[0] nvme0n1p3[1]
8379392 blocks super 1.2 [2/2] [UU]

md1 : active raid1 nvme1n1p2[0] nvme0n1p2[1]
2094080 blocks super 1.2 [2/2] [UU]

md0 : active raid1 nvme1n1p1[0] nvme0n1p1[1]
262080 blocks super 1.0 [2/2] [UU]

unused devices: <none>
 
Hast du die Enterprise NVMe genommen? Wenn ja, dann würde ich mit ZFS Mirror installieren.

Alternativ geht auf den einfachen NVMe auch BTRFS Raid1 ohne mega Verschleiß. Mit md-Raid hatte ich auch schon ein paar Probleme bei den AX41.
 
Last edited:
Die beiden 512er-SSDs kannman sich ja nicht aussuchen Die sind fest vorgebeben: SAMSUNG MZVL2512HCJQ-00B00
Das sieht mir nicht nach Enterprise aus.

Laut der Screenshots ist dies vermutlich die Ursache:
------------------------------------------------
RIP: 0010:md_notify_rbeoot+0xdc/0x160
------------------------------------------------

Allerdings ist das Raid fertig gesynct und zeigt keine Probleme:
Code:
root@prox03 ~ # mdadm --detail /dev/md0
/dev/md0:
           Version : 1.0
     Creation Time : Wed Jun 19 19:13:14 2024
        Raid Level : raid1
        Array Size : 262080 (255.94 MiB 268.37 MB)
     Used Dev Size : 262080 (255.94 MiB 268.37 MB)
      Raid Devices : 2
     Total Devices : 2
       Persistence : Superblock is persistent

       Update Time : Wed Jun 19 22:24:58 2024
             State : clean
    Active Devices : 2
   Working Devices : 2
    Failed Devices : 0
     Spare Devices : 0

Consistency Policy : resync

              Name : rescue:0
              UUID : 4d9c4b4a:0bf686d1:8d66a53c:ff16108f
            Events : 63

    Number   Major   Minor   RaidDevice State
       0     259        8        0      active sync   /dev/nvme2n1p1
       1     259        4        1      active sync   /dev/nvme0n1p1
 
Rückmeldung von Hetzner:

Wir konnten zwischenzeitlich das Verhalten ebenfalls auf einem Testsystem reproduzieren und bisher insoweit eingrenzen als das es sich vermutlich um eine Racecondition beim Shutdown in Verbindung mit dem md_raid Modul handelt.

Ein Kernel downgrade (6.2.16-20-pve) hat es entsprechend fuer uns behoben.
 
  • Like
Reactions: Falk R.