Proxmox Cluster Problem

Lieber Maxim, danke für deine Hilfe. Leider bin ich nun noch etwas aufgeschmissen und eventuell kannst du mir ja helfen. In der Datei steht bei mir nur:

# <file system> <mount point> <type> <options> <dump> <pass>
/dev/pve/root / ext4 errors=remount-ro 0 1
UUID=B295-5AC2 /boot/efi vfat defaults 0 1
/dev/pve/swap none swap sw 0 0
proc /proc proc defaults 0 0


Meine Linux Basics sind sehr sehr sehr lange her. Ich habe jedoch im /dev/mapper eine pve-root / pve-swap und pve-data. Dann natürlich noch mein LUN. Wenn ich das auf pve-root mache bekomme ich:

root@pve2:/dev/mapper# fsck.ext4 pve-root
e2fsck 1.47.0 (5-Feb-2023)
pve-root is mounted.
e2fsck: Cannot continue, aborting.

Das wird wohl die HDD vom System sein. Beim Data gibt es mir folgendes aus:


root@pve2:/dev/mapper# fsck.ext4 pve-data
e2fsck 1.47.0 (5-Feb-2023)
ext2fs_open2: Bad magic number in super-block
fsck.ext4: Superblock invalid, trying backup blocks...
fsck.ext4: Bad magic number in super-block while trying to open pve-data

The superblock could not be read or does not describe a valid ext2/ext3/ext4
filesystem. If the device is valid and it really contains an ext2/ext3/ext4
filesystem (and not swap or ufs or something else), then the superblock
is corrupt, and you might try running e2fsck with an alternate superblock:
e2fsck -b 8193 <device>
or
e2fsck -b 32768 <device>

und ich bin gerade auf dem node2 eben der Probleme macht:

1735811514549.png
 
Last edited:
Wenn ich mir mit versuche anzuzeigen was es ist erhalte ich:

root@pve2:/# blkid /dev/dm-1
/dev/dm-1: UUID="07d629fc-4f99-4e23-9636-0303ec044f03" BLOCK_SIZE="4096" TYPE="ext4"


aber die UUID ist bei lvdisplay bei all den gelisteten Sachen nicht mit dabei.

So wie es aussieht, scheint das aber die Platte zu sein wo Proxmox drauf läuft. Würde heissen, ich muss mit einem Ubuntu den Server Booten und schauen, dass ich das gemountet bekomme um einen Check zu machen?

root@pve2:/# udevadm info --query=all --name=/dev/dm-1
P: /devices/virtual/block/dm-1
M: dm-1
R: 1
U: block
T: disk
D: b 252:1
N: dm-1
L: 0
S: mapper/pve-root
S: disk/by-id/dm-uuid-LVM-e6B4mSummrLkANtN0bpCZBg1VwtIEe5rscz69FD3ABzNbBJ8OCNKHKW6u8lKTUDa
S: pve/root
S: disk/by-uuid/07d629fc-4f99-4e23-9636-0303ec044f03
S: disk/by-id/dm-name-pve-root
Q: 11
E: DEVPATH=/devices/virtual/block/dm-1
E: DEVNAME=/dev/dm-1
E: DEVTYPE=disk
E: DISKSEQ=11
E: MAJOR=252
E: MINOR=1
E: SUBSYSTEM=block
E: USEC_INITIALIZED=640667
E: DM_UDEV_DISABLE_LIBRARY_FALLBACK_FLAG=1
E: DM_UDEV_PRIMARY_SOURCE_FLAG=1
E: DM_UDEV_RULES=1
E: DM_UDEV_RULES_VSN=2
E: DM_ACTIVATION=1
E: DM_NAME=pve-root
E: DM_UUID=LVM-e6B4mSummrLkANtN0bpCZBg1VwtIEe5rscz69FD3ABzNbBJ8OCNKHKW6u8lKTUDa
E: DM_SUSPENDED=0
E: DM_VG_NAME=pve
E: DM_LV_NAME=root
E: ID_FS_UUID=07d629fc-4f99-4e23-9636-0303ec044f03
E: ID_FS_UUID_ENC=07d629fc-4f99-4e23-9636-0303ec044f03
E: ID_FS_VERSION=1.0
E: ID_FS_TYPE=ext4
E: ID_FS_USAGE=filesystem
E: SYSTEMD_READY=1
E: DEVLINKS=/dev/mapper/pve-root /dev/disk/by-id/dm-uuid-LVM-e6B4mSummrLkANtN0bpCZBg1VwtIEe5rscz69FD3ABzNbBJ8OCNKHKW6u8lKTUDa /dev/pve/root /de>
E: TAGS=:systemd:
E: CURRENT_TAGS=:systemd:
 
Last edited:
Das dm-1 ist ja laut der Ausgabe pve-root. Wenn ich aber dort das versuche kommt:


root@pve2:~# fsck.ext4 /dev/mapper/pve-root
e2fsck 1.47.0 (5-Feb-2023)
/dev/mapper/pve-root is mounted.
e2fsck: Cannot continue, aborting.

Aber ich möchte mich auf jeden Fall für deine Hilfe bedanken. Dass ist nicht selbstverständlich und ich weiss das sehr zu schätzen. Auch wenn ich vielleicht mit einigen dämlichen Fragen komme.
 
  • Like
Reactions: maxim.webster
Also wenn die Server und NVMes brandneu sind, dann ist das tatsächlich unwahrscheinlich (aber nicht unmöglich!), dass hardwaretechnisch was kaputt ist.

Interessant wäre daher ein Blick auf die SMART-Werte, die sind nicht immer eindeutig interpretierbar in kaputt/nicht kaputt.
smartctl -x -q noserial /dev/nvmeX <- gerne als .txt im Anhang

Falls das keinen Aufschluss bringt, wäre ich geneigt zu sagen, dass du den zickigen Server runterfährst und alle Netzwerkkabel trennst (damit auch bei versehentlichem reboot kein traffic mehr davon zum Cluster kommt, das ist wichtig!). Dann seinen Eintrag aus dem Cluster raus (von den anderen Nodes aus wird das gemacht).
In Ruhe lesen, auf Details achten, die Prozedur in Gänze verstehen und nicht in Panik einfach drauf loslegen:
https://pve.proxmox.com/wiki/Cluster_Manager#_remove_a_cluster_node
https://www.thomas-krenn.com/de/wiki/Proxmox_Node_aus_Cluster_entfernen_und_erneut_hinzufügen

Den betroffenen Server dann erst wieder ans Netzwerk anschließen, wenn er frisch installiert ist. Den gleichen Namen und die IPs geht dann auch klar.
 
Geht, wie schon gesagt mit dem fstab Eintrag, fsck.ext4 /dev/pve/root, das Problem ist nur, daß es un-mountet sein muß, wenn es denn was reparieren soll.
Ansonsten geht nur dry-run = gucken (-N/-n ? -> man), was denn versucht würde zu reparieren.
Wenn man fsck auf das "/" laufen lassen möchte, muß man zB ein live-linux per usb booten, und dann fsck auf die orig-PLatte von "/" laufen lassen.
 
Also wenn die Server und NVMes brandneu sind, dann ist das tatsächlich unwahrscheinlich (aber nicht unmöglich!), dass hardwaretechnisch was kaputt ist.

Interessant wäre daher ein Blick auf die SMART-Werte, die sind nicht immer eindeutig interpretierbar in kaputt/nicht kaputt.
smartctl -x -q noserial /dev/nvmeX <- gerne als .txt im Anhang

Falls das keinen Aufschluss bringt, wäre ich geneigt zu sagen, dass du den zickigen Server runterfährst und alle Netzwerkkabel trennst (damit auch bei versehentlichem reboot kein traffic mehr davon zum Cluster kommt, das ist wichtig!). Dann seinen Eintrag aus dem Cluster raus (von den anderen Nodes aus wird das gemacht).
In Ruhe lesen, auf Details achten, die Prozedur in Gänze verstehen und nicht in Panik einfach drauf loslegen:
https://pve.proxmox.com/wiki/Cluster_Manager#_remove_a_cluster_node
https://www.thomas-krenn.com/de/wiki/Proxmox_Node_aus_Cluster_entfernen_und_erneut_hinzufügen

Den betroffenen Server dann erst wieder ans Netzwerk anschließen, wenn er frisch installiert ist. Den gleichen Namen und die IPs geht dann auch klar.
 

Attachments

Sieht tatsächlich ok aus.

Es gibt neuere Firmware GXA7802Q für das Modell, wäre nicht das erste Mal dass einen so ein Bug beißt. (Ich hab das nur grob überflogen, aber ka ob das hier plausibel zum Fehlerbild zusammenpasst und falls ja, willst du das auch für die anderen Nodes flashen) Edit: Vergiss das mit der neuen Firmware, ich hatte mich in der Zeile vertan.
https://last-public-ovh-baremetal.s...otification_for_General_customer_v2.1_PDF.pdf

Ich kenne mich mit den OEM-Bezeichnungen von Samsung nicht sonderlich aus, aber gleiche trotzdem genau ab (SAMSUNG MZVL2512HCJQ-00B00)
00B00 = General?
00L = Lenovo

Obwohl eine falsche Firmware zu 99% abgelehnt werden würde damit man nichts kaputtmachen kann, aber man sollte lieber 3x gucken und prüfen.

Also mein best "shot", wenn jetzt niemand mit nem besseren Vorschlag um die Ecke kommt tatsächlich die neue Firmware auf diese disk drauf, offline nehmen (aus cluster raus), frisch installieren, wieder rein in den Cluster. Wenn das klappt, dann die Firmware auf den anderen disks nachziehen, möglichst zeitnah nach ausgiebigem Test.
 
Last edited:
Hey @mr44er ich hatte letzte Woche als ich vor Ort war noch nen apt-get upgrade laufen lassen wo zwei Firmeware Updates dabei waren. Leider weiss ich aktuell nicht wovon. Bisher ist der Rechner auch immer noch drinnen. Einfach ohne aktive vm.
 
wo zwei Firmeware Updates dabei waren. Leider weiss ich aktuell nicht wovon.
Nicht schlimm. Hab nur explizit bei der SSD nen fw-bug vermutet, aber ich war in der Zeile verrutscht für dein Modell.

Bisher ist der Rechner auch immer noch drinnen.
Mag sein, aber in dem screenshot von #15 sagts ja, dass nur noch read only gemountet ist. Das heißt auf jeden Fall, dass zum einen die Daten auf der Platte nicht (mehr?) konsistent sind (das ext4 ist auf jeden Fall als hinüber zu betrachten) und zum anderen corosync auf jeden Fall auch nicht mehr konsistent ist, weil ja nicht geschrieben werden konnte.

Bei ZFS hätte ich gesagt, lass nen scrub laufen und hoffe aufs Beste (geringe Chance auf nen autoheal weil eben nur eine disk und keine Redundanz), bei ext4 weiß ich es nicht und würde mich auf die Tips der anderen verlassen. Wenn das live nicht fixbar ist und mit ner bootcd auch nicht...tzja, dann bleibt dir leider nichts mehr übrig als die node frisch aufzuziehen.
 
Keine BMC (idrac/iLo/...) am Server um das remote (ohne hinfahren) virtuell an Konsole zu mounten ? (Echter Server hat schon was ...)
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!