Hallo zusammen,
ich hatte heute einige Probleme mit meinem Proxmox-Host, der mich zu einem harten Neustart zwang. Aktuell läuft wieder alles, aber ich weiß nicht so recht, woher der Fehler kam und wie ich ihn in Zukunft vermeiden kann.
Heute fiel mir auf, dass einige LXC und auch PVE selbst nicht mehr über die GUI erreichbar waren. Dies waren Jellyfin, Wordpress und NginxPM. Komischerweise waren AdGuard (LXC) sowie OMV (VM) weiterhin über die GUI ansprechbar. Über SSH konnte ich jedoch auf alle LXCs, VMs und PVE selbst noch zugreifen.
In PVE konnte ich allerdings mehr oder weniger nichts machen, bei nahezu allen Befehlen kam eine Fehlermeldung "input/output error" zurück. Log-Files ließen sich nicht öffnen, Befehle wie smartctl, df -h oder dmesg wurden nicht ausgeführt (gleiche Fehlermeldung), nicht einmal ein ordentlicher Reboot war möglich, sodass ich zu einem harten Neustart gezwungen war...
Nach dem Neustart fuhren PVE sowie alle LXCs und VMs wieder normal hoch, als wäre nichts geschehen. Ich habe mich dann im Netz auf die Suche nach derartigen Problemen gemacht und las, dass solche Fehler (input/output error) durch Fehler in der Hardware, vor allem durch Fehler in den Speichermedien aufkommen können.
Zum Verständnis:
Auf den ersten Blick erstmal nichts Auffälliges, allerdings "Error Information Log Entries: 1"? Irgendein Problem scheint es ja wohl doch zu geben. Aber wie finde ich heraus, welcher Fehler das ist? "No Errors Logged" wirkt eher wieder, als wären keine Fehler in den Logs erkennbar.
Die Unsafe Shutdowns kamen hauptsächlich aus der Anfangszeit, als ich ein paar mal den Server hart herunterfahren musste, weil sich durch eigene Dummheit/Unerfahrenheit eine VM nicht mehr herunterfahren ließ.
Somit scheint auch kein Volume an seine Kapazitätsgrenze zu stoßen, was laut einigen Beiträgen im Netz zu einem ähnlichen Verhalten führen könnte.
Via
Wie gesagt, aktuell läuft alles wieder so weit, allerdings scheint diese read-only-Geschichte trotzdem nicht so ganz richtig zu sein und hoffe, dass ihr mir weiterhelfen könnt
Vielen Dank im Voraus und LG
Skream
ich hatte heute einige Probleme mit meinem Proxmox-Host, der mich zu einem harten Neustart zwang. Aktuell läuft wieder alles, aber ich weiß nicht so recht, woher der Fehler kam und wie ich ihn in Zukunft vermeiden kann.
Heute fiel mir auf, dass einige LXC und auch PVE selbst nicht mehr über die GUI erreichbar waren. Dies waren Jellyfin, Wordpress und NginxPM. Komischerweise waren AdGuard (LXC) sowie OMV (VM) weiterhin über die GUI ansprechbar. Über SSH konnte ich jedoch auf alle LXCs, VMs und PVE selbst noch zugreifen.
In PVE konnte ich allerdings mehr oder weniger nichts machen, bei nahezu allen Befehlen kam eine Fehlermeldung "input/output error" zurück. Log-Files ließen sich nicht öffnen, Befehle wie smartctl, df -h oder dmesg wurden nicht ausgeführt (gleiche Fehlermeldung), nicht einmal ein ordentlicher Reboot war möglich, sodass ich zu einem harten Neustart gezwungen war...
Nach dem Neustart fuhren PVE sowie alle LXCs und VMs wieder normal hoch, als wäre nichts geschehen. Ich habe mich dann im Netz auf die Suche nach derartigen Problemen gemacht und las, dass solche Fehler (input/output error) durch Fehler in der Hardware, vor allem durch Fehler in den Speichermedien aufkommen können.
lsblk
liefert folgendes:
Code:
root@pve:~# root@pve:~# lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINTS
sda 8:0 0 10.9T 0 disk
├─sda1 8:1 0 10.9T 0 part
└─sda9 8:9 0 8M 0 part
sdb 8:16 0 10.9T 0 disk
├─sdb1 8:17 0 10.9T 0 part
└─sdb9 8:25 0 8M 0 part
sdc 8:32 0 111.8G 0 disk
├─sdc1 8:33 0 1007K 0 part
├─sdc2 8:34 0 512M 0 part
└─sdc3 8:35 0 111.3G 0 part
├─pve--OLD--EB5B597B-swap 252:0 0 8G 0 lvm
├─pve--OLD--EB5B597B-root 252:1 0 27.8G 0 lvm
├─pve--OLD--EB5B597B-data_tmeta 252:2 0 1G 0 lvm
│ └─pve--OLD--EB5B597B-data-tpool 252:10 0 59.7G 0 lvm
│ ├─pve--OLD--EB5B597B-data 252:11 0 59.7G 1 lvm
│ ├─pve--OLD--EB5B597B-vm--107--disk--0 252:12 0 4G 0 lvm
│ ├─pve--OLD--EB5B597B-vm--108--disk--0 252:13 0 2G 0 lvm
│ ├─pve--OLD--EB5B597B-vm--114--disk--0 252:14 0 8G 0 lvm
│ ├─pve--OLD--EB5B597B-vm--130--disk--1 252:15 0 500G 0 lvm
│ └─pve--OLD--EB5B597B-vm--100--disk--1 252:16 0 20G 0 lvm
└─pve--OLD--EB5B597B-data_tdata 252:4 0 59.7G 0 lvm
└─pve--OLD--EB5B597B-data-tpool 252:10 0 59.7G 0 lvm
├─pve--OLD--EB5B597B-data 252:11 0 59.7G 1 lvm
├─pve--OLD--EB5B597B-vm--107--disk--0 252:12 0 4G 0 lvm
├─pve--OLD--EB5B597B-vm--108--disk--0 252:13 0 2G 0 lvm
├─pve--OLD--EB5B597B-vm--114--disk--0 252:14 0 8G 0 lvm
├─pve--OLD--EB5B597B-vm--130--disk--1 252:15 0 500G 0 lvm
└─pve--OLD--EB5B597B-vm--100--disk--1 252:16 0 20G 0 lvm
sdd 8:48 0 931.5G 0 disk
├─sdd1 8:49 0 931.5G 0 part
└─sdd9 8:57 0 8M 0 part
zd0 230:0 0 9.8T 0 disk
└─zd0p1 230:1 0 9.8T 0 part
zd16 230:16 0 32G 0 disk
├─zd16p1 230:17 0 1M 0 part
├─zd16p2 230:18 0 513M 0 part
└─zd16p3 230:19 0 31.5G 0 part
zd32 230:32 0 60G 0 disk
├─zd32p1 230:33 0 59G 0 part
├─zd32p2 230:34 0 1K 0 part
└─zd32p5 230:37 0 975M 0 part
nvme0n1 259:0 0 465.8G 0 disk
├─nvme0n1p1 259:1 0 1007K 0 part
├─nvme0n1p2 259:2 0 1G 0 part /boot/efi
└─nvme0n1p3 259:3 0 464.8G 0 part
├─pve-swap 252:3 0 8G 0 lvm [SWAP]
├─pve-root 252:5 0 96G 0 lvm /
├─pve-data_tmeta 252:6 0 3.4G 0 lvm
│ └─pve-data-tpool 252:8 0 337.9G 0 lvm
│ └─pve-data 252:9 0 337.9G 1 lvm
└─pve-data_tdata 252:7 0 337.9G 0 lvm
└─pve-data-tpool 252:8 0 337.9G 0 lvm
└─pve-data 252:9 0 337.9G 1 lvm
- sda und sdb sind zwei 12TB-HDDs als ZFS-Volume im Raid 1.
- sdc ist eine alte 120GB SSD, die nicht mehr aktiv genutzt wird. Früher habe ich dort ein paar LXCs installiert, bevor ich mir die größere 1TB-SSD (sdd) zugelegt und darauf die LXCs und VMs installiert.
- nvme0n1 ist eine M.2-SSD mit 500GB, auf der Proxmox installiert ist.
smartctl -a /dev/nvme0n1
liefert folgendes:
Code:
root@pve:~# smartctl -a /dev/nvme0n1
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.8.4-3-pve] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Number: WD Red SN700 500GB
Serial Number: 23314S800467
Firmware Version: 111150WD
PCI Vendor/Subsystem ID: 0x15b7
IEEE OUI Identifier: 0x001b44
Total NVM Capacity: 500,107,862,016 [500 GB]
Unallocated NVM Capacity: 0
Controller ID: 8215
NVMe Version: 1.3
Number of Namespaces: 1
Namespace 1 Size/Capacity: 500,107,862,016 [500 GB]
Namespace 1 Formatted LBA Size: 512
Namespace 1 IEEE EUI-64: 001b44 8b4adef4df
Local Time is: Tue May 21 20:00:37 2024 CEST
Firmware Updates (0x14): 2 Slots, no Reset required
Optional Admin Commands (0x0017): Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x0e): Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg
Maximum Data Transfer Size: 128 Pages
Warning Comp. Temp. Threshold: 84 Celsius
Critical Comp. Temp. Threshold: 88 Celsius
Namespace 1 Features (0x02): NA_Fields
Supported Power States
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 5.50W - - 0 0 0 0 0 0
1 + 3.50W - - 1 1 1 1 0 0
2 + 3.00W - - 2 2 2 2 0 0
3 - 0.0700W - - 3 3 3 3 4000 10000
4 - 0.0035W - - 4 4 4 4 4000 40000
Supported LBA Sizes (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
0 + 512 0 2
1 - 4096 0 1
=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 45 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 0%
Data Units Read: 1,194,167 [611 GB]
Data Units Written: 498,544 [255 GB]
Host Read Commands: 5,849,222
Host Write Commands: 33,994,853
Controller Busy Time: 36
Power Cycles: 12
Power On Hours: 3,038
Unsafe Shutdowns: 5
Media and Data Integrity Errors: 0
Error Information Log Entries: 1
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Error Information (NVMe Log 0x01, 16 of 256 entries)
No Errors Logged
Auf den ersten Blick erstmal nichts Auffälliges, allerdings "Error Information Log Entries: 1"? Irgendein Problem scheint es ja wohl doch zu geben. Aber wie finde ich heraus, welcher Fehler das ist? "No Errors Logged" wirkt eher wieder, als wären keine Fehler in den Logs erkennbar.
Die Unsafe Shutdowns kamen hauptsächlich aus der Anfangszeit, als ich ein paar mal den Server hart herunterfahren musste, weil sich durch eigene Dummheit/Unerfahrenheit eine VM nicht mehr herunterfahren ließ.
df -h
zeigt folgendes:
Code:
root@pve:~# df -h
Filesystem Size Used Avail Use% Mounted on
udev 32G 0 32G 0% /dev
tmpfs 6.3G 1.3M 6.3G 1% /run
/dev/mapper/pve-root 94G 14G 76G 16% /
tmpfs 32G 34M 32G 1% /dev/shm
tmpfs 5.0M 0 5.0M 0% /run/lock
efivarfs 128K 23K 101K 19% /sys/firmware/efi/efivars
/dev/nvme0n1p2 1022M 12M 1011M 2% /boot/efi
SanDisk_1TB 798G 256K 798G 1% /SanDisk_1TB
SanDisk_1TB/subvol-102-disk-0 8.0G 3.2G 4.9G 40% /SanDisk_1TB/subvol-102-disk-0
SanDisk_1TB/subvol-105-disk-0 8.0G 949M 7.1G 12% /SanDisk_1TB/subvol-105-disk-0
SanDisk_1TB/subvol-114-disk-0 8.0G 2.6G 5.5G 33% /SanDisk_1TB/subvol-114-disk-0
SanDisk_1TB/subvol-107-disk-0 4.0G 1.4G 2.7G 34% /SanDisk_1TB/subvol-107-disk-0
SanDisk_1TB/subvol-108-disk-0 2.0G 717M 1.4G 35% /SanDisk_1TB/subvol-108-disk-0
Netzwerkspeicher_12TB 884G 128K 884G 1% /Netzwerkspeicher_12TB
/dev/fuse 128M 20K 128M 1% /etc/pve
tmpfs 6.3G 0 6.3G 0% /run/user/0
Via
journalctl --since 2024-05-01 -p err
konnte ich auch keine Fehler ausfindig machen, die auf ein I/O-Problem hindeuten (seit dem 13. Mai gab es gar keine Errors außer ein paar fehlgeschlagener Logins (Passwort vertippt) und einem fehlenden snd_hda_Intel-Codec)Wie gesagt, aktuell läuft alles wieder so weit, allerdings scheint diese read-only-Geschichte trotzdem nicht so ganz richtig zu sein und hoffe, dass ihr mir weiterhelfen könnt
Vielen Dank im Voraus und LG
Skream