Hallo Zusammen,
seit der Kernel Version 6.1.X haben wir diverse Stabilitätsprobleme in unserem Proxmox/Ceph Cluster erfahren. Wir nutzen Ceph seit Version 17.2.4 und dem Kernel 5.15, dann mit 5.19 und jetzt 6.1.10-1. Bis Kernel Version 6.1.2.1 lief alles Problemlos, mit 6.1.6-1 hatten wir 5-10 Minuten nach Start des Hosts einen kompletten Crash mit Kernel Error, sodass wir zurück auf 6.1.2.1 sind. Mit Version 6.1.10-1 haben wir nach etwa 2-3 Tagen das Problem, das sich virtuelle Maschinen unabhängig aufhängen und nicht migriert werden können. In den Logs sind diverse „bad crc in data“ zu finden. Wir verwenden KRBD, da der Modus deutlich performanter läuft. Das Cluster läuft komplett auf der gleichen Proxmox Software Version, sowie identischer und aktueller Firmware/Bios. Ceph läuft auf einem 3 Host System mit 3/2 Replica. Es wird nur RBD genutzt. Die Auslastung der jeweiligen Hosts ist angepasst, sodass alle auf gleicher Last laufen. Durchschnittliche CPU Last: 3-7%, RAM 55-65%.
Anbei einige Infos zu unserem System (pro Host):
Bitte das Health Warning ignorieren (3 pgs not deep-scrubbed in time, sonst immer auf OK)
Sollten weitere Logs benötigt werden, werden diese nachgereicht. Danke.
seit der Kernel Version 6.1.X haben wir diverse Stabilitätsprobleme in unserem Proxmox/Ceph Cluster erfahren. Wir nutzen Ceph seit Version 17.2.4 und dem Kernel 5.15, dann mit 5.19 und jetzt 6.1.10-1. Bis Kernel Version 6.1.2.1 lief alles Problemlos, mit 6.1.6-1 hatten wir 5-10 Minuten nach Start des Hosts einen kompletten Crash mit Kernel Error, sodass wir zurück auf 6.1.2.1 sind. Mit Version 6.1.10-1 haben wir nach etwa 2-3 Tagen das Problem, das sich virtuelle Maschinen unabhängig aufhängen und nicht migriert werden können. In den Logs sind diverse „bad crc in data“ zu finden. Wir verwenden KRBD, da der Modus deutlich performanter läuft. Das Cluster läuft komplett auf der gleichen Proxmox Software Version, sowie identischer und aktueller Firmware/Bios. Ceph läuft auf einem 3 Host System mit 3/2 Replica. Es wird nur RBD genutzt. Die Auslastung der jeweiligen Hosts ist angepasst, sodass alle auf gleicher Last laufen. Durchschnittliche CPU Last: 3-7%, RAM 55-65%.
Anbei einige Infos zu unserem System (pro Host):
2x AMD EPYC 7413
H12DSi-N6
256 GB RAM
4x Kioxia CM6-V (eingeständiger NVME POOL)
8x Toshiba MG09 (eingeständiger HDD POOL)
1x 100Gbit Mellanox ( ConnectX-6 Dx EN, FW 22.35.1012, Ceph Traffic, MESH Routed Simple)
2x 10Gbit Mellanox ( ConnectX4LX, FW: 14.25.0017, 1x VM Traffic, 1x HA Cluster Traffic )
H12DSi-N6
256 GB RAM
4x Kioxia CM6-V (eingeständiger NVME POOL)
8x Toshiba MG09 (eingeständiger HDD POOL)
1x 100Gbit Mellanox ( ConnectX-6 Dx EN, FW 22.35.1012, Ceph Traffic, MESH Routed Simple)
2x 10Gbit Mellanox ( ConnectX4LX, FW: 14.25.0017, 1x VM Traffic, 1x HA Cluster Traffic )
proxmox-ve: 7.3-1 (running kernel: 6.1.10-1-pve)
pve-manager: 7.3-6 (running version: 7.3-6/723bb6ec)
pve-kernel-6.1: 7.3-4
pve-kernel-helper: 7.3-4
pve-kernel-5.15: 7.3-2
pve-kernel-5.19: 7.2-15
pve-kernel-6.1.10-1-pve: 6.1.10-1
pve-kernel-6.1.6-1-pve: 6.1.6-1
pve-kernel-6.1.2-1-pve: 6.1.2-1
pve-kernel-6.1.0-1-pve: 6.1.0-1
pve-kernel-5.19.17-2-pve: 5.19.17-2
pve-kernel-5.19.17-1-pve: 5.19.17-1
pve-kernel-5.19.7-2-pve: 5.19.7-2
pve-kernel-5.15.85-1-pve: 5.15.85-1
pve-kernel-5.15.83-1-pve: 5.15.83-1
pve-kernel-5.15.74-1-pve: 5.15.74-1
pve-kernel-5.15.30-2-pve: 5.15.30-3
ceph: 17.2.5-pve1
ceph-fuse: 17.2.5-pve1
corosync: 3.1.7-pve1
criu: 3.15-1+pve-1
glusterfs-client: 9.2-1
ifupdown2: 3.1.0-1+pmx3
ksm-control-daemon: 1.4-1
libjs-extjs: 7.0.0-1
libknet1: 1.24-pve2
libproxmox-acme-perl: 1.4.3
libproxmox-backup-qemu0: 1.3.1-1
libpve-access-control: 7.3-1
libpve-apiclient-perl: 3.2-1
libpve-common-perl: 7.3-2
libpve-guest-common-perl: 4.2-3
libpve-http-server-perl: 4.1-5
libpve-storage-perl: 7.3-2
libspice-server1: 0.14.3-2.1
lvm2: 2.03.11-2.1
lxc-pve: 5.0.2-1
lxcfs: 5.0.3-pve1
novnc-pve: 1.3.0-3
proxmox-backup-client: 2.3.3-1
proxmox-backup-file-restore: 2.3.3-1
proxmox-mail-forward: 0.1.1-1
proxmox-mini-journalreader: 1.3-1
proxmox-offline-mirror-helper: 0.5.1-1
proxmox-widget-toolkit: 3.5.5
pve-cluster: 7.3-2
pve-container: 4.4-2
pve-docs: 7.3-1
pve-edk2-firmware: 3.20220526-1
pve-firewall: 4.2-7
pve-firmware: 3.6-3
pve-ha-manager: 3.5.1
pve-i18n: 2.8-2
pve-qemu-kvm: 7.1.0-4
pve-xtermjs: 4.16.0-1
qemu-server: 7.3-3
smartmontools: 7.2-pve3
spiceterm: 3.2-2
swtpm: 0.8.0~bpo11+2
vncterm: 1.7-1
zfsutils-linux: 2.1.9-pve1
pve-manager: 7.3-6 (running version: 7.3-6/723bb6ec)
pve-kernel-6.1: 7.3-4
pve-kernel-helper: 7.3-4
pve-kernel-5.15: 7.3-2
pve-kernel-5.19: 7.2-15
pve-kernel-6.1.10-1-pve: 6.1.10-1
pve-kernel-6.1.6-1-pve: 6.1.6-1
pve-kernel-6.1.2-1-pve: 6.1.2-1
pve-kernel-6.1.0-1-pve: 6.1.0-1
pve-kernel-5.19.17-2-pve: 5.19.17-2
pve-kernel-5.19.17-1-pve: 5.19.17-1
pve-kernel-5.19.7-2-pve: 5.19.7-2
pve-kernel-5.15.85-1-pve: 5.15.85-1
pve-kernel-5.15.83-1-pve: 5.15.83-1
pve-kernel-5.15.74-1-pve: 5.15.74-1
pve-kernel-5.15.30-2-pve: 5.15.30-3
ceph: 17.2.5-pve1
ceph-fuse: 17.2.5-pve1
corosync: 3.1.7-pve1
criu: 3.15-1+pve-1
glusterfs-client: 9.2-1
ifupdown2: 3.1.0-1+pmx3
ksm-control-daemon: 1.4-1
libjs-extjs: 7.0.0-1
libknet1: 1.24-pve2
libproxmox-acme-perl: 1.4.3
libproxmox-backup-qemu0: 1.3.1-1
libpve-access-control: 7.3-1
libpve-apiclient-perl: 3.2-1
libpve-common-perl: 7.3-2
libpve-guest-common-perl: 4.2-3
libpve-http-server-perl: 4.1-5
libpve-storage-perl: 7.3-2
libspice-server1: 0.14.3-2.1
lvm2: 2.03.11-2.1
lxc-pve: 5.0.2-1
lxcfs: 5.0.3-pve1
novnc-pve: 1.3.0-3
proxmox-backup-client: 2.3.3-1
proxmox-backup-file-restore: 2.3.3-1
proxmox-mail-forward: 0.1.1-1
proxmox-mini-journalreader: 1.3-1
proxmox-offline-mirror-helper: 0.5.1-1
proxmox-widget-toolkit: 3.5.5
pve-cluster: 7.3-2
pve-container: 4.4-2
pve-docs: 7.3-1
pve-edk2-firmware: 3.20220526-1
pve-firewall: 4.2-7
pve-firmware: 3.6-3
pve-ha-manager: 3.5.1
pve-i18n: 2.8-2
pve-qemu-kvm: 7.1.0-4
pve-xtermjs: 4.16.0-1
qemu-server: 7.3-3
smartmontools: 7.2-pve3
spiceterm: 3.2-2
swtpm: 0.8.0~bpo11+2
vncterm: 1.7-1
zfsutils-linux: 2.1.9-pve1
Bitte das Health Warning ignorieren (3 pgs not deep-scrubbed in time, sonst immer auf OK)
cluster:
id: 8f515fd6-628a-4a4b-bca7-ad03c981189d
health: HEALTH_WARN
3 pgs not deep-scrubbed in time
services:
mon: 3 daemons, quorum pve1,pve2,pve3 (age 2d)
mgr: pve3(active, since 2d), standbys: pve2, pve1
osd: 36 osds: 36 up (since 2d), 36 in (since 10w)
data:
pools: 3 pools, 641 pgs
objects: 20.59M objects, 78 TiB
usage: 234 TiB used, 193 TiB / 428 TiB avail
pgs: 641 active+clean
io:
client: 309 KiB/s rd, 465 MiB/s wr, 19 op/s rd, 513 op/s wr
id: 8f515fd6-628a-4a4b-bca7-ad03c981189d
health: HEALTH_WARN
3 pgs not deep-scrubbed in time
services:
mon: 3 daemons, quorum pve1,pve2,pve3 (age 2d)
mgr: pve3(active, since 2d), standbys: pve2, pve1
osd: 36 osds: 36 up (since 2d), 36 in (since 10w)
data:
pools: 3 pools, 641 pgs
objects: 20.59M objects, 78 TiB
usage: 234 TiB used, 193 TiB / 428 TiB avail
pgs: 641 active+clean
io:
client: 309 KiB/s rd, 465 MiB/s wr, 19 op/s rd, 513 op/s wr
[global]
auth_client_required = cephx
auth_cluster_required = cephx
auth_service_required = cephx
cluster_network = 10.26.15.50/24
fsid = 8f515fd6-628a-4a4b-bca7-ad03c981189d
mon_allow_pool_delete = true
mon_host = 10.26.15.50 10.26.15.51 10.26.15.52
ms_bind_ipv4 = true
ms_bind_ipv6 = false
osd_pool_default_min_size = 2
osd_pool_default_size = 3
public_network = 10.26.15.50/24
[client]
keyring = /etc/pve/priv/$cluster.$name.keyring
[mds]
keyring = /var/lib/ceph/mds/ceph-$id/keyring
[mon.pve1]
public_addr = 10.26.15.50
[mon.pve2]
public_addr = 10.26.15.51
[mon.pve3]
public_addr = 10.26.15.52
auth_client_required = cephx
auth_cluster_required = cephx
auth_service_required = cephx
cluster_network = 10.26.15.50/24
fsid = 8f515fd6-628a-4a4b-bca7-ad03c981189d
mon_allow_pool_delete = true
mon_host = 10.26.15.50 10.26.15.51 10.26.15.52
ms_bind_ipv4 = true
ms_bind_ipv6 = false
osd_pool_default_min_size = 2
osd_pool_default_size = 3
public_network = 10.26.15.50/24
[client]
keyring = /etc/pve/priv/$cluster.$name.keyring
[mds]
keyring = /var/lib/ceph/mds/ceph-$id/keyring
[mon.pve1]
public_addr = 10.26.15.50
[mon.pve2]
public_addr = 10.26.15.51
[mon.pve3]
public_addr = 10.26.15.52
Sollten weitere Logs benötigt werden, werden diese nachgereicht. Danke.
Attachments
Last edited: