Hallo zusammen,
am Wochenende ist unser Cluster für etwas mehr als 5 Stunden ausgefallen.
Die VMs selbst waren nicht eingefroren (atop in jeder VM hat weiter aufgezeichnet, syslog ebenso), hatten aber eine massiv erhöhte Load
und waren im Netzwer auch nicht erreichbar. Selbst die DNS-Server waren nicht erreichbar, was dann zu weiteren Problemen führte.
Die ersten Auffälligkeiten:
Kurz zum Cluster:
Das Cluster besteht aus 4 Servern mit jeweils 2 OSDs für Ceph.
Die Netzwerke (Frontend und Backend) sind 10G-Netze, die dazugehörigen Backupnetze (active backup) 1G.
Letztere wurden allerdings laut übertragenen Daten (ifconfig) nicht genutzt.
Scrubbing läuft zwischen 22 und 6 Uhr.
Allerdings sehe ich hier an Hand der Stats keinen Zusammenhang:
Die RRDC-Fehler waren weg, als ich am 7.3. einen Ceph-Manager neugestartet habe, weil eine "slow op" übrig blieb.
Verwendete Software:
gegen 4:45 hat sich da Problem auf Cluster-Ebene von selbst gelöst (von 1 "slow ops" mal abgesehen).
Danach gab es nur noch Probleme mit Diensten innerhalb von VMs.
Hat jemand eine Idee dazu?
am Wochenende ist unser Cluster für etwas mehr als 5 Stunden ausgefallen.
Die VMs selbst waren nicht eingefroren (atop in jeder VM hat weiter aufgezeichnet, syslog ebenso), hatten aber eine massiv erhöhte Load
und waren im Netzwer auch nicht erreichbar. Selbst die DNS-Server waren nicht erreichbar, was dann zu weiteren Problemen führte.
Die ersten Auffälligkeiten:
Code:
Mar 6 23:06:48 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/127: -1
Mar 6 23:06:48 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/149: -1
Mar 6 23:06:48 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/189: -1
Mar 6 23:06:48 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/151: -1
...
Mar 6 23:06:48 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-storage/is-master-19/SSD: -1
Mar 6 23:06:48 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-storage/is-master-19/local: -1
...
Mar 6 23:10:42 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-storage/is-master-19/local: -1
Mar 6 23:10:42 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-storage/is-master-19/SSD: -1
Mar 6 23:10:43 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-storage/is-master-16/local: -1
Mar 6 23:10:43 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-storage/is-master-16/SSD: -1
...
Mar 6 23:29:34 is-master-16 pvestatd[1329]: status update time (12.412 seconds)
Mar 6 23:29:34 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-storage/is-master-19/local: -1
Mar 6 23:29:34 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-storage/is-master-19/SSD: -1
Mar 6 23:29:34 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-storage/is-master-23/SSD: -1
Mar 6 23:29:34 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-storage/is-master-23/local: -1
Mar 6 23:29:34 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-storage/is-master-16/local: -1
Mar 6 23:29:34 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-storage/is-master-16/SSD: -1
Mar 6 23:29:54 is-master-16 ceph-osd[1224]: 2021-03-06 23:29:54.169 7f2390276700 -1 osd.6 8952 get_health_metrics reporting 1 slow ops, oldest is osd_op(client.54028820.0:39896176 4.66 4:660059ab:::rbd_data.3851df7d467eb9.0000000000001b64:head [write 1798144~4096] snapc 0=[] ondisk+write+known_if_redirected e8952)
Mar 6 23:29:54 is-master-16 ceph-osd[1223]: 2021-03-06 23:29:54.637 7f01bdb67700 -1 osd.7 8952 get_health_metrics reporting 1 slow ops, oldest is osd_op(client.54464350.0:94161981 4.24 4:2478474f:::rbd_data.2d24364056236a.0000000000000c01:head [write 3567616~4096] snapc 0=[] ondisk+write+known_if_redirected e8952)
Mar 6 23:29:55 is-master-16 pvestatd[1329]: status update time (10.280 seconds)
Mar 6 23:29:55 is-master-16 ceph-osd[1224]: 2021-03-06 23:29:55.217 7f2390276700 -1 osd.6 8952 get_health_metrics reporting 1 slow ops, oldest is osd_op(client.54028820.0:39896176 4.66 4:660059ab:::rbd_data.3851df7d467eb9.0000000000001b64:head [write 1798144~4096] snapc 0=[] ondisk+write+known_if_redirected e8952)
...
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRD update error /var/lib/rrdcached/db/pve2-vm/133: /var/lib/rrdcached/db/pve2-vm/133: illegal attempt to update using time 1615070000 when last update time is 1615070000 (minimum one second step)
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/119: -1
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/127: -1
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/183: -1
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/143: -1
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/122: -1
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/123: -1
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/120: -1
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/121: -1
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/158: -1
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/187: -1
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/126: -1
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/149: -1
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/189: -1
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRD update error /var/lib/rrdcached/db/pve2-vm/189: /var/lib/rrdcached/db/pve2-vm/189: illegal attempt to update using time 1615070000 when last update time is 1615070000 (minimum one second step)
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/151: -1
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRD update error /var/lib/rrdcached/db/pve2-vm/151: /var/lib/rrdcached/db/pve2-vm/151: illegal attempt to update using time 1615070000 when last update time is 1615070000 (minimum one second step)
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/128: -1
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRD update error /var/lib/rrdcached/db/pve2-vm/128: /var/lib/rrdcached/db/pve2-vm/128: illegal attempt to update using time 1615070000 when last update time is 1615070000 (minimum one second step)
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/184: -1
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRD update error /var/lib/rrdcached/db/pve2-vm/184: /var/lib/rrdcached/db/pve2-vm/184: illegal attempt to update using time 1615070000 when last update time is 1615070000 (minimum one second step)
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRDC update error /var/lib/rrdcached/db/pve2-vm/125: -1
Mar 6 23:33:20 is-master-16 pmxcfs[1195]: [status] notice: RRD update error /var/lib/rrdcached/db/pve2-vm/125: /var/lib/rrdcached/db/pve2-vm/125: illegal attempt to update using time 1615070000 when last update time is 1615070000 (minimum one second step)
Kurz zum Cluster:
Das Cluster besteht aus 4 Servern mit jeweils 2 OSDs für Ceph.
Die Netzwerke (Frontend und Backend) sind 10G-Netze, die dazugehörigen Backupnetze (active backup) 1G.
Letztere wurden allerdings laut übertragenen Daten (ifconfig) nicht genutzt.
Scrubbing läuft zwischen 22 und 6 Uhr.
Allerdings sehe ich hier an Hand der Stats keinen Zusammenhang:
Code:
2021-03-06 23:42:08.739129 mgr.is-master-23 (mgr.54458217) 598298 : cluster [DBG] pgmap v540549: 256 pgs: 1 active+clean+scrubbing+deep, 255 active+clean; 4.4 TiB data, 13 TiB used, 16 TiB / 29 TiB avail; 2.2 Mi
B/s rd, 6.1 MiB/s wr, 1.30k op/s
Die RRDC-Fehler waren weg, als ich am 7.3. einen Ceph-Manager neugestartet habe, weil eine "slow op" übrig blieb.
Verwendete Software:
Code:
{
"mon": {
"ceph version 14.2.16 (5d5ae817209e503a412040d46b3374855b7efe04) nautilus (stable)": 3
},
"mgr": {
"ceph version 14.2.16 (5d5ae817209e503a412040d46b3374855b7efe04) nautilus (stable)": 3
},
"osd": {
"ceph version 14.2.16 (5d5ae817209e503a412040d46b3374855b7efe04) nautilus (stable)": 8
},
"mds": {},
"overall": {
"ceph version 14.2.16 (5d5ae817209e503a412040d46b3374855b7efe04) nautilus (stable)": 14
}
}
Code:
proxmox-ve: 6.3-1 (running kernel: 5.4.78-2-pve)
pve-manager: 6.3-3 (running version: 6.3-3/eee5f901)
pve-kernel-5.4: 6.3-3
pve-kernel-helper: 6.3-3
pve-kernel-5.4.78-2-pve: 5.4.78-2
ceph: 14.2.16-pve1
ceph-fuse: 14.2.16-pve1
corosync: 3.1.0-pve1
criu: 3.11-3
glusterfs-client: 5.5-3
ifupdown: residual config
ifupdown2: 3.0.0-1+pve3
ksm-control-daemon: 1.3-1
libjs-extjs: 6.0.1-10
libknet1: 1.20-pve1
libproxmox-acme-perl: 1.0.7
libproxmox-backup-qemu0: 1.0.2-1
libpve-access-control: 6.1-3
libpve-apiclient-perl: 3.1-3
libpve-common-perl: 6.3-3
libpve-guest-common-perl: 3.1-4
libpve-http-server-perl: 3.1-1
libpve-storage-perl: 6.3-6
libqb0: 1.0.5-1
libspice-server1: 0.14.2-4~pve6+1
lvm2: 2.03.02-pve4
lxc-pve: 4.0.6-2
lxcfs: 4.0.6-pve1
novnc-pve: 1.1.0-1
proxmox-backup-client: 1.0.8-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.4-5
pve-cluster: 6.2-1
pve-container: 3.3-3
pve-docs: 6.3-1
pve-edk2-firmware: 2.20200531-1
pve-firewall: 4.1-3
pve-firmware: 3.1-3
pve-ha-manager: 3.1-1
pve-i18n: 2.2-2
pve-qemu-kvm: 5.1.0-8
pve-xtermjs: 4.7.0-3
qemu-server: 6.3-5
smartmontools: 7.1-pve2
spiceterm: 3.1-1
vncterm: 1.6-2
zfsutils-linux: 0.8.5-pve1
gegen 4:45 hat sich da Problem auf Cluster-Ebene von selbst gelöst (von 1 "slow ops" mal abgesehen).
Danach gab es nur noch Probleme mit Diensten innerhalb von VMs.
Hat jemand eine Idee dazu?