Ceph mds container crasht nach Proxmox 9.0.5 upgrade

Aug 27, 2025
1
0
1
Hallo zusammen,

wir haben einen mit cephadm deployten containerisierten Ceph Squid Cluster (19.2.3) auf unseren Proxmox Hosts installiert:
- ProxmoxVE 8.4.1
- Podman 4.3.1
- Ceph 19.2.3

Nachdem wir das Upgrade zu 9.0.5 (Podman 5.4.2) durchgeführt haben, crasht der mds Container auf dem aktualisierten Node.

In unserer Testumgebung (gleiche Softwareversionen) haben wir einen Debian 13 (ebenfalls Podman 5.4.2) Node hinzugefügt, auf dem die Container zuverlässig starten.
Wir haben testweise auch einen weiteren 9.0er Proxmox Node installiert und dem Cephcluster hinzugefügt und der mds crasht wieder.

Augenscheinlich ein Proxmox Thema?!?

Code:
/home/jenkins-build/build/workspace/ceph-build/ARCH/x86_64/AVAILABLE_ARCH/x86_64/AVAILABLE_DIST/centos9/DIST/centos9/MACHINE_SIZE/gigantic/release/19.2.3/rpm/el9/BUILD/ceph-19.2.3/src/common/Journald.cc: In function 'ceph::logging::detail::JournaldClient::JournaldClient()' thread 7b0995d1ebc0 time 2025-08-27T09:19:53.890414+0000
/home/jenkins-build/build/workspace/ceph-build/ARCH/x86_64/AVAILABLE_ARCH/x86_64/AVAILABLE_DIST/centos9/DIST/centos9/MACHINE_SIZE/gigantic/release/19.2.3/rpm/el9/BUILD/ceph-19.2.3/src/common/Journald.cc: 219: FAILED ceph_assert(fd > 0)
Assertion details: socket creation failed: Permission denied
 ceph version 19.2.3 (c92aebb279828e9c3c1f5d24613efca272649e62) squid (stable)
 1: (ceph::__ceph_assertf_fail(char const*, char const*, int, char const*, char const*, ...)+0x133) [0x7b0996ffc14d]
 2: (ceph::logging::detail::JournaldClient::JournaldClient()+0xd5) [0x7b0997183ca5]
 3: (ceph::logging::JournaldLogger::JournaldLogger(ceph::logging::SubsystemMap const*)+0x31) [0x7b0997185751]
 4: (ceph::logging::Log::start_journald_logger()+0x5c) [0x7b099731940c]
 5: /usr/lib64/ceph/libceph-common.so.2(+0x2a291c) [0x7b099711a91c]
 6: /usr/bin/ceph-mds(+0x5a4374) [0x58b095719374]
 7: (global_init(std::map<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::less<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > >, std::allocator<std::pair<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > > > > const*, std::vector<char const*, std::allocator<char const*> >&, unsigned int, code_environment_t, int, bool)+0x207) [0x58b095680817]
 8: main()
 9: /lib64/libc.so.6(+0x295d0) [0x7b09969335d0]
 10: __libc_start_main()
 11: _start()
*** Caught signal (Aborted) **
 in thread 7b0995d1ebc0 thread_name:ceph-mds
 ceph version 19.2.3 (c92aebb279828e9c3c1f5d24613efca272649e62) squid (stable)
 1: /lib64/libc.so.6(+0x3ebf0) [0x7b0996948bf0]
 2: /lib64/libc.so.6(+0x8c21c) [0x7b099699621c]
 3: raise()
 4: abort()
 5: (ceph::__ceph_assertf_fail(char const*, char const*, int, char const*, char const*, ...)+0x23c) [0x7b0996ffc256]
 6: (ceph::logging::detail::JournaldClient::JournaldClient()+0xd5) [0x7b0997183ca5]
 7: (ceph::logging::JournaldLogger::JournaldLogger(ceph::logging::SubsystemMap const*)+0x31) [0x7b0997185751]
 8: (ceph::logging::Log::start_journald_logger()+0x5c) [0x7b099731940c]
 9: /usr/lib64/ceph/libceph-common.so.2(+0x2a291c) [0x7b099711a91c]
 10: /usr/bin/ceph-mds(+0x5a4374) [0x58b095719374]
 11: (global_init(std::map<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::less<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > >, std::allocator<std::pair<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > > > > const*, std::vector<char const*, std::allocator<char const*> >&, unsigned int, code_environment_t, int, bool)+0x207) [0x58b095680817]
 12: main()
 13: /lib64/libc.so.6(+0x295d0) [0x7b09969335d0]
 14: __libc_start_main()
 15: _start()

Hat jemand Ideen?

Viele Grüße
Oliver Glausch
 
Hi, was hast du denn da gebastelt? Du nutzt CentOS Ressourcen und baust dir einen Podman direkt auf dem Host?
Ich hätte an deiner Stelle ein Vanilla Linux deiner Wahl genommen und da manuell Ceph und Podman drauf gepackt.

Getestet und ausgeliefert wird Ceph direkt aus Debian / Proxmox Quellen. Das Funktioniert super Stabil und man sollte auf einem Hypervisor möglichst wenig Services nachinstallieren (egal welcher) und Docker oder Podman am besten in einer VM laufen lassen.

So ein Konstrukt wird vermutlich keiner aus der deutschen Community haben, eventuell hast du ja Glück im englischen Teil und da hat jemand etwas ähnliches gebastelt.