ALLE VMs lassen sich nicht mehr starten

Ingo S

Renowned Member
Oct 16, 2016
348
42
93
41
Hallo alle zusammen

Wir haben ein extrem dringendes Problem. Alle unsere VMs lassen sich nicht mehr starten, auch unsere Produktiv Systeme

Folgendes System:

Proxmox Cluster mit 7 Nodes -> Status OK, Quorum vorhanden etc.
Storage: Ceph -> Status OK, nur das noout flag ist gesetzt.

Weil wir alle Maschinen nach und nach vom Local LVM Storage auf Ceph migriert haben, befanden sich zunächst alle VMs auf einem Node. Durch einen Tippfehler wurde gerade dieser Node runter gefahren.
Nach dem der Node neu gestartet war, war der Ceph Cluster wieder OK, der Proxmox Cluster auch.

VMs lassen sich allerdings nicht starten. Ich erhalte als einzigen Fehler die Meldung "ipcc_send_rec failed: File too large"

Ich bitte um dringende Hilfe. Ich habe leider keine Ahnung wo ich Anfangen soll den Fehler zu suchen.


Proxmox Cluster status:
Code:
root@vm-2:~# pvecm status
Quorum information
------------------
Date:             Wed Aug  9 09:00:48 2017
Quorum provider:  corosync_votequorum
Nodes:            6
Node ID:          0x00000001
Ring ID:          6/338900
Quorate:          Yes

Votequorum information
----------------------
Expected votes:   6
Highest expected: 6
Total votes:      6
Quorum:           4 
Flags:            Quorate

Membership information
----------------------
    Nodeid      Votes Name
0x00000006          1 192.168.1.3
0x00000001          1 192.168.1.4 (local)
0x00000002          1 192.168.1.5
0x00000005          1 192.168.1.6
0x00000003          1 192.168.1.242
0x00000004          1 192.168.1.243

Ceph Status:
Code:
root@vm-2:~# ceph health
HEALTH_WARN noout flag(s) set
root@vm-2:~#
 
Ich habe in der Zwischenzeit noch die Version rausgesucht
Code:
pve-manager/4.4-15/7599e35a (running kernel: 4.4.67-1-pve)

Alle Dienste scheinen normal zu starten:
Code:
root@vm-2:~# systemctl --failed
0 loaded units listed. Pass --all to see loaded but inactive units, too.
To show all installed unit files use 'systemctl list-unit-files'.
 
Das noout flag kann mit

Code:
ceph osd unset noout


zurückgesetzt werden. Ob das Problem damit gelöst ist, kann man nur nach weiterer Analyse beurteilen. Dazu ist bereits ein Support Ticket in Bearbeitung.
 
Danke für die schnelle Rückmeldung. Das noout flag hatte ich selbst gesetzt, damit der Ceph Cluster keinen rebalance macht, während ich die einzelnen Host Maschinen neu starte, in der Hoffnung das danach wieder alles okay ist.

Auch wenn man das noout flag entfernt, lassen sich die VMs nicht starten.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!