ALLE VMs lassen sich nicht mehr starten

Ingo S · Aug 9, 2017

Hallo alle zusammen

Wir haben ein extrem dringendes Problem. Alle unsere VMs lassen sich nicht mehr starten, auch unsere Produktiv Systeme

Folgendes System:

Proxmox Cluster mit 7 Nodes -> Status OK, Quorum vorhanden etc.
Storage: Ceph -> Status OK, nur das noout flag ist gesetzt.

Weil wir alle Maschinen nach und nach vom Local LVM Storage auf Ceph migriert haben, befanden sich zunächst alle VMs auf einem Node. Durch einen Tippfehler wurde gerade dieser Node runter gefahren.
Nach dem der Node neu gestartet war, war der Ceph Cluster wieder OK, der Proxmox Cluster auch.

VMs lassen sich allerdings nicht starten. Ich erhalte als einzigen Fehler die Meldung "ipcc_send_rec failed: File too large"

Ich bitte um dringende Hilfe. Ich habe leider keine Ahnung wo ich Anfangen soll den Fehler zu suchen.

Proxmox Cluster status:

Code:

root@vm-2:~# pvecm status
Quorum information
------------------
Date:             Wed Aug  9 09:00:48 2017
Quorum provider:  corosync_votequorum
Nodes:            6
Node ID:          0x00000001
Ring ID:          6/338900
Quorate:          Yes

Votequorum information
----------------------
Expected votes:   6
Highest expected: 6
Total votes:      6
Quorum:           4 
Flags:            Quorate

Membership information
----------------------
    Nodeid      Votes Name
0x00000006          1 192.168.1.3
0x00000001          1 192.168.1.4 (local)
0x00000002          1 192.168.1.5
0x00000005          1 192.168.1.6
0x00000003          1 192.168.1.242
0x00000004          1 192.168.1.243

Ceph Status:

Code:

root@vm-2:~# ceph health
HEALTH_WARN noout flag(s) set
root@vm-2:~#

Ingo S · Aug 9, 2017

Ich habe in der Zwischenzeit noch die Version rausgesucht

Code:

pve-manager/4.4-15/7599e35a (running kernel: 4.4.67-1-pve)

Alle Dienste scheinen normal zu starten:

Code:

root@vm-2:~# systemctl --failed
0 loaded units listed. Pass --all to see loaded but inactive units, too.
To show all installed unit files use 'systemctl list-unit-files'.

Richard · Aug 9, 2017

Das noout flag kann mit

Code:

ceph osd unset noout

zurückgesetzt werden. Ob das Problem damit gelöst ist, kann man nur nach weiterer Analyse beurteilen. Dazu ist bereits ein Support Ticket in Bearbeitung.

Ingo S · Aug 9, 2017

Danke für die schnelle Rückmeldung. Das noout flag hatte ich selbst gesetzt, damit der Ceph Cluster keinen rebalance macht, während ich die einzelnen Host Maschinen neu starte, in der Hoffnung das danach wieder alles okay ist.

Auch wenn man das noout flag entfernt, lassen sich die VMs nicht starten.

martin · Aug 9, 2017

=> weitere Schritte zur Lösung finden sie in ihrem Supportticket auf https://my.proxmox.com

Search

Search

ALLE VMs lassen sich nicht mehr starten

Ingo S

Renowned Member

Ingo S

Renowned Member

Richard

Renowned Member

Ingo S

Renowned Member

martin

Proxmox Staff Member

We value your privacy