[SOLVED] VM lockups

apollo13

Well-Known Member
Jan 16, 2018
61
8
48
Hallo,

ich habe hier 2 Server auf denen Proxmox läuft mit 3 HDDs als ZFS RAID1 und einer SSD als Cache (kein log derweil, da werde ich auf eine 2. SSD warten, damit die ausfallssicher werden).

Ich bekomme (vor allem beim booten) lockups in den VMs. Der Host schläft dabei und ioload ist relativ gering.

Das System hat 40 CPUs und 64 GB RAM. Ich poste gerne Config Optionen, aber ich weiß nichtmal wo anfangen…

In den Maschinen bekomme ich:
Code:
Message from syslogd@ora01 at Jan 17 16:49:09 ...
 kernel:NMI watchdog: BUG: soft lockup - CPU#1 stuck for 28s! [oracle:1540]
für unterschiedliche Prozesse etc…

Ich sehe auch in iotop zfsonlinux/#6171 -- ioload bei 99% durch z_null_int.
Weiters sehe ich auch
Code:
[    4.351965] EDAC MC: Removed device 0 for sb_edac.c Broadwell SrcID#0_Ha#0: DEV 0000:ff:12.0
[    4.351981] EDAC sbridge: Couldn't find mci handler
[    4.352000] EDAC sbridge: Failed to register device with error -19.
-- aber das ist glaube ich nicht schlimm, siehe auch https://forum.proxmox.com/threads/probleme-mit-neuer-proxmox-installation.38825/#post-194542

Kann die ioload von z_null_int meine Probleme erklären oder habe ich noch ein zweites Problem? Welche Informationen würdet ihr brauchen?

Anbei die Konfig einer VM (sind ansich alle gleich):
Code:
agent: 1
bootdisk: virtio0
cores: 1
hotplug: disk,network,usb
memory: 4096
name: ora01.bap.lan
net0: virtio=8e:fb:c6:0c:37:b4,bridge=vmbr0
numa: 0
ostype: l26
scsihw: virtio-scsi-pci
smbios1: uuid=1e9e637b-5883-4770-9d53-6548cb4d7eaf
sockets: 2
virtio0: local-zfs:vm-105-disk-1,size=20G

Danke & lg,
Florian
 
Hatte ich auch schon mal bei einem System. Startest du zufällig beim Boot des Systems alle VM's gleichzeitig? Eine Delay Konfiguration für den Start der VM's hatte hier dan geholfen.
 
Lacht mich nicht aus, aber die Updates von heute dürften die Probleme behoben haben. Nachdem ich zum testsen einen Node aktualisiert habe und dort mit VMs gespielt habe konnte ich kein Problem feststellen :D

Konkret waren das wahrscheinlich:
Code:
pve-kernel-4.13.13-5-pve:amd64
pve-qemu-kvm:amd64 2.9.1-6

Randnotiz: Das löst natürlich weder die Kernel messages noch die zfs iowait, aber die "echten" Probleme sind weg -- ich weiß nicht ob ich lachen oder weinen soll.
 
  • Like
Reactions: fireon

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!