AMD Server Probleme (Einfrieren, falsche mounts?, nur Hardware Reset möglich)

Michael

New Member
Aug 25, 2021
10
2
3
39
Hallo,

ich habe 8 Server in einem Cluster ohne HA,
davon sind 2 neue mit AMD die alten sind alles Intel,
die 2 sind auch die einzigen die Probleme machen und einfrieren. (Hatte das in 3Monaten schon 4mal)

Die hängen so das nicht mal mehr der NumLock geht, also komplett Tod,
in der Console (Am Monitor) haben beide immer die gleichen Meldungen stehen also gehe ich davon aus das es daran liegen könnte.
Der eine Server hat 12KVMs der andere nur 1 LXC, und ich habe alle Server immer mit dem selben Installer gemacht und dann upgedated..

Die Meldung sieht so aus, bzw. ist der Monitor damit voll:
[2421391.191164] CIFS VFS: \\backup.xxxx.at Send error in SessSetup = -13


wobei ich diesen \\backup.xxx.x aus dem Datacenter Storage vor langen schon entfernt habe, und auch die Anleitungen im Forum durchforstet habe wie man das richtig macht kommt der trotzdem wieder.

In /mnt/pve/Backup1 denn es nicht geben sollte kommen bei umount "not mounted" ?!
In /proc/mounts steht er nicht drin auch nicht in fstab
In /etc/pve/storage.cfg auch nicht

Ich glaube halt nur das der Serverabsturz bzw. das Einfrieren von diesem mount kommen könnte da immer das als letztes in der Console zu sehen ist,
in den aktuellen Syslogs ist nie was zu sehen.

Meine Frage wäre also wie man diese falschen mounts raus bekommt (Habe die im ganzen Cluster) und warum nur die AMD Maschinen einfrieren..

Meine Version:
proxmox-ve: 6.4-1 (running kernel: 5.4.128-1-pve) pve-manager: 6.4-13 (running version: 6.4-13/9f411e79) pve-kernel-5.4: 6.4-5 pve-kernel-helper: 6.4-5 pve-kernel-5.4.128-1-pve: 5.4.128-1 pve-kernel-5.4.119-1-pve: 5.4.119-1 pve-kernel-5.4.114-1-pve: 5.4.114-1 pve-kernel-5.4.34-1-pve: 5.4.34-2 ceph-fuse: 12.2.11+dfsg1-2.1+b1 corosync: 3.1.2-pve1 criu: 3.11-3 glusterfs-client: 5.5-3 ifupdown: not correctly installed ifupdown2: 3.0.0-1+pve4~bpo10 ksm-control-daemon: 1.3-1 libjs-extjs: 6.0.1-10 libknet1: 1.20-pve1 libproxmox-acme-perl: 1.1.0 libproxmox-backup-qemu0: 1.1.0-1 libpve-access-control: 6.4-3 libpve-apiclient-perl: 3.1-3 libpve-common-perl: 6.4-3 libpve-guest-common-perl: 3.1-5 libpve-http-server-perl: 3.2-3 libpve-storage-perl: 6.4-1 libqb0: 1.0.5-1 libspice-server1: 0.14.2-4~pve6+1 lvm2: 2.03.02-pve4 lxc-pve: 4.0.6-2 lxcfs: 4.0.6-pve1 novnc-pve: 1.1.0-1 proxmox-backup-client: 1.1.12-1 proxmox-mini-journalreader: 1.1-1 proxmox-widget-toolkit: 2.6-1 pve-cluster: 6.4-1 pve-container: 3.3-6 pve-docs: 6.4-2 pve-edk2-firmware: 2.20200531-1 pve-firewall: 4.1-4 pve-firmware: 3.2-4 pve-ha-manager: 3.1-1 pve-i18n: 2.3-1 pve-qemu-kvm: 5.2.0-6 pve-xtermjs: 4.7.0-3 qemu-server: 6.4-2 smartmontools: 7.2-pve2 spiceterm: 3.1-1 vncterm: 1.6-2 zfsutils-linux: 2.0.5-pve1~bpo10+1
 
Welche Chipsätze verwenden Deine AMD-Systeme? Ich hatte mit PVE und X570 Chipsatz Probleme mit den C-States. Die waren ebenfalls komplett eingefroren, half nur ein Reset. Nach Abschaltung der C-States lief alles problemlos.
 
  • Like
Reactions: Michael
Hallo,
und danke für deine Antwort.

Es ist ein Supermicro H12SSW-NT Board mit einem AMD-EPYC 7282, für Details müsste ich mir die Bestellung raussuchen.

Aber danke für deinen Tipp, ich hatte jetzt das einfrieren erst heute wieder.
In den Bios-Optionen habe ich bei einem die C-States deaktiviert und beim anderen mal zum testen die 7er Version installiert.

Soweit ich recherchiert habe ist das C-State eine Energiesparoption für CPU Kerne die in manchen fällen ein einfrieren auslösen kann,
ich hoffe damit das Problem beseitigt zu haben denn ich brauche die 2 Server bald im produktiven Einsatz.
 
Kannst bei Gelegenheit ja berichten, ob es damit behoben wurde.
 
Hi, aus Performancegründen sollte man bei Servervirtualisierung und Storagevirtualisierung die C und P States deaktivieren.
Das macht bei vielen VMs extreme Unterschiede der CPU Latenzen.
 
  • Like
Reactions: Michael
Vielen Danke für die Infos,
ich nehme an es reicht im Bios diese Funktionen zu deaktivieren?

Ob mein Problem mit dem "Einfrieren" endgültig behoben wurde kann ich jetzt noch nicht bestätigen da es ja oft Wochen keine Probleme damit gab.
 
Ja, die Deaktivierung von C- und P-States im BIOS sollte reichen.
 
Leider war das anscheinend nicht die Ursache,
letzten Freitag um ~19:00 sind wieder beide zugleich eingefroren.

Der zweite AMD Server hatte nichts in der Console stehen,
der erste jedoch hatte ein paar Meldungen:
 

Attachments

  • IMG_3666.jpg
    IMG_3666.jpg
    96 KB · Views: 17
Wie sieht denn Deine Storage-Konfiguration aus (falls ich das jetzt überlesen haben sollte)? Setzt Du ggf. Hardware Raid ein?
 
Nein ich habe nur eine HDD eingebaut, ich wollte am Anfang mit ZFS-Raid aber das ist mit dem normalen LVM im Cluster nicht kompatible deswegen hab ich es dann gelassen.

Storage:
==== info about storage ====

# cat /etc/pve/storage.cfg
dir: local
path /var/lib/vz
content vztmpl,backup,iso
prune-backups keep-last=2
shared 0

lvmthin: local-lvm
thinpool data
vgname pve
content rootdir,images

nfs: storage
export /mnt/Data_Pool/ProxLVM
path /mnt/pve/storage
server 10.1.0.99
content rootdir,images
options vers=4
prune-backups keep-all=1

cifs: BackupServer
path /mnt/pve/BackupServer
server 10.1.0.99
share proxmox1
content backup,vztmpl,iso
prune-backups keep-last=2
username proxmox1

nfs: Syncluster1
export /volume1/SynClusterTest
path /mnt/pve/Syncluster1
server 10.1.0.253
content rootdir,images
prune-backups keep-all=1
 
Sind das Windows Server VMs? Dann könnte der Treiber ein Problem sein. Allerdings bereitet Dir das dann bereits im Betrieb meist schneller Probleme, nicht erst nach einer gewissen Zeit. Wenn, dann würde ich die E1000 als V-NIC verwenden.

Du hast einige Storages als CIFS/NFS eingebunden. Gibt es da vielleicht auf der Gegenseite timeouts durch Backups?
 
Nein das sind Windows10 Clients, Treiberprobleme werden keine Angezeigt und die laufen auch stabil.
Am Freitag war das letzte Backup um 05:00-06:00 fertig, danach wäre das nächste erst am Samstag um 15:00 gewesen.
 
Heute wieder kurz vor 19:00 beider Geräte zur selben Zeit, und heute steht kein Backup im Cluster am Programm.
 
Hi Michael,
hast du den Cifs Mount noch? Könntest du das testweise auf NFS ändern?
Du hast ein Storage Syncluster genannt. Sind das zufällig zwei Synology NAS die im Sync laufen?
 
Hallo,
die Cifs könnte ich im Cluster nur von den 2 Nodes wegnehmen,
und ja der SynCluster sind 2 Synology mit HA, da laufen einige LXContainer drauf... aber keine davon auf den 2AMD Nodes.
 
Wie ist die Multipath Konfig? Ich hatte ein Einfrieren bei ESXi Hosts mit Synology Cluster wegen falscher Multipath Konfig.
Ob das die Ursache ist kannst du beim nächsten Einfrieren testen wenn du alle Pfade bis auf einen trennst. Dann sollte der Host nach einigen Minuten wieder reagieren.
 
  • Like
Reactions: Michael
Ich wollte euch noch Informieren was in der Zwischenzeit passiert ist...
Ich hatte immer wieder noch ca. 1x/Woche das "Einfriere" meiner AMD Server, die Intel Geräte hatten nie Probleme...

Nach der Info von SkyDriver79 habe ich vor 2 Wochen meinen Synology Cluster entfernt und vom Netzwerk getrennt,
seitdem habe ich eigentlich ruhe.

Ich verstehe zwar nicht wieso das im Zusammenhang nur mit den AMD Probleme machte,
die 2 Synology´s sind für mich auch nicht wichtig da ich einen eigenen Backupserver verwende,
ich wollte damit aber mal ein paar Nodes HA machen und da hätte eine Redundanz beim Storage Sinn gemacht.

Viel Danke nochmal für die Hilfe
 
  • Like
Reactions: Falk R.

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!