[SOLVED] Werde regelmässig ausgeloggt

May 4, 2021
91
2
13
43
Hallo,

ich habe einen neuen Proxmox-Cluster aufgesetzt. Erstmal die Grundinformationen:
Der Cluster besteht aus drei Nodes, von denen jede mit einer redundanten 10Gbits-Verbindung mit 802.3ad an zwei Switches hängt. (Zwei Nodes an den selben beiden Switches, die andere Node an einem dritten und vierten Switch). Uns sind keinerlei Verbindungsprobleme im Rechenzentrum bekannt, die anderen von uns betriebenen Proxmox-Cluster laufen ohne Probleme. Zusätzlich läuft auf den Nodes noch ein Ceph mit eigenen 10Gbits-Karten und im eigenen Netz. Laut "timedatectl" gehen die Uhren auf allen Servern richtig und sind in Sync. Ich habe testweise ein Upgrade auf den letzten Stand (31. August 12:00) von No-Subscription gemacht und danach die Nodes neugebootet.

Mein Problem: Ich wollte gerade die erste VM installieren und bin während der Installation drei Mal ausgeloggt worden. Ohne jede Vorwarnung, ich habe buchstäblich noch die Finger auf den Tasten und plötzlich kommt der Login-Screen. Im Cluster Log steht nicht Relevantes, lediglich der darauf folgende erfolgreiche Login wird bestätigt. Das Problem ist mir bereits während der Erstkonfiguration aufgefallen, aber da ist es nicht während der Eingabe passiert. Ich bin daher von einer kürzeren Timeout-Zeit für Logins ausgegangen, was sicherheitstechnisch durchaus Sinn machen könnte. Ich denke aber diese Vermutung können wir zu den Akten legen. Ich habe mir gerade die Ceph-Konfiguration angeschaut - plötzlich kommt wieder die Login-Maske. Im dreigeteilten Bildschirm kann ich in jedem Fenster "Permission denied. Invalid pve ticket (401). Ich habe im Forum bereits nach dem 401-Fehler gesucht und daraufhin auf allen Nodes: pvecm updatecerts --force ausgeführt, was aber keine Lösung des Problems war. Was jetzt folgt ist die Ausgabe von pveversion -v. Was für Informationen braucht ihr noch um das Problem diagnostizieren zu können?

Viele Grüße
Stefan

pveversion -v
proxmox-ve: 8.0.1 (running kernel: 6.2.16-3-pve)
pve-manager: 8.0.4 (running version: 8.0.4/d258a813cfa6b390)
proxmox-kernel-helper: 8.0.3
pve-kernel-6.2: 8.0.2
pve-kernel-6.2.16-3-pve: 6.2.16-3
ceph: 17.2.6-pve1+3
ceph-fuse: 17.2.6-pve1+3
corosync: 3.1.7-pve3
criu: 3.17.1-2
glusterfs-client: 10.3-5
ifupdown2: 3.2.0-1+pmx4
ksm-control-daemon: 1.4-1
libjs-extjs: 7.0.0-4
libknet1: 1.25-pve1
libproxmox-acme-perl: 1.4.6
libproxmox-backup-qemu0: 1.4.0
libproxmox-rs-perl: 0.3.1
libpve-access-control: 8.0.5
libpve-apiclient-perl: 3.3.1
libpve-common-perl: 8.0.8
libpve-guest-common-perl: 5.0.4
libpve-http-server-perl: 5.0.4
libpve-rs-perl: 0.8.5
libpve-storage-perl: 8.0.2
libspice-server1: 0.15.1-1
lvm2: 2.03.16-2
lxc-pve: 5.0.2-4
lxcfs: 5.0.3-pve3
novnc-pve: 1.4.0-2
proxmox-backup-client: 3.0.2-1
proxmox-backup-file-restore: 3.0.2-1
proxmox-kernel-helper: 8.0.3
proxmox-mail-forward: 0.2.0
proxmox-mini-journalreader: 1.4.0
proxmox-widget-toolkit: 4.0.6
pve-cluster: 8.0.3
pve-container: 5.0.4
pve-docs: 8.0.4
pve-edk2-firmware: 3.20230228-4
pve-firewall: 5.0.3
pve-firmware: 3.7-1
pve-ha-manager: 4.0.2
pve-i18n: 3.0.5
pve-qemu-kvm: 8.0.2-4
pve-xtermjs: 4.16.0-3
qemu-server: 8.0.6
smartmontools: 7.3-pve1
spiceterm: 3.3.0
swtpm: 0.8.0+pve1
vncterm: 1.8.0
zfsutils-linux: 2.1.12-pve1
 
Hallo
Ist die Latenz zwischen den einzelnen notes <=5ms so wie in den cluster requirements beschrieben?

Fals das der Fall ist poste bitte mal den output von pvecm status und journalctl -b
 
Ohne jede Vorwarnung, ich habe buchstäblich noch die Finger auf den Tasten und plötzlich kommt der Login-Screen
Die Uhrzeit der Nodes stimmt mit der Uhrzeit des Rechners - wo der Browser läuft - überein?

Ich hatte das selbe Phänomen mal auf meinem PVE (kein Cluster) weil die Zeit nicht OK war.
 
Ich hätte zuerst auf Zeit getippt, aber was mich interessiert, wie sind die beiden Switches Konfiguriert wo der LACP Channel drauf endet?
Stack oder MLAG?
 
Pings von und zu den Nodes zeigen eine Latenz, von 0,1X ms an. Daran wird es wohl nicht liegen.

# pvecm status
Cluster information
-------------------
Name: iag-customers
Config Version: 3
Transport: knet
Secure auth: on

Quorum information
------------------
Date: Thu Aug 31 15:37:28 2023
Quorum provider: corosync_votequorum
Nodes: 3
Node ID: 0x00000001
Ring ID: 1.26
Quorate: Yes

Votequorum information
----------------------
Expected votes: 3

Highest expected: 3
Total votes: 3
Quorum: 2
Flags: Quorate

Membership information
----------------------
Nodeid Votes Name
0x00000001 1 192.168.2.109 (local)
0x00000002 1 192.168.2.110
0x00000003 1 192.168.2.9

Die Ausgabe des Journal erfolgt als Attachment, die ist zu groß zum Einfügen.

Viele Grüße und vielen Dank für die schnellen Antworten
Stefan
 

Attachments

Ich habe im Log, sauber logouts gesehen. Eventuell sieht da jeman mit Erfahrung noch mehr.

Meine Frage bezüglich der Switches, bezieht sich auf ein bekanntes Problem mit MLAG und den properitären Ablegern.
Ich habe da schon viel Troubleshooting betreiben müssen bei DELL und Cisco Switches. Ander Marken sind davon auch betroffen.
 
Es sind in den Log immer wieder ssh connections. Könnte es sein das noch jemand auf den Gerät aktiv ist?
 
Hallo,
also ich bin der Kollege von Stefan Malte:
Das Netzwerk dahinter ist Cisco Nexus - LACP portchannel über 2 vpc members.
und wir haben schon mehrere funktionierende Setups für Kunden mit proxmox aufgesetzt. Das ist das erste wo das so komisch sich verhält.
 
Hi, bei LACP über vpc habe ich schon mehrfach Probleme gehabt, am häufigsten mit ESXi, liegt aber nicht am Hypervisor.
Die Ursache hat noch keiner herausgefunden aber die komischen Effekte kann man herausfordern wenn man mal einen Port totschaltet und dann plötzlich manche VMs oder Hostinterfaces nicht mehr erreichbar sind. Schaltet man den anderen Port tot (nachdem beide online waren) sind oft andere VMs betroffen. Aber es gibt da kein festes Muster.
Bei den ESXi sind die Hosts gar nicht mehr erreichbar, wenn man den richtigen Port erwischt.
Es gibt bereits Supportcases dazu, aber die Hersteller (zumindest der Support) tappt da noch völlig im Dunklen.
 
Habe jetzt mal die Browser Console angemacht, mal sehen was ich sehe.
habe das mit touch mal probiert und pvestatd restart - seit 10 minuten kein logout - ich warte ab
 
Hallo zusammen,

das Problem ist gelöst - die Kombination von touch und pvestatd restart hat geholfen. Wir werden nicht mehr aus dem Cluster ausgeloggt.
Vielen Dank an alle Beteiligten. Kannst du das Ticket auf SOLVED setzen, Philipp?

Viele Grüße
Stefan
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!