Proxmox Server rebootet plötzlich

mabox · Jun 2, 2024

Hallo Zusammen,
ich hatte jetzt das zweite mal in 5 Tagen das der Server nicht mehr erreichbar war. Am Monitor war dann folgende Meldung zu sehen:
"Reboot and Select proper Boot devide
or Insert Boot Media in selected Boot device and press a key".
Wenn ich dann den Server einfach nochmal ein- ausschalte bootet er normal und es funktioniert auch alles wieder.
Nun die Frage warum bootet er überhaupt und wenn er schon bootet warum findet er anscheinend beim ersten Versuch seine Bootplatte nicht?
Ich habe hier mal die beiden Logs for dem Reboot, bin aber sehr schlecht am deuten. Vielleicht ist der Reboot auch aufgrund irgendeines Task notwendig und es gibt nicht wirklich ein Problem? Der Server lief jetzt aber über Monate einwandfrei und fing erst jetzt mit dem Thema an. Irgendwelche großen Dinge habe ich auch nicht konfiguriert, alles ziemlich einfach gehalten.... ein Handvoll VMs laufen und Backups sind eingerichtet.

Reboot vom 29.05:

Code:

May 29 00:00:12 pve systemd[1]: Starting dpkg-db-backup.service - Daily dpkg database backup service...
May 29 00:00:12 pve systemd[1]: Starting logrotate.service - Rotate log files...
May 29 00:00:12 pve systemd[1]: dpkg-db-backup.service: Deactivated successfully.
May 29 00:00:12 pve systemd[1]: Finished dpkg-db-backup.service - Daily dpkg database backup service.
May 29 00:00:12 pve systemd[1]: Reloading pveproxy.service - PVE API Proxy Server...
May 29 00:00:13 pve pveproxy[2706374]: send HUP to 1866
May 29 00:00:13 pve pveproxy[1866]: received signal HUP
May 29 00:00:13 pve pveproxy[1866]: server closing
May 29 00:00:13 pve pveproxy[1866]: server shutdown (restart)
May 29 00:00:13 pve systemd[1]: Reloaded pveproxy.service - PVE API Proxy Server.
May 29 00:00:13 pve systemd[1]: Reloading spiceproxy.service - PVE SPICE Proxy Server...
May 29 00:00:13 pve spiceproxy[2706376]: send HUP to 1872
May 29 00:00:13 pve spiceproxy[1872]: received signal HUP
May 29 00:00:13 pve spiceproxy[1872]: server closing
May 29 00:00:13 pve spiceproxy[1872]: server shutdown (restart)
May 29 00:00:13 pve systemd[1]: Reloaded spiceproxy.service - PVE SPICE Proxy Server.
May 29 00:00:13 pve pvefw-logger[1968228]: received terminate request (signal)
May 29 00:00:13 pve pvefw-logger[1968228]: stopping pvefw logger
May 29 00:00:13 pve systemd[1]: Stopping pvefw-logger.service - Proxmox VE firewall logger...
May 29 00:00:13 pve spiceproxy[1872]: restarting server
May 29 00:00:13 pve spiceproxy[1872]: starting 1 worker(s)
May 29 00:00:13 pve spiceproxy[1872]: worker 2706384 started
May 29 00:00:13 pve systemd[1]: pvefw-logger.service: Deactivated successfully.
May 29 00:00:13 pve systemd[1]: Stopped pvefw-logger.service - Proxmox VE firewall logger.
May 29 00:00:13 pve systemd[1]: pvefw-logger.service: Consumed 5.272s CPU time.
May 29 00:00:13 pve systemd[1]: Starting pvefw-logger.service - Proxmox VE firewall logger...
May 29 00:00:13 pve pvefw-logger[2706387]: starting pvefw logger
May 29 00:00:13 pve systemd[1]: Started pvefw-logger.service - Proxmox VE firewall logger.
May 29 00:00:13 pve systemd[1]: logrotate.service: Deactivated successfully.
May 29 00:00:13 pve systemd[1]: Finished logrotate.service - Rotate log files.
May 29 00:00:13 pve pveproxy[1866]: Using '/etc/pve/local/pveproxy-ssl.pem' as certificate for the web interface.
May 29 00:00:13 pve pveproxy[1866]: restarting server
May 29 00:00:13 pve pveproxy[1866]: starting 3 worker(s)
May 29 00:00:13 pve pveproxy[1866]: worker 2706392 started
May 29 00:00:13 pve pveproxy[1866]: worker 2706393 started
May 29 00:00:13 pve pveproxy[1866]: worker 2706394 started
May 29 00:00:18 pve spiceproxy[1968225]: worker exit
May 29 00:00:18 pve spiceproxy[1872]: worker 1968225 finished
May 29 00:00:18 pve pveproxy[1968234]: worker exit
May 29 00:00:18 pve pveproxy[1968233]: worker exit
May 29 00:00:18 pve pveproxy[1968232]: worker exit
May 29 00:00:18 pve pveproxy[1866]: worker 1968234 finished
May 29 00:00:18 pve pveproxy[1866]: worker 1968233 finished
May 29 00:00:18 pve pveproxy[1866]: worker 1968232 finished
May 29 00:17:01 pve CRON[2717204]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
May 29 00:17:01 pve CRON[2717205]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
May 29 00:17:01 pve CRON[2717204]: pam_unix(cron:session): session closed for user root
\-- Reboot --

Reboot vom 02.06:

Code:

Jun 02 05:02:21 pve pvedaemon[2823681]: <root@pam> successful auth for user 'root@pam'
Jun 02 05:17:01 pve CRON[2848023]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Jun 02 05:17:01 pve CRON[2848024]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
Jun 02 05:17:01 pve CRON[2848023]: pam_unix(cron:session): session closed for user root
Jun 02 05:17:22 pve pvedaemon[2814674]: <root@pam> successful auth for user 'root@pam'
Jun 02 05:17:45 pve pvedaemon[2814674]: worker exit
Jun 02 05:17:45 pve pvedaemon[1851]: worker 2814674 finished
Jun 02 05:17:45 pve pvedaemon[1851]: starting 1 worker(s)
Jun 02 05:17:45 pve pvedaemon[1851]: worker 2848331 started
Jun 02 05:29:09 pve smartd[1425]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 69 to 72
Jun 02 05:29:09 pve smartd[1425]: Device: /dev/sdd [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 71 to 70
Jun 02 05:29:09 pve smartd[1425]: Device: /dev/sdd [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 29 to 30
Jun 02 05:29:46 pve pveproxy[2830439]: worker exit
Jun 02 05:29:46 pve pveproxy[1860]: worker 2830439 finished
Jun 02 05:29:46 pve pveproxy[1860]: starting 1 worker(s)
Jun 02 05:29:46 pve pveproxy[1860]: worker 2853963 started
Jun 02 05:31:14 pve pveproxy[2826868]: worker exit
Jun 02 05:31:14 pve pveproxy[1860]: worker 2826868 finished
Jun 02 05:31:14 pve pveproxy[1860]: starting 1 worker(s)
Jun 02 05:31:14 pve pveproxy[1860]: worker 2854676 started
Jun 02 05:32:22 pve pvedaemon[2824855]: <root@pam> successful auth for user 'root@pam'
Jun 02 05:39:18 pve pvedaemon[2823681]: worker exit
Jun 02 05:39:18 pve pvedaemon[1851]: worker 2823681 finished
Jun 02 05:39:18 pve pvedaemon[1851]: starting 1 worker(s)
Jun 02 05:39:18 pve pvedaemon[1851]: worker 2858459 started
Jun 02 05:46:24 pve pvedaemon[2824855]: worker exit
Jun 02 05:46:24 pve pvedaemon[1851]: worker 2824855 finished
Jun 02 05:46:24 pve pvedaemon[1851]: starting 1 worker(s)
Jun 02 05:46:24 pve pvedaemon[1851]: worker 2861737 started
Jun 02 05:47:23 pve pvedaemon[2858459]: <root@pam> successful auth for user 'root@pam'
Jun 02 05:47:32 pve pveproxy[2835817]: worker exit
Jun 02 05:47:32 pve pveproxy[1860]: worker 2835817 finished
Jun 02 05:47:32 pve pveproxy[1860]: starting 1 worker(s)
Jun 02 05:47:32 pve pveproxy[1860]: worker 2862276 started
Jun 02 05:59:09 pve smartd[1425]: Device: /dev/sdd [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 70 to 71
Jun 02 05:59:09 pve smartd[1425]: Device: /dev/sdd [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 30 to 29
Jun 02 06:02:23 pve pvedaemon[2858459]: <root@pam> successful auth for user 'root@pam'
Jun 02 06:03:58 pve systemd[1]: Starting apt-daily.service - Daily apt download activities...
Jun 02 06:03:58 pve systemd[1]: apt-daily.service: Deactivated successfully.
Jun 02 06:03:58 pve systemd[1]: Finished apt-daily.service - Daily apt download activities.
-- Reboot --

Hat jemand eine Idee was das sein könnte? Evtl. auch ein Hardwaredefekt z.B. Memory möglich? Die gesamte Hardware mit Außnahme des Netzteils wurde erst im März gekauft.

devaux · Jun 2, 2024

Sieht nicht danach aus, dass sich das System rebootet oder aufhaengt. Entweder sind die Logs unvollstaendig oder der Server resettet sich einfach. Auch die Tatsache, dass der Server nach dem "Reset" dann nicht mehr hochkommt und keine Festplatte findet (das kommt vom PC direkt, nicht von Proxmox), deutet auf ein Hardwareproblem hin.
Stromausfall kannst ausschliessen? Netzteil? RAM kannst mit memtest86 und Harddisks mit smartctl mal testen.
Welches ist Deine Systemplatte? SATA, SAS? NVMe? HDD, SSD?

floh8 · Jun 2, 2024

Ich tippe auf netzteil

mabox · Jun 2, 2024

Ich habe einfach die letzten Logeinträge vom "System Log" die ich über die GUI sehe gepostet..... denke weiter zurück müsste ich nicht oder?
Stromausfall kann ich glaub auschließen? Vor allem würde dann im Systemlog nicht noch "Reboot" da stehen oder?
Meine Systemplatte ist eine "Industrie SSD" mit ZFS RAID, neu gekauft im März.
Memory sind 64GB ebenfalls vom März.
Die Einzige Hardware die wirklich "alt" ist und zwar wirklich schon Jahre ist das Netzteil. Ein "be quit! BN260 Pure Power 9 PC ATX 300W"
Wenn es aber doch das Netzteil wäre dann fährt doch nicht das System davor noch runter sondern wäre doch ganz aus oder?
Was löst den diesen Eintrag im System Log aus "-- Reboot --". Kommt der zu dem Zeitpunkt wo das System das Problem hat oder kommt dieser wenn ich dann hart den aus- einschaltknopf drückeß Leider steht bei dem Eintrag ja keine Uhrzeit dabei.....

smartctl:

Code:

[root@pve ~]# smartctl -a /dev/sda
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.8.4-3-pve] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     KINGSTON SEDC600M480G
Serial Number:    50026B728339A643
LU WWN Device Id: 5 0026b7 28339a643
Firmware Version: SCEKH5.1
User Capacity:    480,103,981,056 bytes [480 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
TRIM Command:     Available, deterministic, zeroed
Device is:        Not in smartctl database 7.3/5319
ATA Version is:   ACS-3 (minor revision not indicated)
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sun Jun  2 13:53:25 2024 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)    Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever
                    been run.
Total time to complete Offline
data collection:         (   30) seconds.
Offline data collection
capabilities:              (0x79) SMART execute Offline immediate.
                    No Auto Offline data collection support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine
recommended polling time:      (   1) minutes.
Extended self-test routine
recommended polling time:      (   2) minutes.
Conveyance self-test routine
recommended polling time:      (   3) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x0032   100   100   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       1427
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       7
167 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       0
168 Unknown_Attribute       0x0012   100   100   000    Old_age   Always       -       0
169 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       0
170 Unknown_Attribute       0x0000   100   100   010    Old_age   Offline      -       53
172 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
173 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       524309
181 Program_Fail_Cnt_Total  0x0032   100   100   000    Old_age   Always       -       0
182 Erase_Fail_Count_Total  0x0000   100   100   000    Old_age   Offline      -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0012   100   100   000    Old_age   Always       -       5
193 Unknown_SSD_Attribute   0x0000   100   100   000    Old_age   Offline      -       0
194 Temperature_Celsius     0x0022   073   063   000    Old_age   Always       -       27 (Min/Max 23/37)
195 Hardware_ECC_Recovered  0x0000   100   100   000    Old_age   Offline      -       100
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0032   100   100   000    Old_age   Always       -       0
207 Unknown_SSD_Attribute   0x0000   100   100   000    Old_age   Offline      -       0
218 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
231 Unknown_SSD_Attribute   0x0000   099   099   000    Old_age   Offline      -       99
232 Available_Reservd_Space 0x0013   100   100   000    Pre-fail  Always       -       0
233 Media_Wearout_Indicator 0x0032   100   100   000    Old_age   Always       -       5644
241 Total_LBAs_Written      0x0032   100   100   000    Old_age   Always       -       3200
242 Total_LBAs_Read         0x0032   100   100   000    Old_age   Always       -       3399
244 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       8
245 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       21
246 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       280740

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Wie mache ich den genau diesen memory86 Test?

cwt · Jun 4, 2024

memtest kann man sich auf einen USB Stick schreiben und direkt davon booten.

Auch wenn es neue SSDs sind, ist ein Defekt jetzt nicht unmöglich, aber eher unwahrscheinlich.

Ein 300W Netzteil (dazu noch alt) klingt schon eher nach einer möglichen Ursache. Der Wirkungsgrad im neuen Zustand dürfte bei ~85% liegen, mit Alterung der Bauteile dann noch weniger. Fragt sich, was Du letztendlich alles dranhängen hast (Board, CPU, etc.).

Dass das Board nach Reset kein boot device findet, kann ggf. am BIOS liegen, was sich auf default gesetzt hat. Hast Du die Einstellungen mal überprüft? Viele Consumer Boards haben default dann Werte wie Fast Boot und Co. eingestellt, die mit Linux nicht unbedingt harmonieren. Defekte Bauteile auf dem Board oder Risse in Spannungsschienen/Leiterbahnen können auch gerne solche Fehler verursachen.

Die CPU wird ausreichend gekühlt? Cooler sitzt und WLP nicht eingetrocknet?

Neben Memtest würde ich das System mal einem Stresstest unterziehen, bspw. mit einer ISO von stresslinux.org.

UdoB · Jun 4, 2024

cwt said:
bspw. mit einer ISO von stresslinux.org.

Die neueste Release dort ist dreizehn Jahre alt. Eventuell haben neuere CPUs Funktionen, die mit so alter Software gar nicht wirklich gefordert werden. Und neueste PC ohne CSM (Bios-Mode Kompatibilität) booten die dortigen .iso-Dateien vermutlich nicht einmal mehr.

Ich habe auf die Schnelle keine Alternative gefunden, die nur auf Stresstest spezialisiert ist, aber generische Toolboxen wie https://www.system-rescue.org/System-tools/ ("The stress, stress-ng and stressapptest commmands can be used...") können das natürlich auch

Nur als Anmerkung "aus dem Off"...

Der Harry · Jun 4, 2024

Ich frage mal blöd.

Proxmox 8.2.2 - Kernel 6.8.4-x-pve?

mabox · Jun 8, 2024

Proxmox ist 8.2.2 und Kernel 6.8.4-3

Das sind so die sensors Werte wegen der Temperatur:

Code:

[root@pve ~]# sensors
gigabyte_wmi-virtual-0
Adapter: Virtual device
temp1:        +27.0°C 
temp2:        +37.0°C 
temp3:        +36.0°C 
temp4:        +21.0°C 
temp5:        +43.0°C 
temp6:        +39.0°C 

acpitz-acpi-0
Adapter: ACPI interface
temp1:        +16.8°C 
temp2:        +16.8°C 

amdgpu-pci-0500
Adapter: PCI adapter
vddgfx:        1.26 V 
vddnb:       962.00 mV
edge:         +28.0°C 
PPT:          15.00 W 

k10temp-pci-00c3
Adapter: PCI adapter
Tctl:         +36.6°C

Für Stresstest hab ich "stress", "stress-ng" oder "s-tui"
stress-ng
stress und stress-ng

Einfacher CPU Stresstest mit stress:

Code:

[root@pve ~]# uptime
 08:51:33 up 5 days, 23:32,  1 user,  load average: 0.17, 0.41, 0.41
[root@pve ~]# stress -c 2 -i 1 -m 1 --stress -c 2 -i 1 -m 1 --vm-bytes 128M -t 10s
stress: info: [249100] dispatching hogs: 2 cpu, 1 io, 1 vm, 0 hdd
stress: info: [249100] successful run completed in 12s
[root@pve ~]# uptime
 08:51:51 up 5 days, 23:32,  1 user,  load average: 1.01, 0.58, 0.46

stress-ng für CPU, Memory, Disk...

Code:

[root@pve ~]# uptime
 08:57:28 up 5 days, 23:38,  1 user,  load average: 1.13, 0.89, 0.63
[root@pve ~]# stress-ng --cpu 4 --io 2stress-ng --cpu 4 --io 2 --vm 1 --vm-bytes 1G --timeout 60s --metrics-brief
stress-ng: info:  [252122] setting to a 60 second run per stressor
stress-ng: info:  [252122] dispatching hogs: 4 cpu, 2 io, 1 vm
stress-ng: info:  [252127] io: this is a legacy I/O sync stressor, consider using iomix instead
stress-ng: metrc: [252122] stressor       bogo ops real time  usr time  sys time   bogo ops/s     bogo ops/s
stress-ng: metrc: [252122]                           (secs)    (secs)    (secs)   (real time) (usr+sys time)
stress-ng: metrc: [252122] cpu              497453     60.00    239.96      0.02      8290.85        2072.92
stress-ng: metrc: [252122] io               106215     66.32      0.28      7.39      1601.45       13833.68
stress-ng: metrc: [252122] vm              5059004     60.07     46.16     13.90     84220.41       84224.32
stress-ng: info:  [252122] successful run completed in 71.45s (1 min, 11.45 secs)
[root@pve ~]# uptime
 08:58:49 up 5 days, 23:39,  1 user,  load average: 4.04, 1.98, 1.04

Sieht aufs Erste glaub ok aus.

Mit s-tui kann man auch stressen. Hab ich auch mehre Minuten gemacht und nichts stürzte ab oder löste ein Reboot aus. Wenn ich das richtig sehe fürht s-tui auch ein Stress mit dem Netzeil durch?
Allem in allem kann ich kein Abstürz so reproduzieren......

Bildschirmfoto vom 2024-06-08 09-05-08.png

Falk R. · Jun 8, 2024

Dann versuche mal den 6.5er Kernel anzupinnen. Das machst du einfach mit dem proxmox-boot-tool, Syntax ist im Wiki sehr gut beschrieben.
Die Stresstools nutzen kein KVM und es gibt Anzeichen , dass bestimmte Hardware mit dem 6.8 Kernel und KVM VMs instabil läuft.
Ist auf jeden Fall ein Versuch wert.

Der Harry · Jun 8, 2024

Falk R. said:
Dann versuche mal den 6.5er Kernel anzupinnen. Das machst du einfach mit dem proxmox-boot-tool, Syntax ist im Wiki sehr gut beschrieben.
Die Stresstools nutzen kein KVM und es gibt Anzeichen , dass bestimmte Hardware mit dem 6.8 Kernel und KVM VMs instabil läuft.
Ist auf jeden Fall ein Versuch wert.

Ich hab habe schon nach dem Kernel gefragt - aber - keine Antwort bekommen.

Btw. Ich habe auch gefragt "kann mir jemand ein tutorial schicken wegen dem ocfs2 6.2 Thema?" Ich will wirklich testen ob das mit 6.9.x noch ein Problem ist

- aber - keine Antwort bekommen.

Ich esse Popcorn.

Und hmmm - ich würde es eher so sagen "Es gibt Hardware die nich nächer bestimmbar ist, auf dem 6.8.4-x-pve instabil läuft" - bestimmt ist die leider nicht.

mabox · Jun 9, 2024

Hi,
ok meinst Du im Prinzip ich soll mal nochmal auf einen alten Kernel z.B. 6.5.13-5 booten?

@Der Harry
Meinst Du mich mit "keine Antwort bekommen"? Weil ich hatte Dir doch geanwortet welche Proxmox Version und Kernelversion ich aktuell habe?

Seither hatte ich keinen Reboot mehr... der letzte war jetzt vor genau einer Woche....... ich beobachte mal weiter. Außer Netzteil kann ich mir irgendwie kein Hardwareproblem vorstellen. Da ja auch im Log noch "REBOOT" zu sehen ist ist ja auch komisch. Wenn sich eine Hardware verabschiedet knipst es die Kiste womöglich doch einfach aus oder restartet ohne lang noch Reboot ins Log zu schreiben.

mabox · Jun 22, 2024

Hallo,
heute Morgen war es wieder soweit, hat jetzt aber doch einige Zeit gehalten ohne Probleme.
Wie gesagt ist mir meine letzte Frage von oben nicht klar warum im Log noch "Reboot" steht, wenn es das Netzteil oder überhaupt Hardware wäre hätte ich gesagt das Ding knipst sich sofort aus.

Code:

Jun 22 04:00:15 pve sshd[2153822]: Accepted publickey for root from 192.168.1.222 port 55348 ssh2: RSA SHA256:Af8xPDAG1xe4UiKNJ3ms6+6LWky+4ingMNcBdUxBw9U
Jun 22 04:00:15 pve sshd[2153822]: pam_unix(sshd:session): session opened for user root(uid=0) by (uid=0)
Jun 22 04:00:15 pve systemd[1]: Created slice user-0.slice - User Slice of UID 0.
Jun 22 04:00:15 pve systemd[1]: Starting user-runtime-dir@0.service - User Runtime Directory /run/user/0...
Jun 22 04:00:15 pve systemd-logind[1439]: New session 694 of user root.
Jun 22 04:00:15 pve systemd[1]: Finished user-runtime-dir@0.service - User Runtime Directory /run/user/0.
Jun 22 04:00:15 pve systemd[1]: Starting user@0.service - User Manager for UID 0...
Jun 22 04:00:15 pve (systemd)[2153825]: pam_unix(systemd-user:session): session opened for user root(uid=0) by (uid=0)
Jun 22 04:00:15 pve systemd[2153825]: Queued start job for default target default.target.
Jun 22 04:00:15 pve systemd[2153825]: Created slice app.slice - User Application Slice.
Jun 22 04:00:15 pve systemd[2153825]: Reached target paths.target - Paths.
Jun 22 04:00:15 pve systemd[2153825]: Reached target timers.target - Timers.
Jun 22 04:00:15 pve systemd[2153825]: Listening on dirmngr.socket - GnuPG network certificate management daemon.
Jun 22 04:00:15 pve systemd[2153825]: Listening on gpg-agent-browser.socket - GnuPG cryptographic agent and passphrase cache (access for web browsers).
Jun 22 04:00:15 pve systemd[2153825]: Listening on gpg-agent-extra.socket - GnuPG cryptographic agent and passphrase cache (restricted).
Jun 22 04:00:15 pve systemd[2153825]: Listening on gpg-agent-ssh.socket - GnuPG cryptographic agent (ssh-agent emulation).
Jun 22 04:00:15 pve systemd[2153825]: Listening on gpg-agent.socket - GnuPG cryptographic agent and passphrase cache.
Jun 22 04:00:15 pve systemd[2153825]: Reached target sockets.target - Sockets.
Jun 22 04:00:15 pve systemd[2153825]: Reached target basic.target - Basic System.
Jun 22 04:00:15 pve systemd[2153825]: Reached target default.target - Main User Target.
Jun 22 04:00:15 pve systemd[2153825]: Startup finished in 116ms.
Jun 22 04:00:15 pve systemd[1]: Started user@0.service - User Manager for UID 0.
Jun 22 04:00:15 pve systemd[1]: Started session-694.scope - Session 694 of User root.
Jun 22 04:00:15 pve sshd[2153822]: pam_env(sshd:session): deprecated reading of user environment enabled
Jun 22 04:00:15 pve sshd[2153845]: Accepted publickey for root from 192.168.1.222 port 55349 ssh2: RSA SHA256:Af8xPDAG1xe4UiKNJ3ms6+6LWky+4ingMNcBdUxBw9U
Jun 22 04:00:15 pve sshd[2153845]: pam_unix(sshd:session): session opened for user root(uid=0) by (uid=0)
Jun 22 04:00:15 pve systemd-logind[1439]: New session 696 of user root.
Jun 22 04:00:15 pve systemd[1]: Started session-696.scope - Session 696 of User root.
Jun 22 04:00:15 pve sshd[2153845]: pam_env(sshd:session): deprecated reading of user environment enabled
Jun 22 04:00:15 pve sshd[2153845]: Received disconnect from 192.168.1.222 port 55349:11: disconnected by user
Jun 22 04:00:15 pve sshd[2153845]: Disconnected from user root 192.168.1.222 port 55349
Jun 22 04:00:15 pve sshd[2153845]: pam_unix(sshd:session): session closed for user root
Jun 22 04:00:15 pve systemd[1]: session-696.scope: Deactivated successfully.
Jun 22 04:00:15 pve systemd-logind[1439]: Session 696 logged out. Waiting for processes to exit.
Jun 22 04:00:15 pve systemd-logind[1439]: Removed session 696.
Jun 22 04:00:15 pve sshd[2153853]: Accepted publickey for root from 192.168.1.222 port 55350 ssh2: RSA SHA256:Af8xPDAG1xe4UiKNJ3ms6+6LWky+4ingMNcBdUxBw9U
Jun 22 04:00:15 pve sshd[2153853]: pam_unix(sshd:session): session opened for user root(uid=0) by (uid=0)
Jun 22 04:00:15 pve systemd-logind[1439]: New session 697 of user root.
Jun 22 04:00:16 pve systemd[1]: Started session-697.scope - Session 697 of User root.
Jun 22 04:00:16 pve sshd[2153853]: pam_env(sshd:session): deprecated reading of user environment enabled
Jun 22 04:00:16 pve sshd[2153853]: Received disconnect from 192.168.1.222 port 55350:11: disconnected by user
Jun 22 04:00:16 pve sshd[2153853]: Disconnected from user root 192.168.1.222 port 55350
Jun 22 04:00:16 pve sshd[2153853]: pam_unix(sshd:session): session closed for user root
Jun 22 04:00:16 pve systemd[1]: session-697.scope: Deactivated successfully.
Jun 22 04:00:16 pve systemd-logind[1439]: Session 697 logged out. Waiting for processes to exit.
Jun 22 04:00:16 pve systemd-logind[1439]: Removed session 697.
Jun 22 04:01:24 pve sshd[2153822]: Received disconnect from 192.168.1.222 port 55348:11: disconnected by user
Jun 22 04:01:24 pve sshd[2153822]: Disconnected from user root 192.168.1.222 port 55348
Jun 22 04:01:24 pve sshd[2153822]: pam_unix(sshd:session): session closed for user root
Jun 22 04:01:24 pve systemd-logind[1439]: Session 694 logged out. Waiting for processes to exit.
Jun 22 04:01:24 pve systemd[1]: session-694.scope: Deactivated successfully.
Jun 22 04:01:24 pve systemd[1]: session-694.scope: Consumed 6.548s CPU time.
Jun 22 04:01:24 pve systemd-logind[1439]: Removed session 694.
Jun 22 04:01:34 pve systemd[1]: Stopping user@0.service - User Manager for UID 0...
Jun 22 04:01:34 pve systemd[2153825]: Activating special unit exit.target...
Jun 22 04:01:34 pve systemd[2153825]: Stopped target default.target - Main User Target.
Jun 22 04:01:34 pve systemd[2153825]: Stopped target basic.target - Basic System.
Jun 22 04:01:34 pve systemd[2153825]: Stopped target paths.target - Paths.
Jun 22 04:01:34 pve systemd[2153825]: Stopped target sockets.target - Sockets.
Jun 22 04:01:34 pve systemd[2153825]: Stopped target timers.target - Timers.
Jun 22 04:01:34 pve systemd[2153825]: Closed dirmngr.socket - GnuPG network certificate management daemon.
Jun 22 04:01:34 pve systemd[2153825]: Closed gpg-agent-browser.socket - GnuPG cryptographic agent and passphrase cache (access for web browsers).
Jun 22 04:01:34 pve systemd[2153825]: Closed gpg-agent-extra.socket - GnuPG cryptographic agent and passphrase cache (restricted).
Jun 22 04:01:34 pve systemd[2153825]: Closed gpg-agent-ssh.socket - GnuPG cryptographic agent (ssh-agent emulation).
Jun 22 04:01:34 pve systemd[2153825]: Closed gpg-agent.socket - GnuPG cryptographic agent and passphrase cache.
Jun 22 04:01:34 pve systemd[2153825]: Removed slice app.slice - User Application Slice.
Jun 22 04:01:34 pve systemd[2153825]: Reached target shutdown.target - Shutdown.
Jun 22 04:01:34 pve systemd[2153825]: Finished systemd-exit.service - Exit the Session.
Jun 22 04:01:34 pve systemd[2153825]: Reached target exit.target - Exit the Session.
Jun 22 04:01:34 pve systemd[1]: user@0.service: Deactivated successfully.
Jun 22 04:01:34 pve systemd[1]: Stopped user@0.service - User Manager for UID 0.
Jun 22 04:01:34 pve systemd[1]: Stopping user-runtime-dir@0.service - User Runtime Directory /run/user/0...
Jun 22 04:01:34 pve systemd[1]: run-user-0.mount: Deactivated successfully.
Jun 22 04:01:34 pve systemd[1]: user-runtime-dir@0.service: Deactivated successfully.
Jun 22 04:01:34 pve systemd[1]: Stopped user-runtime-dir@0.service - User Runtime Directory /run/user/0.
Jun 22 04:01:34 pve systemd[1]: Removed slice user-0.slice - User Slice of UID 0.
Jun 22 04:01:34 pve systemd[1]: user-0.slice: Consumed 6.695s CPU time.
Jun 22 04:17:01 pve CRON[2165790]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Jun 22 04:17:01 pve CRON[2165791]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
Jun 22 04:17:01 pve CRON[2165790]: pam_unix(cron:session): session closed for user root
Jun 22 04:26:38 pve pvescheduler[2065717]: INFO: Finished Backup of VM 101 (01:44:37)
Jun 22 04:26:38 pve pvescheduler[2065717]: INFO: Starting Backup of VM 102 (qemu)
Jun 22 04:27:06 pve pvescheduler[2065717]: INFO: Finished Backup of VM 102 (00:00:28)
Jun 22 04:27:06 pve pvescheduler[2065717]: INFO: Starting Backup of VM 103 (qemu)
Jun 22 04:27:51 pve pvescheduler[2065717]: INFO: Finished Backup of VM 103 (00:00:45)
Jun 22 04:27:51 pve pvescheduler[2065717]: INFO: Backup job finished successfully
Jun 22 04:49:11 pve smartd[1433]: Device: /dev/sdc [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 67 to 70
Jun 22 05:00:59 pve systemd[1]: Starting man-db.service - Daily man-db regeneration...
Jun 22 05:00:59 pve systemd[1]: man-db.service: Deactivated successfully.
Jun 22 05:00:59 pve systemd[1]: Finished man-db.service - Daily man-db regeneration.
Jun 22 05:17:01 pve CRON[2200635]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Jun 22 05:17:01 pve CRON[2200636]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
Jun 22 05:17:01 pve CRON[2200635]: pam_unix(cron:session): session closed for user root
-- Reboot --
Jun 22 09:44:07 pve kernel: Linux version 6.8.4-3-pve (build@proxmox) (gcc (Debian 12.2.0-14) 12.2.0, GNU ld (GNU Binutils for Debian) 2.40) #1 SMP PREEMPT_DYNAMIC PMX 6.8.4-3 (2024-05-02T11:55Z) ()
Jun 22 09:44:07 pve kernel: Command line: initrd=\EFI\proxmox\6.8.4-3-pve\initrd.img-6.8.4-3-pve root=ZFS=rpool/ROOT/pve-1 boot=zfs
Jun 22 09:44:07 pve kernel: KERNEL supported cpus:
Jun 22 09:44:07 pve kernel:   Intel GenuineIntel
Jun 22 09:44:07 pve kernel:   AMD AuthenticAMD
Jun 22 09:44:07 pve kernel:   Hygon HygonGenuine
Jun 22 09:44:07 pve kernel:   Centaur CentaurHauls
Jun 22 09:44:07 pve kernel:   zhaoxin   Shanghai
Jun 22 09:44:07 pve kernel: BIOS-provided physical RAM map:
Jun 22 09:44:07 pve kernel: BIOS-e820: [mem 0x0000000000000000-0x000000000009ffff] usable

Ich versteh auch nicht was dies ganzen "user sessions" sollen. Um die Zeiten passiert auf dem System eigentlich nichts userseitig.....
Das nächste ist warum es nicht das Boot device findet..... es bringt auch nichts das ich irgendeine Taste drück wie dort steht, ich muss hart ein und ausschalten und dann bootet der Server wieder normal......
Muss ich was an der Bootreihenfolge verändern?

Bildschirmfoto vom 2024-06-22 09-58-19.png

Bildschirmfoto vom 2024-06-22 10-24-06a.jpg

LORDSVN · Oct 15, 2024

Hallo,

konntest du das Problem beheben? Ich habe 2 MiniPCs

1x Intel NUC - alles läuft stabil
1x MinisForum - das gleiche verhalten wie bei dir.

Das MinisForum System läuft 2-3 Wochen ohne Probleme und plötzlich ist es nicht mehr erreichbar. Die LED leuchtet aber noch. Ich schalte dann 1x aus und wieder an. Danach beginnt das Spiel von vorn.

Im log habe ich auch diesen Reboot Eintrag.

mabox · Oct 15, 2024

Hallo,
also ich hatte das Problem jetzt seither nicht mehr, seit ich zum letztenmal oben gemeldet hatte, Juni, war es nicht mehr. Ich aktualisiere halt jeden Monat, vielleicht hat eines der Updates das Problem behoben, hoffe ich.

LORDSVN · Oct 15, 2024

Meine Systeme sind beide up2date. Im BIOS hast du auch nichts verändert, oder?

mabox · Oct 15, 2024

Nein ich habe im BIOS nur die Einstellungen überprüft da mein System von alleine nicht gebootet hatte obwohl die richtige Bootreihenfolge eingestellt war. Tatsächlich irgendetwas verändert habe ich am Ende nicht.

Search

Search

Proxmox Server rebootet plötzlich

mabox

Member

devaux

Active Member

floh8

Renowned Member

mabox

Member

cwt

Well-Known Member

UdoB

Distinguished Member

Der Harry

Active Member

mabox

Member

Falk R.

Distinguished Member

Der Harry

Active Member

mabox

Member

mabox

Member

LORDSVN

New Member

mabox

Member

LORDSVN

New Member

mabox

Member