Backups Scheitern an Buffer I/O

;-) Ist mir schon klar, dass Dein Einsatzszenario ein anderes ist - nur, wenn ein Anfänger das liest, kann er den Unterschied nicht erkennen zwischen einem ZIL-Log, dass ja auch nur synchrone Writes puffert und daher nicht wie ein volles ZFS belastet ist, etwas anderes ist als das Szenario des OPs, nämlich ein 24/7 Proxmox VE mit rpool auf der SSD. Für letzteres ist auch eine MX500 ungeeignet, da sind wir uns wohl einig.
 
  • Like
Reactions: news
Laut den mir vorliegen Daten haben die Crucial MX500 DRAM Cache und PLP, leider bei sehr geringen, TWB.

Dass sich deine Ausführung nur oder als Erstes auf den OP bezogen, habe nicht erkannt.
Seine NVMe Crucial P3 1TB PCIe M.2 (CT1000P3SSD8) ist für ZFS ungeeignet, das hatte ich vor Jahren leider auch erfahren müssen. Selbst mit ext4 formatiert und ohne MDADM Raid1 darunter ist es ein Krampf.

Danke für die Klarstellung.
 
Vielen Dank erstmal für die vielen Tipps. Wie ihr sicherlich bemerkt habt, bin ich an das Thema proxmox server etwas unbedarft ran gegagen.

Mein Problem aktuell ist, dass ich eigentlich nur den NVME M2 slot frei habe. Sämtliche meiner normalen SATA slots habe ich mit den Festplatten belegt.

Nachdem ich eure Diskussion verfolgt habe und ich mich auf die Suche gemacht habe, musste ich feststellen, dass SSDs mit NVME M2 Schnittstelle und hohem TBW wert irgendwie.... wahnsinnig teuer sind? (also über 1k eur) - News, du hast sicherlich eine Lösung für dich gefunden die super funktioniert, aber so fit bin ich leider nicht, die SSD so aufzuteilen, dass ich die Bios/EFI Partitionen trennen kann. Mal abgesehen davon, dass du SATA SSDs verwendest...

Ich habe mir daher folgendes überlegt: Gibt es eine Möglichkeit die VMs auf die Raiddrives zu schieben, Proxmox auf einer neuen consumer NVME ssd neu zu installieren und dann Raiddrives bei der neuen Installation zu mounten? Oder stoße ich dann wieder auf das Problem, dass die NVME ssd durchfrisst?


Nur der Vollständigkeit halber, hier mal die Werte der aktuell verbauten CT1000P3SSD8:
=== START OF INFORMATION SECTION ===
Model Number: CT1000P3SSD8
Serial Number: 241047711AF4
Firmware Version: P9CR313
PCI Vendor/Subsystem ID: 0x1344
IEEE OUI Identifier: 0x00a075
Controller ID: 0
NVMe Version: 1.4
Number of Namespaces: 1
Namespace 1 Size/Capacity: 1,000,204,886,016 [1.00 TB]
Namespace 1 Formatted LBA Size: 512
Namespace 1 IEEE EUI-64: 00a075 0147711af4
Local Time is: Sun Feb 16 15:00:38 2025 CET
Firmware Updates (0x14): 2 Slots, no Reset required
Optional Admin Commands (0x0017): Security Format Frmw_DL Self_Test
Optional NVM Commands (0x00d7): Comp Wr_Unc DS_Mngmt Sav/Sel_Feat Timestmp Verify
Log Page Attributes (0x1e): Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg Pers_Ev_Lg
Maximum Data Transfer Size: 64 Pages
Warning Comp. Temp. Threshold: 83 Celsius
Critical Comp. Temp. Threshold: 85 Celsius
Namespace 1 Features (0x08): No_ID_Reuse

Supported Power States
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 5.50W - - 0 0 0 0 0 0
1 + 3.00W - - 1 1 1 1 0 0
2 + 1.50W - - 2 2 2 2 0 0
3 - 0.0300W - - 3 3 3 3 5000 2500
4 - 0.0025W - - 4 4 4 4 8000 40000

Supported LBA Sizes (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
0 + 512 0 1
1 - 4096 0 0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 30 Celsius
Available Spare: 100%
Available Spare Threshold: 5%
Percentage Used: 2%
Data Units Read: 9,764,767 [4.99 TB]
Data Units Written: 12,205,602 [6.24 TB]
Host Read Commands: 114,710,740
Host Write Commands: 328,114,422
Controller Busy Time: 755
Power Cycles: 23
Power On Hours: 4,314
Unsafe Shutdowns: 12
Media and Data Integrity Errors: 0
Error Information Log Entries: 0
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Temperature Sensor 1: 30 Celsius

Error Information (NVMe Log 0x01, 16 of 255 entries)
No Errors Logged
 
Last edited:
Du kannst natürlich VMs auf einem Platten-Array halten und die NVME nur für das Root-System nutzen, aber ist das der Sinn der Sache?

Deine Crucial kostet ca. 55€, eine 1 TB WD BLACK SN850X ca. 85€. Zugegeben, die ist nur mit 600 TBW angegeben. Die WD RED SN700 kann 2000 TBW und kostet ähnlich. Ich arbeite seit Jahren mit WD Black (nicht SN770, die haben kein RAM), nehme aber größere - durch die Überprovisionierung bleibt da immer noch genügend Reserve. Bei meinem Schreibvolumen reicht es locker für die nächsten 10 Jahre.

Am Rande bemerkt: Eigentlich sieht die Ausgabe Deiner Platte nicht so schlecht aus. Sie hat erst 2% Ihrer Lebensdauer verbraucht in 4300h (1/2 Jahr). Damit würde sie bei gleichbleibendem Nutzungsverhalten noch 25 Jahre halten. Es wurden auch keine Fehler verzeichnet. Dann fragt sich natürlich, wieso ZFS einen Fehler erkannt hat. Das kann alles Mögliche sein - Overclocking, schlechtes RAM (sicherlich kein ECC)...
 
Nein, eigentlich will ich ja schnelle VMs haben und dafür die SSD nutzen, aber wenn ich die recht neue SSD hier schon zerschossen habe, dann bevorzuge ich etwas mehr Stabilität des gesamtsystems.

Danke für die Tipps zu den NVMes. Dann hol ich einfach eine WD BLACK SN850X und setze es wie bisher auf. Mal schauen wie lange die SSD dann hält.

Komisch bzgl der SSD - eigentlich ist sie auch noch in der Gewährleistung... - Natürlich hab ich kein ECC Ram verbaut, aber auch nicht overclocked...

Vielleicht reicht auch ein neues Aufsetzen?
 
Das Seltsame ist eben, dass die Platte meint, alles sei gut, ZFS aber der (sicher richtigen) Meinung ist, dass da defekte Daten drauf sind. Es gibt also einen Unterschied zwischen den geschriebenen und den gelesenen Daten. Den müsste die Platte selbst auch bemerken und den Fehler melden.

Wahrscheinlich ist also, dass defekte Daten auf die SSD geschrieben wurden, entweder, weil ein Problem in der Signalisierung vorlag, oder weil sich der Speicherinhalt geändert hat. Dass ein Bit zufällig kippt, passiert schon mal, ist aber sehr unwahrscheinlich. Ich hätte Bedenken, dass da irgendein Hardwaredefekt vorliegt - und der muss nicht unbedingt auf der Platte sein.

Eventuell einfach mal einen Scrub machen oder ganz neu aufsetzen und dann beobachten.