Buffer I/O error nach Update von 6.4 auf 7.1

p.jahn

Active Member
Feb 19, 2019
26
3
43
43
Hallo zusammen,

ich habe gestern einen 5 Node HCI Cluster von Proxmox VE 6.4 auf 7.1 aktualisiert und Ceph von Octopus auf Pacific.
Das Update an sich lief problemlos durch und gestern Abend war alles ok und Ceph war Healthy.

Heute musste ich jedoch feststellen, dass die WebUI auf 2 Nodes nicht erreichbar war und mehere OSDs gecrasht waren.
Die besagten Nodes zeigten auf der IPMI Konsole jede Menge Buffer I/O errors und blk_update_request I/O errors.

Hier im Forum fand ich den Hinweis, das es wohl ein Problem mit Kernel 5.13 und VirtIO Block devices gibt.
Ich verwende jedoch bei allen VMs VirtIO SCSI und die Fehler treten am Host auf und nicht in den VMs.

Ein Hardwareprobem würde ich eigentlich auch ausschließen da vorher alles lief und es gleich 2 Nodes betrifft.

Sollte ich dennoch zuerst mal das empfohlene Downgrade auf Kernel 5.11 versuchen?

Besten Dank für Eure Antworten.

Viele Grüße
Patrick
 

Attachments

  • iKVM_capture.jpg
    iKVM_capture.jpg
    791.8 KB · Views: 6
UPDATE:

Der Kernel 5.11 brachte leider keine Abhilfe und die Fehler traten weiterhin auf.
Wie ich inzwischen festgestellt habe, sind auch weitere Nodes betroffen.

Ich konnte auch noch Meldungen identifizieren, welche kurz vor den I/O errors auftreten.
Code:
Dec 26 19:44:29 pve01 kernel: [21919.318408] sd 0:0:10:0: attempting task abort!scmd(0x00000000307dc79f), outstanding for 15068 ms & timeout 15000 ms
Dec 26 19:44:29 pve01 kernel: [21919.318417] sd 0:0:10:0: [sdk] tag#5682 CDB: ATA command pass through(16) 85 06 20 00 00 00 00 00 00 00 00 00 00 40 e5 00
Dec 26 19:44:29 pve01 kernel: [21919.318420] scsi target0:0:10: handle(0x0023), sas_address(0x300062b2038094d2), phy(18)
Dec 26 19:44:29 pve01 kernel: [21919.318424] scsi target0:0:10: enclosure logical id(0x500062b2038094c0), slot(8).
Dec 26 19:44:29 pve01 kernel: [21919.318426] scsi target0:0:10: enclosure level(0x0000), connector name(     )
Dec 26 19:44:29 pve01 kernel: [21919.347873] sd 0:0:10:0: task abort: SUCCESS scmd(0x00000000307dc79f)
Dec 26 19:44:30 pve01 kernel: [21920.017876] sd 0:0:10:0: Power-on or device reset occurred
...
Dec 26 19:48:41 pve01 kernel: [22171.259522] blk_update_request: I/O error, dev sdk, sector 1801210072 op 0x0:(READ) flags 0x80700 phys_seg 1 prio class 0

Aktuell laufen die Nodes wieder mit Kernel 5.4.151-1-pve und bisher sind keine Fehler mehr aufgetreten.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!