Buffer I/O error nach Update von 6.4 auf 7.1

p.jahn · Dec 26, 2021

Hallo zusammen,

ich habe gestern einen 5 Node HCI Cluster von Proxmox VE 6.4 auf 7.1 aktualisiert und Ceph von Octopus auf Pacific.
Das Update an sich lief problemlos durch und gestern Abend war alles ok und Ceph war Healthy.

Heute musste ich jedoch feststellen, dass die WebUI auf 2 Nodes nicht erreichbar war und mehere OSDs gecrasht waren.
Die besagten Nodes zeigten auf der IPMI Konsole jede Menge Buffer I/O errors und blk_update_request I/O errors.

Hier im Forum fand ich den Hinweis, das es wohl ein Problem mit Kernel 5.13 und VirtIO Block devices gibt.
Ich verwende jedoch bei allen VMs VirtIO SCSI und die Fehler treten am Host auf und nicht in den VMs.

Ein Hardwareprobem würde ich eigentlich auch ausschließen da vorher alles lief und es gleich 2 Nodes betrifft.

Sollte ich dennoch zuerst mal das empfohlene Downgrade auf Kernel 5.11 versuchen?

Besten Dank für Eure Antworten.

Viele Grüße
Patrick

p.jahn · Dec 27, 2021

UPDATE:

Der Kernel 5.11 brachte leider keine Abhilfe und die Fehler traten weiterhin auf.
Wie ich inzwischen festgestellt habe, sind auch weitere Nodes betroffen.

Ich konnte auch noch Meldungen identifizieren, welche kurz vor den I/O errors auftreten.

Code:

Dec 26 19:44:29 pve01 kernel: [21919.318408] sd 0:0:10:0: attempting task abort!scmd(0x00000000307dc79f), outstanding for 15068 ms & timeout 15000 ms
Dec 26 19:44:29 pve01 kernel: [21919.318417] sd 0:0:10:0: [sdk] tag#5682 CDB: ATA command pass through(16) 85 06 20 00 00 00 00 00 00 00 00 00 00 40 e5 00
Dec 26 19:44:29 pve01 kernel: [21919.318420] scsi target0:0:10: handle(0x0023), sas_address(0x300062b2038094d2), phy(18)
Dec 26 19:44:29 pve01 kernel: [21919.318424] scsi target0:0:10: enclosure logical id(0x500062b2038094c0), slot(8).
Dec 26 19:44:29 pve01 kernel: [21919.318426] scsi target0:0:10: enclosure level(0x0000), connector name(     )
Dec 26 19:44:29 pve01 kernel: [21919.347873] sd 0:0:10:0: task abort: SUCCESS scmd(0x00000000307dc79f)
Dec 26 19:44:30 pve01 kernel: [21920.017876] sd 0:0:10:0: Power-on or device reset occurred
...
Dec 26 19:48:41 pve01 kernel: [22171.259522] blk_update_request: I/O error, dev sdk, sector 1801210072 op 0x0:(READ) flags 0x80700 phys_seg 1 prio class 0

Aktuell laufen die Nodes wieder mit Kernel 5.4.151-1-pve und bisher sind keine Fehler mehr aufgetreten.

Search

Search

Buffer I/O error nach Update von 6.4 auf 7.1

p.jahn

Active Member

Attachments

p.jahn

Active Member

We value your privacy