1.受影響版本號(hào)
sp2:4.19.90-25.44
sp3 2303: 4.19.90-52.43
sp3 2403:4.19.90-89.17~89.18
2.問題復(fù)現(xiàn)方法:
在搭載mlx5網(wǎng)卡的服務(wù)器上,安裝以上受影響的內(nèi)核版本,進(jìn)行網(wǎng)絡(luò)壓力傳輸,mlx5網(wǎng)卡驅(qū)動(dòng)mlx5_core有如下報(bào)錯(cuò):
mlx5_core 0000:01:00.0: cmd_work_handler:877:(pid
3. 問題分析結(jié)果:
該問題是因?yàn)樯嫌紊鐓^(qū)解決CVE-2024-38556的補(bǔ)丁485d65e13571 ("net/mlx5: Add a timeout to acquire the command queue semaphore")所引入,該補(bǔ)丁引入了slotted完成量,但是在出錯(cuò)返回時(shí)沒有對(duì)該變量complete使進(jìn)程死等導(dǎo)致系統(tǒng)hung住。該問題官網(wǎng)驅(qū)動(dòng)24.10-1.1.4.0-LTS版本也受影響,官網(wǎng)驅(qū)動(dòng)連接為:https://network.nvidia.com/products/ethernet-drivers/linux/mlnx_en/。目前麒麟研發(fā)工程師已經(jīng)對(duì)該缺陷緊急修復(fù),并推送到上游社區(qū),該修復(fù)的缺陷也被評(píng)為了CVE,鏈接為:https://nvd.nist.gov/vuln/detail/CVE-2025-21662
4. 補(bǔ)丁及下載地址:
從軟件倉(cāng)庫(kù)更新
5. 修復(fù)和更新方法:
(用root權(quán)限執(zhí)行以下命令):yum update kernel