NVIDIA Container Toolkit 1.17.7及以下版本在使用預設配置時存在一個TOCTOU競態條件攻擊漏洞。該漏洞不會影響容器裝置介面(CDI)的使用,但若被成功利用,可能導致容器逃逸,使攻擊者能夠在宿主機上執行任意命令或擷取敏感資訊。已知攻擊情境下,受害者需要使用惡意鏡像,並在容器內通過NVIDIA Container Toolkit操作GPU資源。
關於漏洞的詳細資料,請參見NVIDIA Container Toolkit,請及時修複。
影響範圍
叢集版本低於1.32,且叢集中GPU節點安裝了版本為1.17.7及以下的NVIDIA Container Toolkit組件。
防範措施
在漏洞未修複之前,建議避免在叢集中運行不可信的容器鏡像,以確保系統的安全性和穩定性。可參見以下兩種方案。
參見啟用安全性原則管理啟用ACKAllowedRepos策略,限制只使用可信倉庫來源的鏡像,同時基於最小化許可權原則確保只有可信人員具有匯入鏡像的許可權。
您可以使用Notation和Ratify進行OCI製品的加簽和驗簽,確保只有受信鏡像部署在叢集中。
解決方案
注意事項
修複方案僅適用於ACK託管叢集Pro版、ACK託管叢集基礎版、ACK專有叢集、ACK Edge叢集的雲端節點池和ACK靈駿叢集的託管節點池。
如果您的叢集類型為ACK靈駿叢集,且節點池為靈駿節點池,請提交工單處理。
在修複過程中,請分批進行節點修複操作,避免同時修複所有節點,以確保系統穩定性。
整個過程會通過重啟節點上正在啟動並執行業務Pod對其進行修複,請選擇業務低峰期進行修複操作。
修複方案
新增GPU節點配置方案
本方案僅適用於1.20及以上版本的叢集。若您叢集版本低於1.20,請及時升級叢集。
登入Container Service管理主控台,在左側導覽列選擇叢集列表。
在叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇。
找到對應節點池,單擊編輯,為節點池添加
ack.aliyun.com/nvidia-container-runtime-version=1.17.8標籤後,單擊確認。說明該標籤將鎖定節點池擴容時使用的nvidia-container-toolkit版本為1.17.8,後續發布新版本時不會自動升級。
若需使用新版本nvidia-container-toolkit,需手動刪除該標籤,擴容節點將預設採用最新版本。
存量GPU節點修複方案
對於存量GPU節點情境,可以通過執行CVE修複指令碼,進行手動修複。修複方案詳情如下。