全部產品
Search
文件中心

Container Service for Kubernetes:ack-nvidia-device-plugin組件介紹與變更說明

更新時間:Nov 26, 2025

GPU裝置外掛程式(NVIDIA Device Plugin)是Kubernetes叢集中用於管理每個節點的GPU的組件,使得Kubernetes能夠更方便、高效地利用GPU資源。

使用說明

關於如何查看NVIDIA Device Plugin版本、升級NVIDIA Device Plugin、重啟NVIDIA Device Plugin、GPU裝置隔離等操作,請參見配置及管理NVIDIA Device Plugin

版本差異

ack-nvidia-device-plugin組件隨著叢集版本的不同,其實現方式和管理原則如下表所示。

特性

1.32及以上叢集版本

1.20至1.31間叢集版本

部署方式

DaemonSet

Static Pod

管理方式

控制台組件管理

手動維護

節點標籤要求

ack.node.gpu.schedule=default

無特殊要求

隨節點池升級策略

手動升級

自動升級

若叢集版本低於1.20,建議手動升級叢集

變更記錄

1.32及以上叢集版本

2025年11月

版本號碼

鏡像Tag

變更時間

變更內容

變更影響

v0.5.0

v0.18.0-ack-1.0-2ac7c6b3

2025年11月25日

  • 基於NVIDIA Device Plugin社區v0.18.0版本。

  • 支援開啟GDRCopy能力。

  • 修複節點上Pod過多時,ack-nvidia-device-plugin探針逾時而重啟的問題。

此次升級不會對業務造成影響。

2025年09月

版本號碼

鏡像Tag

變更時間

變更內容

變更影響

v0.4.0

v0.17.3-ack-1.0-b70733ec

2025年09月16日

此次升級不會對業務造成影響。

2025年07月

版本號碼

鏡像Tag

變更時間

變更內容

變更影響

v0.3.0

v0.17.0-ack-1.0-678014dd

2025年07月14日

此次升級不會對業務造成影響。

2025年04月

版本號碼

鏡像Tag

變更時間

變更內容

變更影響

v0.2.0

v0.17.0-49a827fd-aliyun

2025年04月29日

  • 基於NVIDIA Device Plugin社區v0.17.0版本。

  • 支援health check能力(活動訊號間隔時間時間為5分鐘),避免Device Plugin與kubelet GRPC串連中斷導致節點上報GPU資源為0的問題。

  • 修複GPU卡故障情況下,不斷重試建立GPU Pod問題。

  • 預設關閉節點出現XID後,進行裝置隔離的能力。

此次升級不會對業務造成影響。

2024年12月

版本號碼

鏡像Tag

變更時間

變更內容

變更影響

v0.1.0

v0.17.0-1-aliyun

2024年12月26日

基於NVIDIA Device Plugin社區v0.17.0版本。

此次升級不會對業務造成影響。

1.20至1.31間叢集版本

2025年01月

鏡像Tag

變更時間

變更內容

變更影響

v0.9.3-0dd4d5f5-aliyun

2025年01月16日

  • 預設開啟節點出現XID後,進行裝置隔離操作。

  • 更改resources.limitsresources.requests中cpu和memory的值。

此次升級不會對業務造成影響。

2024年04月

鏡像Tag

變更時間

變更內容

變更影響

v0.9.1-576cfc77-aliyun

2024年04月08日

移除livenessProbe

此次升級不會對業務造成影響。

2024年04月

鏡像Tag

變更時間

變更內容

變更影響

v0.9.1-3f942982-aliyun

2024年02月29日

增加livenessProbe

此次升級不會對業務造成影響。

2023年08月

鏡像Tag

變更時間

變更內容

變更影響

v0.9.0-70671340-aliyun

2023年08月02日

修改resources.limits

此次升級不會對業務造成影響。

2021年04月

鏡像Tag

變更時間

變更內容

變更影響

1.12

2021年04月01日

基於NVIDIA Device Plugin自訂GPU裝置掛載邏輯。

此次升級不會對業務造成影響。