全部产品
Search
文档中心

容器服务 Kubernetes 版 ACK:ack-nvidia-device-plugin组件介绍与变更说明

更新时间:Nov 25, 2025

GPU设备插件(NVIDIA Device Plugin)是Kubernetes集群中用于管理每个节点的GPU的组件,使得Kubernetes能够更方便、高效地利用GPU资源。

使用说明

关于如何查看NVIDIA Device Plugin版本、升级NVIDIA Device Plugin、重启NVIDIA Device Plugin、GPU设备隔离等操作,请参见配置及管理NVIDIA Device Plugin

版本差异

ack-nvidia-device-plugin组件随着集群版本的不同,其实现方式和管理策略如下表所示。

特性

1.32及以上集群版本

1.20至1.31间集群版本

部署方式

DaemonSet

Static Pod

管理方式

控制台组件管理

手动维护

节点标签要求

ack.node.gpu.schedule=default

无特殊要求

随节点池升级策略

手动升级

自动升级

若集群版本低于1.20,建议手动升级集群

变更记录

1.32及以上集群版本

2025年11月

版本号

镜像Tag

变更时间

变更内容

变更影响

v0.5.0

v0.18.0-ack-1.0-2ac7c6b3

2025年11月25日

  • 基于NVIDIA Device Plugin社区v0.18.0版本。

  • 支持开启GDRCopy能力。

  • 修复节点上Pod过多时,ack-nvidia-device-plugin探针超时而重启的问题。

此次升级不会对业务造成影响。

2025年09月

版本号

镜像Tag

变更时间

变更内容

变更影响

v0.4.0

v0.17.3-ack-1.0-b70733ec

2025年09月16日

此次升级不会对业务造成影响。

2025年07月

版本号

镜像Tag

变更时间

变更内容

变更影响

v0.3.0

v0.17.0-ack-1.0-678014dd

2025年07月14日

此次升级不会对业务造成影响。

2025年04月

版本号

镜像Tag

变更时间

变更内容

变更影响

v0.2.0

v0.17.0-49a827fd-aliyun

2025年04月29日

  • 基于NVIDIA Device Plugin社区v0.17.0版本。

  • 支持health check能力(检测间隔时间为5分钟),避免Device Plugin与kubelet GRPC连接中断导致节点上报GPU资源为0的问题。

  • 修复GPU卡故障情况下,不断重试创建GPU Pod问题。

  • 默认关闭节点出现XID后,进行设备隔离的能力。

此次升级不会对业务造成影响。

2024年12月

版本号

镜像Tag

变更时间

变更内容

变更影响

v0.1.0

v0.17.0-1-aliyun

2024年12月26日

基于NVIDIA Device Plugin社区v0.17.0版本。

此次升级不会对业务造成影响。

1.20至1.31间集群版本

2025年01月

镜像Tag

变更时间

变更内容

变更影响

v0.9.3-0dd4d5f5-aliyun

2025年01月16日

  • 默认开启节点出现XID后,进行设备隔离操作。

  • 更改resources.limitsresources.requests中cpu和memory的值。

此次升级不会对业务造成影响。

2024年04月

镜像Tag

变更时间

变更内容

变更影响

v0.9.1-576cfc77-aliyun

2024年04月08日

移除livenessProbe

此次升级不会对业务造成影响。

2024年04月

镜像Tag

变更时间

变更内容

变更影响

v0.9.1-3f942982-aliyun

2024年02月29日

增加livenessProbe

此次升级不会对业务造成影响。

2023年08月

镜像Tag

变更时间

变更内容

变更影响

v0.9.0-70671340-aliyun

2023年08月02日

修改resources.limits

此次升级不会对业务造成影响。

2021年04月

镜像Tag

变更时间

变更内容

变更影响

1.12

2021年04月01日

基于NVIDIA Device Plugin自定义GPU设备挂载逻辑。

此次升级不会对业务造成影响。