【产品变更】ACK GPU自动隔离功能变更通知
Apr 10, 2026
容器服务Kubernetes版影响时间
2026-05-14 开始灰度发布
变更内容和影响
为提升 GPU 异常处理能力的灵活性与可配置性,更好满足不同业务场景对 GPU 异常容忍度的差异化需求,容器服务 Kubernetes 版 ACK 将对 GPU 自动隔离机制进行优化。
变更内容
ACK 支持 GPU 异常检测与自动隔离能力。当检测到 GPU 异常时,可对异常 GPU 进行隔离,避免继续调度新负载到异常 GPU,降低对业务运行的影响。由于自动隔离并不等同于自动修复,您仍需对异常 GPU 进行修复或处理。自 ACK Node Problem Detector(简称ACK NPD)组件 1.2.35 版本及ACK NVIDIA Device Plugin组件 0.7.0 版本起,GPU 自动隔离的触发方式将由默认触发调整为按配置触发,具体如下:
ACK NPD 组件仅负责异常检测。
ACK NVIDIA Device Plugin 组件根据 ACK NPD 输出的异常检测报告,以及用户配置的“触发 GPU 自动隔离的检测项”,决定是否对异常 GPU 执行隔离。
在新版机制下,默认不会触发 GPU 自动隔离。如果您需要启用自动隔离,请根据业务需求自行配置触发隔离的检测项。
机制对比
旧版机制
ACK NPD组件检测到GPU异常时,生成GPU隔离文件,ACK NVIDIA Device Plugin组件将该文件中列出的所有 GPU 设备隔离,即默认在检测到特定异常后自动隔离GPU,用户可通过配置是否产生NVIDIA GPU 隔离文件,控制自动隔离功能的启停。
新版机制
ACK NPD组件检测到GPU异常时,生成异常检测报告,由 ACK NVIDIA Device Plugin 组件根据“异常检测报告”及用户配置的“触发 GPU 自动隔离的检测项”决定是否隔离GPU,ACK NVIDIA Device Plugin组件默认未配置任何触发隔离的检测项,即默认不会触发GPU自动隔离,用户可通过配置触发隔离的检测项,定义在检测到哪些异常后自动隔离异常GPU。
说明
为兼容旧版隔离机制,ACK NPD组件新版本仍会保留生成旧格式GPU隔离文件的行为,但新版 ACK NVIDIA Device Plugin组件已不再读取该文件,相关隔离行为完全由其自身的配置决定。
影响范围
新版机制仅适用于 Kubernetes 1.32 及以上版本 的 ACK 集群。
对于 Kubernetes 1.32 以下版本的集群,仍按照旧版机制执行 GPU 自动隔离。
不同组件版本组合下,GPU 自动隔离行为如下:
- ACK NPD 版本 < 1.2.24 时,不具备 GPU 异常检测能力。
- ACK NPD 版本≥ 1.2.24 且 ACK NVIDIA Device Plugin 版本< 0.7.0,按旧版机制执行GPU自动隔离行为。
- 1.2.24 ≤ ACK NPD版本 <1.2.35 且 ACK NVIDIA Device Plugin 版本 ≥ 0.7.0,GPU自动隔离功能不生效,其他功能正常。
说明:由于低版本 ACK NPD 不输出异常检测报告,新版 ACK NVIDIA Device Plugin 无法获取异常 GPU 信息,因此不会执行自动隔离。
- ACK NPD版本 ≥ 1.2.35 且 ACK NVIDIA Device Plugin 版本 ≥ 0.7.0,按新版机制执行GPU自动隔离行为。