升级公告

【产品变更】ACK GPU自动隔离功能变更通知

影响时间

2026-05-14 开始灰度发布

变更内容和影响

为提升 GPU 异常处理能力的灵活性与可配置性,更好满足不同业务场景对 GPU 异常容忍度的差异化需求,容器服务 Kubernetes 版 ACK 将对 GPU 自动隔离机制进行优化。

变更内容

ACK 支持 GPU 异常检测与自动隔离能力。当检测到 GPU 异常时,可对异常 GPU 进行隔离,避免继续调度新负载到异常 GPU,降低对业务运行的影响。由于自动隔离并不等同于自动修复,您仍需对异常 GPU 进行修复或处理。自 ACK Node Problem Detector(简称ACK NPD)组件 1.2.35 版本及ACK NVIDIA Device Plugin组件 0.7.0 版本起,GPU 自动隔离的触发方式将由默认触发调整为按配置触发,具体如下:

  • ACK NPD 组件仅负责异常检测。

  • ACK NVIDIA Device Plugin 组件根据 ACK NPD 输出的异常检测报告,以及用户配置的“触发 GPU 自动隔离的检测项”,决定是否对异常 GPU 执行隔离。

  • 在新版机制下,默认不会触发 GPU 自动隔离。如果您需要启用自动隔离,请根据业务需求自行配置触发隔离的检测项。

机制对比

  • 旧版机制

    ACK NPD组件检测到GPU异常时,生成GPU隔离文件,ACK NVIDIA Device Plugin组件将该文件中列出的所有 GPU 设备隔离,即默认在检测到特定异常后自动隔离GPU,用户可通过配置是否产生NVIDIA GPU 隔离文件,控制自动隔离功能的启停。

  • 新版机制

    ACK NPD组件检测到GPU异常时,生成异常检测报告,由 ACK NVIDIA Device Plugin 组件根据“异常检测报告”及用户配置的“触发 GPU 自动隔离的检测项”决定是否隔离GPU,ACK NVIDIA Device Plugin组件默认未配置任何触发隔离的检测项,即默认不会触发GPU自动隔离用户可通过配置触发隔离的检测项,定义在检测到哪些异常后自动隔离异常GPU。

说明

为兼容旧版隔离机制,ACK NPD组件新版本仍会保留生成旧格式GPU隔离文件的行为,但新版 ACK NVIDIA Device Plugin组件已不再读取该文件,相关隔离行为完全由其自身的配置决定。

影响范围

  • 新版机制仅适用于 Kubernetes 1.32 及以上版本 的 ACK 集群。

  • 对于 Kubernetes 1.32 以下版本的集群,仍按照旧版机制执行 GPU 自动隔离。

不同组件版本组合下,GPU 自动隔离行为如下:

  • ACK NPD 版本 < 1.2.24 时,不具备 GPU 异常检测能力。
  • ACK NPD 版本≥ 1.2.24 且 ACK NVIDIA Device Plugin 版本< 0.7.0,按旧版机制执行GPU自动隔离行为。
  • 1.2.24 ≤ ACK NPD版本 <1.2.35 且 ACK NVIDIA Device Plugin 版本 ≥ 0.7.0,GPU自动隔离功能不生效,其他功能正常。

    说明:由于低版本 ACK NPD 不输出异常检测报告,新版 ACK NVIDIA Device Plugin 无法获取异常 GPU 信息,因此不会执行自动隔离。

  • ACK NPD版本 ≥ 1.2.35 且 ACK NVIDIA Device Plugin 版本 ≥ 0.7.0,按新版机制执行GPU自动隔离行为。

应对建议

如果您希望使用新版“可配置自动隔离”能力,请完成以下操作:

1. 升级组件版本。

 &nbsp请确保ACK NPD组件版本 ≥ 1.2.35 且 ACK NVIDIA Device Plugin组件版本 ≥ 0.7.0。在组件灰度发布过程中,若在组件管理页面中未出现新版本,可提交工单申请加白。建议在业务低峰期执行升级操作。

组件升级请参考:

2. 配置自动隔离触发项。

 &nbsp根据您的业务需求配置触发自动隔离的检查项,具体操作请关注GPU异常检测与自动隔离文档更新。

3.(推荐)配置 GPU 异常告警。

 &nbsp建议您同时配置 GPU 异常告警,以便在异常上报后及时处理,避免异常 GPU 长时间未修复而影响业务运行。更多内容,请参见GPU或AI训练场景可观测最佳实践

请您结合业务实际情况,在升级组件前评估本次变更带来的影响,并完成相应调整,避免因隔离机制变化导致业务运行不符合预期。

如您有任何问题,可随时通过工单 或者服务热线与我们联系。