容器服务 Kubernetes 版 ACK - Pro 集群节点自愈功能支持 GPU 故障自愈
Jun 30 2025
容器服务 Kubernetes 版 ACKACK Pro 集群节点自愈功能支持 GPU 故障自愈,降低用户的运维成本。
适用客户
所有用户
新增功能/规格
通过增强节点池托管配置的节点自愈功能,对 GPU 软硬件异常提供全流程自动化的故障发现、通知告警、(GPU 卡及节点)自动隔离、及自动修复的能力,支持用户授权后再执行修复。该功能可减少 GPU 异常对业务的影响,并降低用户运维成本,授权机制可与用户业务平台结合。