异构计算集群概述 - 容器服务 Kubernetes 版 ACK

阿里云容器服务 Kubernetes 版ACK支持对各种异构计算资源进行统一调度和运维管理，能够显著提高异构计算集群资源的使用效率。本文介绍ACK支持的异构计算集群。

异构计算集群介绍

阿里云ACK支持对GPU、ASIC和RDMA异构资源进行统一调度和运维管理，提高集群资源的使用效率。ACK支持的异构计算集群及具体功能如下。

异构资源	功能描述
GPU	ACK支持创建带有T4、P100、V100等市场主流GPU卡的集群。支持以GPU卡为单位申请集群GPU资源。支持基于GPU指标实现弹性伸缩。支持共享GPU调度和算力隔离。阿里云自研的GPU共享调度技术可以将多个模型推理应用同时运行在同一GPU上，从而显著降低成本。借助阿里云自主研发的cGPU方案，在无需修改应用容器的前提下，提供GPU显存和算力的隔离能力，提高应用的稳定性，支持的GPU设备分配策略如下：单Pod单GPU卡共享：常用于模型推理场景。单Pod多GPU卡共享：常用于分布式训练开发。 Binpack分配策略：多个Pod会优先共享使用同一GPU卡，适用于需要提升GPU卡利用率的场景。 Spread分配策略：多个Pod会尽量分散使用不同GPU卡，适用于GPU高可用场景。支持GPU拓扑感知调度功能：通过Node节点获取异构计算资源的拓扑结构，调度器端基于节点的拓扑信息，完成调度决策，为NVLINK、PCIe Switch、QPI和RDMA NIC提供最佳的调度选择，实现最优的运行性能。支持GPU资源监控：提供节点和应用视角的监控指标，设备（软硬件）异常自动检测和告警，支持独占GPU和共享GPU场景。
ASIC	ACK支持创建带有NETINT ASIC设备的集群，支持以单张NETINT ASIC卡为单位申请集群资源。
eRDMA	ACK支持创建带有eRDMA设备的集群。支持通过Arena提交使用eRDMA设备的分布式深度学习训练任务。支持对网络带宽有高要求的任务，如分布式深度学习训练任务等。

ACK支持的GPU实例规格

ACK支持多种GPU计算型实例规格族。如需在ACK集群中添加GPU节点，您需在下方列举的ECS实例规格族中选择。

暂不支持机密计算实例，即实例规格中带有-tee字段，如ecs.gn8v-tee.4xlarge等。

说明

ACK目前不支持在控制台选择vGPU实例作为集群节点，详情请参见阿里云容器服务是否支持GPU虚拟化型（vGPU）实例？。

ACK支持的ASIC实例规格

如需在ACK集群中添加ASIC节点，您可以选择实例规格ecs.video-trans.26xhevc。

ACK支持的eRDMA实例规格

ACK支持多种eRDMA计算型实例规格族，您可在下方列举的ECS实例规格族中进行选择。更多详情，请参见在企业级实例上启用eRDMA及在GPU实例上启用eRDMA。