本文主要介绍在激活GPU拓扑资源调度前,您需要安装的组件和部署的配置。

前提条件

  • 创建Kubernetes Pro集群。Kubernetes Pro集群的实例规格类型需要设置为异构计算GPU,其它操作配置,请参见创建ACK Pro版集群
    注意 目前仅支持Kubernetes Pro集群,如果是专有版集群,请提交工单申请白名单。
  • 通过kubectl连接Kubernetes集群。具体操作,请参见通过kubectl管理Kubernetes集群
  • 系统组件版本要求具体如下表所示。
    组件 版本要求
    Kubernetes 1.18.8及以上版本
    Helm 3.0及以上版本
    Nvidia 418.87.01及以上版本
    训练框架NCCL版本 2.7+
    Docker 19.03.5
    操作系统 CentOS 7.6、CentOS 7.7、Ubuntu 16.04和Ubuntu 18.04、Alibaba Cloud Linux 2
    显卡 V100

操作步骤

  1. 登录容器服务管理控制台
  2. 在控制台左侧导航栏中,选择市场 > 应用目录
  3. 应用目录页面的右上角名称文本框输入ack-ai-installer
  4. 应用目录-ack-ai-installer页面右侧的创建面板中,在集群列表框中选择目标集群,并单击创建image