トポロジー対応 GPU スケジューリングを有効にする前に、トポロジー対応 GPU スケジューリングコンポーネントをインストールして構成する必要があります。このトピックでは、トポロジー対応 GPU スケジューリングコンポーネントをインストールし、クラスターに対してトポロジー対応 GPU スケジューリングを有効にする方法について説明します。
前提条件
Container Service for Kubernetes (ACK) コンソールで、[エラスティック GPU サービス] に設定されたインスタンスタイプを使用して ACK マネージドクラスターが作成されている こと。
システムコンポーネントのバージョンが以下の要件を満たしていること。
コンポーネント
バージョン
Kubernetes
1.18.8 以降
Nvidia
418.87.01 以降
NVIDIA Collective Communications Library (NCCL)
2.7+
オペレーティングシステム
CentOS 7.6
CentOS 7.7
Ubuntu 16.04
Ubuntu 18.04
Alibaba Cloud Linux 2
Alibaba Cloud Linux 3
GPU
V100
手順
ACK コンソール にログインします。左側のナビゲーションウィンドウで、[クラスター] をクリックします。
[クラスター] ページで、管理するクラスターを見つけ、その名前をクリックします。左側のナビゲーションウィンドウで、 を選択します。
[クラウドネイティブ AI スイート] ページで、[デプロイ] をクリックします。
表示されるページの [スケジューリング] セクションで、[スケジューリングポリシー拡張 (バッチタスクスケジューリング、GPU 共有、トポロジー対応 GPU スケジューリング)] を選択し、下部にある [クラウドネイティブ AI スイートのデプロイ] をクリックします。パラメーターの詳細については、「クラウドネイティブ AI スイートをインストールする」をご参照ください。
デプロイ後、インストールされているトポロジー対応 GPU スケジューリングコンポーネント
ack-ai-installerが [コンポーネント] リストに表示されます。説明クラウドネイティブ AI スイートのコンポーネントをインストール済みの場合は、コンポーネントリストで ack-ai-installer を見つけ、[アクション] 列の [デプロイ] をクリックしてコンポーネントをインストールします。