ACK クラスターに ack-ai-installer コンポーネントをインストールして、トポロジー対応 GPU スケジューリングを有効にします。この機能は、GPU デバイスの物理トポロジーに基づいて、最適なトレーニング速度を提供するノード上の GPU の組み合わせを選択します。
事前準備
開始する前に、次の要件が満たされていることを確認してください。
インスタンスタイプが [Elastic GPU Service] に設定されたACK マネージドクラスター。
次のバージョンとオペレーティングシステムの要件を満たすクラスターノード。
バージョン要件
| コンポーネント | 必須バージョン |
|---|---|
| Kubernetes | 1.18.8 以降 |
| NVIDIA ドライバー | 418.87.01 以降 |
| NVIDIA Collective Communications Library (NCCL) | 2.7 以降 |
| GPU | V100 |
サポートされているオペレーティングシステム
CentOS 7.6、CentOS 7.7
Ubuntu 16.04、Ubuntu 18.04
Alibaba Cloud Linux 2、Alibaba Cloud Linux 3
Cloud-native AI Suite からのコンポーネントのインストール
ACK コンソールにログインします。左側のナビゲーションウィンドウで、クラスター をクリックします。
クラスター ページで、対象のクラスターを見つけてその名前をクリックします。
左側のナビゲーションウィンドウで、アプリケーション > Cloud-native AI Suite を選択します。
Cloud-native AI Suite ページで、デプロイ をクリックします。
[スケジューリング] セクションで、[スケジューリングポリシー拡張(バッチタスクのスケジューリング、GPU共有、トポロジー対応GPUスケジューリング)] を選択し、[Cloud-native AI スイートのデプロイ] をクリックします。パラメーターの詳細については、「Cloud-native AI スイートのインストール」をご参照ください。
Cloud-native AI Suite ページの コンポーネント リストに
ack-ai-installerが表示されていることを確認します。
注: Cloud-native AI Suite のコンポーネントをすでにインストールしている場合は、コンポーネント リストで ack-ai-installer操作 列の デプロイ をクリックします。次のステップ
コンポーネントをインストールした後、ワークロード向けにトポロジーを意識した GPU スケジューリングポリシーを設定します。詳細については、「GPU トポロジーを意識したスケジューリング」をご参照ください。