Container Service for Kubernetes (ACK) Edge クラスタは、エッジノードプール内のオンプレミス GPU リソースの管理を容易にします。このトピックでは、ACK Edge クラスタのエッジノードプールに GPU アクセラレーションノードを追加する方法について説明します。
前提条件
ノードを追加する前に、GPU ドライバーがクラスタにインストールされていること。ドライバーバージョンの詳細については、「ACK でサポートされている NVIDIA ドライバーバージョン」をご参照ください。
制限事項
クラスタに十分なノードクォータがあることを確認してください。さらにノードを追加する必要がある場合は、クォータの増加をリクエスト してください。ACK Edge クラスタのクォータ制限の詳細については、「クォータと制限」をご参照ください。
GPU アクセラレーションノードを追加する場合、一部のエンドポイントへのアクセスが必要です。ノード側でセキュリティグループを設定して、制限を削除し、このアクセスを許可する必要があります。詳細については、「エッジノードアクセスのためのドメイン名と IP ルーティングネットワークセグメントの設定」をご参照ください。
手順
Kubernetes 1.26 以降
NVIDIA GPU を搭載した GPU アクセラレーションノードを、Kubernetes 1.26 以降を実行する ACK Edge クラスタ に追加する場合、gpuVersion パラメーターを設定する必要はありません。システムは GPU モデルを自動的にチェックし、関連コンポーネントをインストールします。
GPU アクセラレーションノードを追加する手順は、エッジノードを追加する手順と似ています。詳細については、「エッジノードの追加」をご参照ください。
Kubernetes 1.26 以降を実行する ACK Edge クラスタ は、Tesla、Hopper、Ada Lovelace、L など、NVIDIA が提供するすべてのシリーズの本番グレード GPU をサポートしています。
Kubernetes 1.26 より前のバージョン
GPU アクセラレーションノードを Kubernetes 1.26 より前のバージョンを実行する ACK Edge クラスタ に追加する場合、GPU モデルは次の表の要件を満たしている必要があります。次の要件を満たしていない GPU モデルを使用する場合は、チケットを送信 してください。
OS アーキテクチャ | GPU モデル | Kubernetes バージョン |
AMD64/x86_64 | Nvidia_Tesla_T4 | ≥1.16.9-aliyunedge.1 |
AMD64/x86_64 | Nvidia_Tesla_P4 | ≥1.16.9-aliyunedge.1 |
Nvidia_Tesla_P100 | ≥1.16.9-aliyunedge.1 | |
AMD64/x86_64 | Nvidia_Tesla_V100 | ≥1.18.8-aliyunedge.1 |
AMD64/x86_64 | Nvidia_Tesla_A10 | ≥1.20.11-aliyunedge.1 |
AMD64/x86_64 | Nvidia_L40 | ≥1.26.3-aliyun.1 |
ACK コンソール にログインします。左側のナビゲーションウィンドウで、[クラスタ] をクリックします。
[クラスタ] ページで、管理するクラスタを見つけ、その名前をクリックします。左側のナビゲーションウィンドウで、 を選択します。
[ノードプール] ページで、ターゲットノードプールの右側にある列の [操作] をクリックし、
> [既存のノードの追加] を選択します。既存の ECS インスタンスの追加ページで、方法として [手動] を選択し、既存のインスタンスを選択します。
[次のステップ] をクリックして、[インスタンス情報の指定] ステップに進みます。ノードの追加に使用するパラメーターを設定できます。パラメーターの詳細については、「パラメーターリスト」をご参照ください。
説明ノードをクラウドに接続するには、スクリプトで
gpuVersionパラメーターを設定する必要があります。サポートされている GPU モデルの詳細については、「制限事項」をご参照ください。パラメーターを設定した後、接続ツールは nvidia-containerd-runtime を自動的にインストールします。詳細については、nvidia-containerd-runtime をご参照ください。
パラメーターを設定した後、[次へ][ステップ] をクリックします。[完了] ステップで、[コピー] をクリックして、追加するエッジノードにスクリプトをコピーします。次に、ノードでスクリプトを実行します。
次の結果が返された場合、ノードはクラスタに追加されます。

関連情報
エッジノードの追加時に問題が発生した場合は、「エッジノードの問題の診断」をご参照ください。
エッジノードの削除方法の詳細については、「エッジノードの削除」をご参照ください。
ACK Edge クラスタは、エッジノードの自律性をサポートしています。エッジノードの自律性により、エッジノードがクラウドから切断されている場合でも、エッジノード上のアプリケーションは想定どおりに実行できます。詳細については、「エッジノードの自律性の設定」をご参照ください。