ACK Edge クラスターのエッジノードプールを使用すると、オンプレミスの GPU リソースを管理できます。このトピックでは、ACK Edge クラスターのエッジノードプールに GPU ノードを追加する方法について説明します。
前提条件
-
ノードを追加する前に、GPU ドライバーをインストールする必要があります。サポートされているドライバーのバージョンについては、「ACK でサポートされている NVIDIA ドライバーのバージョン」をご参照ください。
制限事項
-
クラスターに十分なノードクォータがあることを確認してください。ノードを追加するには、[クォータセンター] でリクエストを送信してクォータを増やしてください。ACK Edge クラスターのクォータ制限の詳細については、「クォータと制限」をご参照ください。
-
GPU ノードを追加する場合、ノードは特定のドメイン名にアクセスする必要があります。ノードのセキュリティグループがこれらのドメイン名へのアクセスを許可していることを確認してください。詳細については、「ノード登録のためのドメイン名と IP CIDR ブロック」をご参照ください。
操作手順
バージョン 1.26 以降のクラスター
バージョン 1.26 以降、ACK Edge クラスターは NVIDIA GPU の登録時に GPU モデルを自動的に検出し、必要なコンポーネントをインストールします。`gpuVersion` パラメーターを設定する必要はありません。
GPU ノードの追加手順は、他のエッジノードの場合と同じです。詳細については、「エッジノードの追加」をご参照ください。
バージョン 1.26 以降の ACK Edge クラスターは、Tesla シリーズ、Hopper (H シリーズ)、Ada Lovelace (A シリーズ)、L シリーズなど、NVIDIA のすべての製品グレードの GPU をサポートしています。
バージョン 1.26 より前のクラスター
バージョン 1.26 より前の ACK Edge クラスターに GPU ノードを追加する場合、次のリストから GPU モデルを選択する必要があります。別の GPU モデルが必要な場合は、してください。
|
システムアーキテクチャ |
GPU モデル |
Edge Kubernetes クラスターバージョン |
|
AMD64/x86_64 |
Nvidia_Tesla_T4 |
≥1.16.9-aliyunedge.1 |
|
AMD64/x86_64 |
Nvidia_Tesla_P4 |
≥1.16.9-aliyunedge.1 |
|
AMD64/x86_64 |
Nvidia_Tesla_P100 |
≥1.16.9-aliyunedge.1 |
|
AMD64/x86_64 |
Nvidia_Tesla_V100 |
≥1.18.8-aliyunedge.1 |
|
AMD64/x86_64 |
Nvidia_Tesla_A10 |
≥1.20.11-aliyunedge.1 |
|
AMD64/x86_64 |
Nvidia_L40 |
≥1.26.3-aliyun.1 |
コンテナサービス管理コンソールにログインします。左側のナビゲーションウィンドウで、クラスターリスト をクリックします。
クラスターリスト ページで、対象クラスターの名前をクリックします。左側のナビゲーションウィンドウで、 をクリックします。
-
[ノードプール] ページで、管理するノードプールを見つけ、[操作] 列で
> [既存ノードの追加] を選択します。 -
[ノードの追加] ページで、手動で追加する をクリックして既存のインスタンスを追加します。
-
次 をクリックします。[インスタンス情報] ページで、ノード登録のパラメーターを設定します。パラメーターの詳細については、「パラメーターリスト」をご参照ください。
説明-
ノード登録スクリプトを生成する際に、
gpuVersionパラメーターを設定します。サポートされている GPU バージョンの詳細については、「制限事項」をご参照ください。 -
このパラメーターを設定すると、登録ツールは自動的に nvidia-containerd-runtime をインストールします。詳細については、「nvidia-containerd-runtime」をご参照ください。
-
-
設定が完了したら、次 をクリックします。追加成功 ページで コピー をクリックし、スクリプトをエッジノードに貼り付けて実行します。
次の図は、ノードが正常に追加されたことを示しています。

参考資料
-
エッジノードの追加中に問題が発生した場合は、「エッジノードの問題のトラブルシューティング」をご参照ください。
-
未使用のエッジノードを削除するには、「エッジノードの削除」をご参照ください。
-
クラウドとエッジ間のネットワークが切断された場合でもワークロードが安定して実行し続けられるようにエッジノードの自律運用を有効にするには、「エッジノードの自律性の設定」をご参照ください。