Alibaba Cloud Container Service for Serverless Kubernetes (ACS) クラスターの GPU-HPN 容量予約は、高性能ネットワーク (HPN) 上の GPU 計算能力をサポートするリソース予約の一種です。GPU-HPN 容量予約を ACS クラスター内の仮想ノードに関連付けることができます。これにより、GPU コンテナー計算能力のアフィニティベースのスケジューリングと計算リソースの効率的な使用が可能になります。このトピックでは、GPU-HPN 容量予約を作成し、それをクラスターに関連付ける方法について説明します。
背景情報
ACS クラスターではノードを管理する必要はありません。ただし、ネイティブ Kubernetes との互換性を維持するために、仮想ノードはクラスター内で引き続き表示されます。仮想ノードは大量の計算リソースを提供し、これにより ACS クラスターはサービストラフィックの急増に対応するための高い弾力性を持ちます。デフォルトの仮想ノードは、acs-profile ConfigMap 内の vSwitchIds に基づいて生成され、計算リソースを消費しません。
GPU-HPN 容量予約について
GPU-HPN 容量予約は現在、サブスクリプション課金方法のみをサポートしています。予約が成功すると、リソースはサブスクリプション期間中ずっと利用可能です。一度に複数のインスタンスを予約した場合、それらを複数のクラスターに同時に関連付けることができます。予約されたノードは、異なる数量と仕様の Pod インスタンスとして割り当てることができます。たとえば、GPU カード間の分散通信に HPN を必要とする大規模モデルのトレーニングやファインチューニングなどのシナリオでは、GPU-HPN 容量予約により、GPU カード全体に基づいた課金控除が可能になります。カードの数は Pod 仕様によって決定され、CPU とメモリのサイズに制約はありません。
課金と制限
容量予約は秒単位で課金され、従量課金標準に従います。容量予約の課金サイクルは次のとおりです。
課金開始: 予約が正常に作成され、そのステータスがアクティブに変わると課金が開始されます。
課金終了: 予約された容量の有効期限が切れて自動的にリリースされると、課金は停止します。
GPU-HPN 容量予約を有効にするには、チケットを送信する必要があります。
ACS クラスターは、同じ GPU リソースタイプの容量予約控除のみをサポートします。異なるタイプの GPU カードを購入した場合、それらのコストを相殺することはできません。ACS は、購入したカードタイプの価格に基づいて課金します。
GPU-HPN 容量予約からのノードは、計算タイプが 高性能ネットワーク GPU (
gpu-hpn) に設定されている Pod のみで使用できます。
GPU-HPN 容量予約の作成
ACS コンソールにログインします。左側のナビゲーションウィンドウで、[Resource Management] をクリックします。
[容量予約] ページで、[GPU-HPN リソース予約の作成] をクリックし、次の情報を入力します。
設定項目
説明
リージョン
リソース予約が配置されるリージョンを選択します。
ゾーン
リソース予約が配置されるゾーンを選択します。
フォーム
現在、[インスタンス] のみがサポートされています。
分類
現在、[GPU] のみがサポートされています。
HPN ゾーン
リソース予約が配置される HPN ゾーンを選択します。
ノードタイプ
コンソールに表示されるオプションをご参照ください。
サブスクリプション期間
1 か月、1 年、3 年。
頭金比率 (%)
0% の頭金。購入後すぐにサービスを使用できます。
割引情報
サブスクリプション期間によって異なります。1 か月のサブスクリプションには [割引なし] が適用されます。1 年間のサブスクリプションには [12 か月の一括購入割引] があります。3 年間のサブスクリプションには [36 か月の一括購入割引] があります。
課金サイクル
[月単位]。
分割払い回数
サブスクリプション期間によって異なります。たとえば、1 か月のサブスクリプションには [1 回の分割払い] があり、1 年間のサブスクリプションには [12 回の分割払い] があります。
数量
購入するインスタンスの数。
構成が完了したら、[今すぐ購入] をクリックします。[注文の確認] ページで、[支払いに進む] をクリックします。支払いページで、[注文] をクリックして購入を完了します。
クラスターの関連付け
ACS コンソールにログインします。左側のナビゲーションウィンドウで、[Resource Management] をクリックします。
[容量予約] ページで、クラスターに関連付ける容量予約を見つけます。予約のステータスバーで、[クラスターの関連付け] をクリックします。
重要関連付けできるのは、ACS クラスター、ACK マネージドクラスター、ACK One 登録済みクラスター、および ACK One 分散ワークフロー Argo クラスターのみです。他のクラスタータイプはサポートされていません。
[リソースの関連付け] ダイアログボックスで、クラスター ID と関連付けるインスタンスの数を選択または入力します。次に、[確認] をクリックします。
重要[リソースの関連付け] ダイアログボックスの [クラスターの関連付け] ドロップダウンリストには、ACS クラスターと ACK マネージドクラスターの ID のみが表示されます。ACK One 登録済みクラスターおよび ACK One 分散ワークフロー Argo クラスターの場合は、クラスター ID を直接入力する必要があります。

GPU-HPN 容量予約で割り当てられたリソースのクエリ
GPU-HPN 容量予約は、クラスター内の Kubernetes ノードとして表されます。kubectl ツールを使用して、ノードの割り当て済みリソースを表示できます。
次のコマンドを実行して、そのラベルで GPU-HPN ノードを表示します。
kubectl get node -l alibabacloud.com/node-type=reserved期待される出力:
NAME STATUS ROLES AGE VERSION cn-wulanchabu-c.cr-rkccqmu0xz8rea1***** Ready agent 20m v1.28.3-aliyun次のコマンドを実行して、GPU-HPN 容量予約で割り当てられたリソースをクエリします。コマンド内のノード名を、前のステップで取得した GPU-HPN ノード名に置き換えます。
kubectl describe node cn-wulanchabu-c.cr-rkccqmu0xz8rea1***** | grep Allocated -A 10期待される出力:
Allocated resources: (Total limits may be over 100 percent, i.e., overcommitted.) Resource Requests Limits -------- -------- ------ cpu 16 (8%) 16 (8%) memory 128Gi (7%) 128Gi (7%) ephemeral-storage 30Gi (0%) 30Gi (0%) nvidia.com/gpu 1 1 Events: <none>5 行目から 8 行目は、それぞれ CPU、メモリ、エフェメラルストレージ、および GPU の割り当て量と割り当て率を示しています。