GPU Pod 容量予約の概要とスケジューリング設定 - ACS

Pod ベースの容量予約は、弾性サービスのリソース可用性を保証します。GPU Pod の容量予約は、クラスターにアタッチする必要はありません。予約を購入する際に、Pod 仕様、ゾーン、予約期間などのプロパティを指定します。これにより、ACS は指定された仕様の Pod を数分以内に起動できることを保証します。GPU Pod の容量予約は、リソースの可用性を確保し、従量課金の Pod よりもコスト効率が高いです。このトピックでは、GPU Pod の容量予約の特徴について説明します。

特徴

リソースの可用性：容量予約の有効期間中、システムはリソースを正常に起動できることを保証します。
コスト削減：Pod が起動すると、従量課金レートで課金されます。Pod が破棄されると、容量予約レートで課金されます。サービスのトラフィックに基づいて、Pod の起動と破棄の時間を柔軟に設定できます。
リソースの柔軟性：さまざまなビジネスニーズに合わせて、異なる仕様の GPU Pod 容量予約を作成できます。

説明

GPU Pod の容量予約は、BestEffort 計算能力タイプの Pod のリソースを保証しません。
GPU Pod の容量予約は、リージョンやタイプなど、予約のプロパティに一致する節約プランをサポートします。
GPU Pod の容量予約が正常に作成されるかどうかは、在庫の可用性によって決まります。

利用シーン

定期的なリアルタイムサービスのリソース需要：サービスのトラフィックが日次または週次で周期的なパターンを示し、タスクをリアルタイムで実行・完了する必要がある場合。例として、リアルタイム推論サービスが挙げられます。
突発的な高いリソース需要：サービスにリアルタイムコンピューティングの突発的な需要があり、ビジネスへの影響を防ぐために迅速なリソース配信とスケールアウトが必要な場合。例として、インターネットサービスのホットスポットイベントによってトリガーされるリソース需要が挙げられます。

課金例

GPU Pod の容量予約は、従量課金の課金方法を使用します。容量予約の有効期間中、料金には以下が含まれます：

未使用の容量予約に対する従量課金料金。
起動した Pod に対する従量課金料金。

この例では、2 つの GPU Pod 容量予約を購入し、2 つの従量課金 Pod (Pod1 と Pod2) を作成するシナリオを使用します。次の図は、各フェーズのプロセスと課金アルゴリズムを示しています。

フェーズ 1：容量予約の購入と作成

以下の操作を実行する前に、まず GPU 容量予約を有効化する必要があります。

Container Compute Service コンソールで、[容量予約] > [GPU 容量予約の作成] を選択し、パラメーターを設定してから [容量予約の作成] をクリックします。

設定項目	説明
[容量予約名]	容量予約のカスタム名。
予約タイプ	GPU カードタイプ。
リージョン	リソースを予約するリージョン。
ゾーン	リソースを予約するゾーン。
リソース仕様	容量予約の仕様。GPU の数を選択するだけで、システムはその GPU 数で利用可能な最高の CPU とメモリ仕様を自動的に照合します。
[予約方法]	Pod 予約 (変更不可)。
課金モード	従量課金 (変更不可)。
数量	この仕様の GPU Pod 容量予約の数。

このフェーズの料金アルゴリズムは次のとおりです：

フェーズ	料金	説明
フェーズ 1	なし	容量予約は作成されていません。

フェーズ 2〜6：容量予約の有効期間

有効期間中、予約構成を超えない限り、いつでも Pod インスタンスを作成できます。システムは Pod が正常に作成されることを保証し、対応する容量予約クォータを差し引きます。予約を適用するには、Pod の GPU (カードタイプと数量)、CPU、およびメモリが予約された仕様を超えてはなりません。一致が見つかった場合、予約全体が適用されます。たとえば、1 つの容量予約 (1 GPU、10 vCPU、80 GB メモリ) を購入し、1 GPU、1 vCPU、2 GB メモリの仕様で Pod を作成した場合、システムは容量予約全体を適用します。Pod が破棄されると、対応する GPU Pod 容量予約クォータが復元されます。

これらのフェーズの料金アルゴリズムは次のとおりです：

フェーズ	料金
フェーズ 2	2 × 容量予約単価 × フェーズ 2 の期間
フェーズ 3	1 × 容量予約単価 × フェーズ 3 の期間 + Pod1 の従量課金単価 × フェーズ 3 の期間
フェーズ 4	Pod1 の従量課金単価 × フェーズ 4 の期間 + Pod2 の従量課金単価 × フェーズ 4 の期間
フェーズ 5	1 × 容量予約単価 × フェーズ 5 の期間 + Pod2 の従量課金単価 × フェーズ 5 の期間
フェーズ 6	2 × 容量予約単価 × フェーズ 6 の期間

容量予約単価は、未使用の容量予約に対する従量課金料金です。Pod1 と Pod2 の従量課金単価は、Pod が起動した後に適用される標準の従量課金レートです。

フェーズ 7：容量予約の有効期限切れ

容量予約の有効期限が切れると、システムは自動的に GPU Pod 容量予約をリリースします。

利用可能なリソース予約タイプ

容量予約仕様のクォータを増やした後、容量予約は次のカードタイプと仕様をサポートします：

カードタイプ	GPU	vCPU	メモリ (GiB)
L20 (GN8IS)	1 (48 G GPU メモリ)	16	128
	2 (48 G × 2 GPU メモリ)	32	230
	4 (48 G × 4 GPU メモリ)	64	460
	8 (48 G × 8 GPU メモリ)	128	920
T4	1 (16 G GPU メモリ)	24	90
T4	2 (16 G × 2 GPU メモリ)	48	180
A10	1 (24 G GPU メモリ)	16	60
	2 (24 G × 2 GPU メモリ)	32	120
	4 (24 G × 4 GPU メモリ)	64	240
	8 (24 G × 8 GPU メモリ)	128	480
P16EN	1 (96 G GPU メモリ)	10	80
	2 (96 G × 2 GPU メモリ)	22	225
	4 (96 G × 4 GPU メモリ)	46	450
	8 (96 G × 8 GPU メモリ)	92	900
	16 (96 G × 16 GPU メモリ)	184	1800
GU8TF	1 (96 G GPU メモリ)	16	128
	2 (96 G × 2 GPU メモリ)	46	230
	4 (96 G × 4 GPU メモリ)	92	460
	8 (96 G × 8 GPU メモリ)	184	920
GU8TEF	1 (141 G GPU メモリ)	22	225
	2 (141 G × 2 GPU メモリ)	46	450
	4 (141 G × 4 GPU メモリ)	92	900
	8 (141 G × 8 GPU メモリ)	184	1800
L20X (GX8SF)	1 (141 G GPU メモリ)	22	225
	2 (141 G × 2 GPU メモリ)	46	450
	4 (141 G × 4 GPU メモリ)	92	900
	8 (141 G × 8 GPU メモリ)	184	1800

適用ルール

容量予約は、以下のすべての条件が満たされた場合にのみ適用されます：

Pod の GPU カードタイプが、予約されたカードタイプと完全に一致する。たとえば、予約されたカードタイプと Pod のカードタイプが両方とも L20 である場合。
GPU の数が、予約された構成と完全に一致する。たとえば、予約された GPU の数と Pod の GPU の数が両方とも 1 である場合。
Pod の vCPU 数 ≤ 予約された vCPU 数。
Pod のメモリ ≤ 予約されたメモリ。

以下のマッチングシナリオは、Pod のカードタイプが予約されたカードタイプと同じであることを前提としています：

控除ルール

シナリオの説明

結果と説明

完全一致または下位互換

予約：1 × (1 GPU、16 vCPU、128 GB)。

Pod 作成：1 × (1 GPU、8 vCPU、16 GB)。

結果： $✓$ 予約は正常に適用されます。

説明：Pod が必要とするリソース (GPU の数、CPU、メモリ) が予約された仕様を超えていないため、一致が見つかります。この Pod は容量予約全体を使用します。

最小仕様優先

予約：

1 × (1 GPU、10 vCPU、80 GB)。
1 × (1 GPU、16 vCPU、128 GB)。

Pod 作成：1 × (1 GPU、5 vCPU、30 GB)。

結果： $✓$ 1 GPU、10 vCPU、80 GB の仕様を持つ予約が最初に適用されます。

説明：リソース使用率を最大化するため、システムは Pod の要件に最も適合する最小の予約を優先します。

先入れ先出し (FIFO)

予約：4 × (1 GPU、10 vCPU、80 GB)、異なる時間に作成。

Pod 作成：4 × (1 GPU、5 vCPU、30 GB)。

結果： $✓$ 4 つの Pod は、予約の作成時間に基づいて時系列順に予約を使用します。

説明：同じ仕様の予約については、先入れ先出しの原則に従います。

マルチ GPU 仕様の原子性 (分割不可)

予約：1 × (4 GPU、46 vCPU、450 GB)。

Pod 作成：4 × (1 GPU、10 vCPU、60 GB)。

結果： $\times$ 予約は適用されません。

説明：マルチ GPU 予約は原子的な単位であり、複数のシングル GPU Pod に対応するために分割することはできません。これらの 4 つの Pod は、代わりに従量課金インスタンスとして作成されます。

混合仕様のマッチング

予約：

1 × (2 GPU、22 vCPU、225 GB)。
1 × (4 GPU、46 vCPU、450 GB)。

Pod 作成：

2 × (1 GPU、12 vCPU、60 GB)。
2 × (2 GPU、20 vCPU、120 GB)。

結果： $\times$ 2 GPU、20 vCPU、120 GB の仕様を持つ 1 つの Pod のみが、2 GPU、22 vCPU、225 GB の予約を正常に使用します。

説明：残りの Pod は残りの 4-GPU 予約に一致できず、代わりに従量課金インスタンスとして作成されます。

リアルタイム動的マッチング

既存の従量課金 Pod：1 × (1 GPU、5 vCPU、30 GB)

新規予約購入：1 × (1 GPU、10 vCPU、80 GB)

結果： $✓$ 新しい予約が正常に作成された後、既存の従量課金 Pod に即座に自動的に適用されます。

説明：容量予約は、予約の仕様に一致する既存の従量課金 Pod に適用できます。