CPU と GPU インスタンスタイプと仕様 - FC - Alibaba Cloud - Function Compute

Function Compute の汎用コンピューティングシナリオ (Web サービスやデータ処理など) では、通常、基本的な CPU インスタンスで十分です。ただし、オーディオ・ビデオ処理、人工知能 (AI) 推論、画像編集など、大規模な並列計算やディープラーニングを必要とするシナリオでは、GPU インスタンスを使用することで計算効率を大幅に向上させることができます。

インスタンスタイプと仕様を選択して、リソース使用率、パフォーマンス、安定性のバランスを取ることができます。

インスタンスタイプの選択

CPU 関数は Elastic インスタンスのみをサポートします。GPU 関数は 3 種類のインスタンスタイプをサポートしており、サービスを中断することなくいつでも切り替えることができます。

選択ガイド

以下の質問を参考にして、適切なインスタンスタイプを見つけてください。

ワークロードは遅延の影響を受けやすく、インタラクティブですか？ たとえば、リアルタイムチャットボットや画像生成 API などです。その場合は、プロビジョニング済みインスタンスを使用してコールドスタートをなくし、応答時間を保証します。
トラフィックは予測可能なベースラインに従い、時折スパイクが発生しますか？ その場合は、ハイブリッドモード (プロビジョニング済み + Elastic インスタンス) を使用して、安定したベースライン容量を維持しながらトラフィックのバーストに対応します。
トラフィックは変動が激しい、バースト的、または低頻度ですか？ その場合は、Elastic インスタンスを使用し、アクティブな使用量に対してのみ料金を支払います。

インスタンスタイプの比較

	Elastic インスタンス	プロビジョニング済みインスタンス	プロビジョニング済み + Elastic (ハイブリッドモード)
適用対象	CPU 関数 (唯一のオプション)、GPU 関数	GPU 関数のみ	GPU 関数のみ
コールドスタート	最小インスタンス数が 0 の場合に発生します。最小インスタンス数を 1 以上に設定してリソースを事前割り当てし、コールドスタートを削減します。	なし。割り当てられた容量内のすべてのリクエストはリアルタイムで応答されます。	部分的。プロビジョニング済みプール内のリクエストにはコールドスタートはありませんが、スケールアウトする Elastic インスタンスには発生します。
課金モデル	従量課金	サブスクリプション	サブスクリプション (プロビジョニング済み部分) + 従量課金 (Elastic 部分)
最適な用途	変動が激しい、または低頻度のトラフィック、コスト重視のワークロード	遅延の影響を受けやすい、または安定したトラフィックのワークロード	予測可能なベースラインと予測不可能なトラフィックバーストを持つワークロード

Elastic インスタンス

Elastic インスタンスはリクエスト量に応じて自動的にスケーリングし、アイドル状態になるとリリースされます。最小インスタンス数を 0 に設定すると、完全な従量課金モデルとなり、アクティブな使用量に対してのみ料金が発生します。

コールドスタートの動作： コールドスタートは、インスタンスがゼロからスケールアップする際に発生します。コールドスタートの遅延を減らすには、最小インスタンス数を 1 以上に設定します。これにより、Elastic リソースが事前割り当てされ、インスタンスが受信リクエストを迅速に処理できるようになります。

課金： コストには、アクティブ状態と Shallow Hibernation 状態の両方のインスタンスの料金が含まれます。Shallow Hibernation では、vCPU リソースは課金されず、GPU リソースはアクティブ料金の 5 分の 1 で課金されます。最小インスタンス数を 1 以上に設定する場合は、Shallow Hibernation を有効にしてアイドルコストを削減してください。

次のような場合に Elastic インスタンスを使用します：

トラフィックが変動しやすい、バースト的、または低頻度である場合
実際の使用量に対してのみ支払いたい場合
ワークロードが時折発生するコールドスタートの遅延を許容できる場合 (または最小インスタンス数でそれを緩和する場合)

プロビジョニング済みインスタンス

プロビジョニング済みインスタンスは GPU 関数にのみ適用されます。事前にプロビジョニング済みリソースプールを購入し、特定の数とタイプのインスタンスを関数に割り当てます。これにより、割り当てられた容量内でのコールドスタートがなくなり、予測可能で固定のコストが実現します。

月額のプロビジョニング済みリソースプールを購入すると、プラットフォームは追加料金なしで追加のブーストインスタンスクォータを提供します。月額のプロビジョニング済みリソースプールを購入すると、プラットフォームはサブスクリプションベースのプロビジョニング済みインスタンスに加えて、一定のクォータのブーストインスタンスを割り当てます。このブーストインスタンスクォータは課金されません。

コールドスタートの動作： なし。割り当てられた容量内のすべてのリクエストはリアルタイムで応答されます。最大同時リクエスト数 = (割り当てられたプロビジョニング済みインスタンス数) × (インスタンスの同時実行数) + ブーストインスタンスクォータ+ ブーストインスタンスクォータ。この上限を超えるリクエストはスロットリングされます。

課金： 購入したすべてのプロビジョニング済みリソースプールの合計サブスクリプション料金。ブーストインスタンスは課金されません。。ブーストインスタンスクォータは課金されません

プロビジョニング済みインスタンスは、Ada、Ada.2、Ada.3、Hopper、または Xpu.1 シリーズの GPU 関数でのみ利用可能です。

次のような場合にプロビジョニング済みインスタンスを使用します：

ワークロードが遅延の影響を受けやすく、インタラクティブである場合 (例：リアルタイムチャットボットや画像生成 API)
トラフィックが安定しており、予測可能である場合
保証された容量と一貫した応答時間が必要な場合

プロビジョニング済み + Elastic インスタンス (ハイブリッドモード)

ハイブリッドモードは GPU 関数にのみ適用されます。プロビジョニング済みインスタンスと Elastic インスタンスを組み合わせたもので、プロビジョニング済みプールがまず定常トラフィックを処理し、リクエストがプロビジョニング済み容量を超えると Elastic インスタンスが自動的にスケールアウトします。これにより、突然のトラフィックバーストに対応できる柔軟性を備えた、保証されたベースラインが得られます。

コールドスタートの動作： 部分的。プロビジョニング済みプール内で処理されるリクエストにはコールドスタートはありません。新しい Elastic インスタンスへのオートスケーリングをトリガーするリクエストでは、コールドスタートが発生します。

課金： プロビジョニング済み部分は、購入したプロビジョニング済みリソースプールのクォータに対して課金されます。プロビジョニング済みクォータを超えて起動された Elastic インスタンスは、アクティブおよび Shallow Hibernation の Elastic インスタンスと同じレートで従量課金制で課金されます。

次のような場合にハイブリッドモードを使用します：

トラフィックに予測可能なベースラインがあるが、時折スパイクが発生する場合
通常の負荷に対して安定したパフォーマンスを確保しつつ、バーストトラフィックに対応できる能力が必要な場合
コストの予測可能性とスケーリングの柔軟性のバランスが必要な場合

インスタンスの仕様

CPU インスタンス

vCPU (コア)

メモリサイズ (MB)

最大コードパッケージサイズ (GB)

最大関数実行時間 (秒)

最大ディスクサイズ (GB)

最大帯域幅 (Gbps)

0.05～16

注意：値は 0.05 の倍数である必要があります。

128～32768

注意：値は 64 の倍数である必要があります。

86400

有効値：

512 MB。これはデフォルト値です。
10 GB。

説明

vCPU とメモリサイズ (GB 単位) の比率は 1:1 から 1:4 の間でなければなりません。

GPU インスタンスのハードウェア概要

インスタンスタイプ	GPU メモリ	FP16 計算能力	FP32 計算能力	インスタンスあたりの最大カード数
fc.gpu.tesla.1	16 GB	65 TFLOPS	8 TFLOPS	4 カード
fc.gpu.ampere.1	24 GB	125 TFLOPS	31.2 TFLOPS	8 カード
fc.gpu.ada.1	48 GB	119 TFLOPS	60 TFLOPS
fc.gpu.ada.2	24 GB	166 TFLOPS	83 TFLOPS
fc.gpu.ada.3	48 GB	148 TFLOPS	73.5 TFLOPS
fc.gpu.hopper.1	96 GB	148 TFLOPS	44 TFLOPS
fc.gpu.hopper.2	141 GB	148 TFLOPS	44 TFLOPS
fc.gpu.blackwell.1	32 GB	104.8 TFLOPS	104.8 TFLOPS
fc.gpu.xpu.1	96 GB	123 TFLOPS	61.5 TFLOPS	16 カード

GPU インスタンスの vCPU とメモリ構成

説明

マルチカードリソースの計算：合計 vCPU = カードあたりの vCPU × カード数、合計メモリ = カードあたりのメモリ × カード数。

インスタンスタイプ	vCPU (カードあたり)	メモリ範囲 (カードあたり)	メモリ増分
fc.gpu.tesla.1	4 コア	4 GB～16 GB (4096～16384 MB)	4 GB (4096 MB)
	8 コア	8 GB～32 GB (8192～32768 MB)
	16 コア	16 GB～64 GB (16384～65536 MB)
fc.gpu.ampere.1	8 コア	8 GB～32 GB (8192～32768 MB)
fc.gpu.ampere.1	16 コア	16 GB～64 GB (16384～65536 MB)
fc.gpu.ada.1 fc.gpu.ada.2 fc.gpu.ada.3	4 コア	16 GB～32 GB (16384～32768 MB)
	8 コア	32 GB～64 GB (32768～65536 MB)
	16 コア	64 GB～120 GB (65536～122880 MB)
fc.gpu.hopper.1	4 コア	16 GB～32 GB (16384～32768 MB)
	8 コア	32 GB～64 GB (32768～65536 MB)
	16 コア	64 GB～96 GB (65536～98304 MB)
	24 コア	96 GB～120 GB (98304～122880 MB)
fc.gpu.hopper.2	4 コア	16 GB～32 GB (16384～32768 MB)
	8 コア	32 GB～64 GB (32768～65536 MB)
	16 コア	64 GB～128 GB (65536～131072 MB)
	24 コア	96 GB～248 GB (98304～253952 MB)
fc.gpu.blackwell.1	4 コア	16 GB～32 GB (16384～32768 MB)
	8 コア	32 GB～64 GB (32768～65536 MB)
	16 コア	64 GB～120 GB (65536～122880 MB)
	24 コア	96 GB～184 GB (98304～188416 MB)
fc.gpu.xpu.1	4 コア	16 GB～48 GB (16384～49152 MB)
	8 コア	32 GB～96 GB (32768～98304 MB)
	12 コア	48 GB～120 GB (49152～122880 MB)

GPU インスタンスは、以下のリソース仕様もサポートしています。

イメージサイズ (GB)

最大関数実行時間 (秒)

ディスクサイズ

最大帯域幅 (Gbps)

ACR Enterprise Edition (Standard Edition): 15

ACR Enterprise Edition (Premium Edition): 15

ACR Enterprise Edition (Basic Edition): 15

ACR Personal Edition (Free): 15

86400

512 MB
10 GB から 200 GB まで、10 GB 単位

説明

インスタンスタイプを g1 に設定することは、fc.gpu.tesla.1 に設定することと同じです。
Tesla シリーズの GPU インスタンスは、中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (深セン)、日本 (東京)、米国 (バージニア)、シンガポールの各リージョンでサポートされています。
Ada シリーズの GPU インスタンスは、中国 (北京)、中国 (杭州)、中国 (上海)、中国 (深セン)、シンガポール、米国 (バージニア) の各リージョンでサポートされています。

GPU インスタンスの仕様とインスタンスの同時実行数の関係

Ada.1 GPU のメモリは 48 GB、Tesla シリーズ GPU のメモリは 16 GB です。Function Compute は、GPU カードの全メモリを単一の GPU コンテナに割り当てます。デフォルトの GPU カードクォータはリージョンあたり最大 30 であるため、そのリージョンでは最大 30 の GPU コンテナが同時に実行できます。

GPU 関数のインスタンス同時実行数が 1 の場合、その関数はリージョン内で最大 30 の推論リクエストを同時に処理できます。
GPU 関数のインスタンス同時実行数が 5 の場合、その関数はリージョン内で最大 150 の推論リクエストを同時に処理できます。

単一インスタンスの同時実行数

リソース使用率を向上させるために、アプリケーションのリソース要件に基づいて単一インスタンスの同時実行数を設定できます。この構成では、複数のタスクが単一のインスタンス上で実行され、CPU とメモリリソースを共有することで、全体的なリソース使用率が向上します。詳細については、「インスタンスの同時実行数の設定」をご参照ください。

単一インスタンス、単一同時実行数の実行時間

インスタンスが単一のリクエストを実行する場合、実行時間はリクエストがインスタンスに到着した時点からリクエストの実行が完了するまでの時間で測定されます。

単一インスタンス、複数同時実行数の実行時間

インスタンスが複数のリクエストを同時に実行する場合、実行時間は最初のリクエストがインスタンスに到着した時点から最後のリクエストが完了するまでの時間で測定されます。このリソースの再利用により、コストを節約できます。

参照情報

Function Compute の課金方法と課金項目の詳細については、「課金概要」をご参照ください。
API を使用して関数を作成する場合、instanceType パラメーターを使用してインスタンスタイプを指定できます。詳細については、「CreateFunction」をご参照ください。
コンソールでインスタンスタイプと仕様を指定する方法については、「関数の作成」をご参照ください。