すべてのプロダクト
Search
ドキュメントセンター

Function Compute:インスタンスタイプと使用モード

最終更新日:Jan 21, 2025

Function Computeは、CPUインスタンスとGPU高速化インスタンスを提供します。 両方のタイプのインスタンスは、オンデマンドモードとプロビジョニングモードで使用できます。 オンデマンドインスタンスは、実際の実行期間に基づいて課金されます。 オンデマンドインスタンスをインスタンス同時実行機能とともに使用して、リソース使用率を向上させることができます。 プロビジョニング済みインスタンスの課金は、Function Computeがプロビジョニング済みインスタンスを開始すると開始され、インスタンスをリリースすると終了します。 プロビジョニングされたインスタンスは、コールドスタートを効果的に軽減できます。 このトピックでは、function Computeの関数インスタンスのタイプ、使用モード、課金方法、および仕様について説明します。

インスタンスタイプ

  • CPUインスタンス: Function Computeの基本インスタンスタイプ。 CPUインスタンスは、トラフィックバーストまたは計算負荷の高いワークロードを伴うシナリオに適しています。

  • GPU高速化インスタンス: GPU高速化にAmpereアーキテクチャとTuringアーキテクチャを使用するインスタンス。 GPU高速化インスタンスは、主にオーディオおよびビデオ処理、AI、画像処理のシナリオで使用されます。 このタイプのインスタンスは、ワークロードをGPUハードウェアにオフロードすることでビジネスを加速します。

    次のトピックでは、さまざまなシナリオでのGPU高速化インスタンスのベストプラクティスについて説明します。

    重要
    • GPU高速化インスタンスは、コンテナイメージを使用してのみデプロイできます。

    • GPU高速化インスタンスを使用する場合は、DingTalkユーザーグループ64970014484に参加し、次の情報を提供して、テクニカルサポートをタイムリーに提供できるようにします。

      • 会社名などの組織名。

      • Alibaba CloudアカウントのID。

      • GPUアクセラレーションインスタンスを使用するリージョン。 例: 中国 (深セン) 。

      • 携帯電話番号、メールアドレス、DingTalkアカウントなどの連絡先情報。

インスタンスモード

GPU高速化インスタンスとCPUインスタンスの両方が、オンデマンドモードとプロビジョニングモードをサポートしています。 このセクションでは、2つの使用モードについて説明します。

オンデマンドモード

概要

オンデマンドインスタンスは、Function Computeによって割り当てられ、リリースされます。 Function Computeは、関数の呼び出し数に基づいてインスタンスを自動的にスケーリングします。 Function Computeは、関数の呼び出し数が増えるとインスタンスを作成し、関数の呼び出し数が減ると余分なインスタンスを破棄します。 オンデマンドインスタンスは、リクエストに応じて自動的に作成されます。 特定の期間 (通常は3〜5分) リクエストが送信されない場合、オンデマンドインスタンスは破棄されます。 初めてオンデマンドインスタンスを呼び出すと、コールドスタートが発生します。

デフォルトでは、各Alibaba Cloudアカウントは各リージョンで最大100インスタンスを実行できます。 クォータセンターコンソールの一般クォータページに表示される実際のクォータが優先されます。 クォータセンターコンソールでクォータを増やすことができます。

課金方法

オンデマンドインスタンスの課金は、リクエストが処理のためにインスタンスに送信されると開始され、リクエストが処理されると終了します。 オンデマンドインスタンスは、一度に1つ以上の要求を処理することができる。 詳細については、「web関数の作成」をご参照ください。

処理のためにリクエストが送信されない場合、インスタンスは割り当てられないため、料金は発生しません。 オンデマンドモードでは、関数が呼び出されたときにのみ課金されます。 料金と課金の詳細については、「課金の概要」をご参照ください。

説明

インスタンスのリソース使用率を向上させる場合は、ビジネス要件に基づいてインスタンスの同時実行を設定することを推奨します。 この場合、複数のタスクがインスタンス上のCPUリソースとメモリリソースをプリエンプティブに共有し、リソース使用率を向上させます。

インスタンスの同時実行数 = 1

実行時間の測定は、リクエストがインスタンスに到着すると開始され、リクエストの実行が完了すると終了します。

image

インスタンスの同時実行数 > 1

オンデマンドインスタンスの実行期間の測定は、最初のリクエストが受信されたときに開始され、最後のリクエストの実行が完了したときに終了します。 リソースを再利用して、コスト削減のために複数のリクエストを同時に処理できます。

image

プロビジョニング済みモード

概要

プロビジョニングモードでは、関数インスタンスの割り当てとリリースを管理できます。 プロビジョニングされたインスタンスは、リリースしない限り保持されます。 呼び出し要求は、プロビジョニングされたインスタンスに優先的に配信されます。 プロビジョニングされたインスタンスがリクエストを処理するのに十分でない場合、Function Computeは過剰なリクエストを処理するためにオンデマンドインスタンスを割り当てます。 プロビジョニング済みインスタンスを削除する方法の詳細については、「プロビジョニング済みインスタンスの設定」をご参照ください。

説明

コールドが大きな懸念事項の1つを開始する場合は、プロビジョニング済みインスタンスを使用することを推奨します。 固定数のプロビジョニング済みインスタンスを指定したり、リソース予算、ビジネスのトラフィック変動、リソース使用量のしきい値などの要因に基づいて、スケジュールされた自動スケーリングポリシーまたはメトリックベースのスケーリングポリシーを設定したりできます。 プロビジョニングされたインスタンスを使用すると、コールドスタートによるインスタンスの平均レイテンシが大幅に削減されます。

課金方法

  • アクティブインスタンス

    通常、リクエストを処理するインスタンスはアクティブインスタンスです。 プロビジョニングモードでは、アイドルモードを有効にしないと、インスタンスは常にアクティブになります。 これらのプロビジョニングされたインスタンスの課金は、インスタンスの割り当て時に開始され、インスタンスのリリース時に終了します。 したがって、インスタンスがリリースされておらず、アイドルモードが有効になっていない場合、プロビジョニングされたインスタンスは、リクエストを処理していない場合でも、アクティブモードの料金に基づいて課金されます。

    image
  • アイドルインスタンス

    プロビジョニングされたインスタンスの場合、アイドルモードが有効になった後にインスタンスでリクエストが実行されていない場合、インスタンスはアイドル状態になります。 アイドルモードを有効にすると、Function Computeはリクエストを処理していないプロビジョニング済みインスタンスのGPUまたはvCPUリソースをフリーズし、インスタンスはアイドル状態になります。この状態では、はるかに低い料金で課金されます。 詳細は、「CU変換係数」をご参照ください。

    次の図に示す例では、アイドルモードが有効になっており、プロビジョニング済みインスタンスの作成時にプロビジョニング済みインスタンスの課金が開始され、プロビジョニング済みインスタンスがリリースされると終了します。 プロビジョニングされたインスタンスがリクエストを処理していない場合、インスタンスはアイドル状態になります。 インスタンスは、リクエストの処理を開始するとアクティブ状態になります。 料金は、以下の式に基づいて計算される。料金=(総アイドルリソース使用量 × アイドルリソースの単価) + (総アクティブリソース使用量 × アクティブリソースの単価)

    image
    説明

    デフォルトでは、Function Compute 3.0は、プロビジョニングされたインスタンスのアイドルモードを有効にします。 Function Computeは、リクエストを処理していないプロビジョニング済みインスタンスのvCPUリソースを凍結します。 インスタンスがアイドル状態になると、コールドスタートもなくなり、新しいリクエストが到着したときにすぐにインスタンスが処理できるようになります。

インスタンス仕様

  • CPU高速化インスタンス

    次の表に、CPUインスタンスの仕様を示します。 ビジネス要件に基づいてインスタンス仕様を選択できます。

    vCPU

    メモリサイズ (MB)

    最大コードパッケージサイズ (GB)

    最大関数実行時間 (秒)

    最大ディスクサイズ (GB)

    最大帯域幅 (Gbit/s)

    0.05 ~ 16

    注:値は 0.05 の倍数とする必要があります。

    128 ~ 32768

    注:値は 64 の倍数とする必要があります。

    10

    86400

    10

    有効な値:

    • 512 4,000 MB です。 デフォルト値です。

    • 10 GBです。

    5

    説明

    vCPUとメモリ容量 (GB) の比率は1: Nです。Nは、1から4の範囲の値でなければならない。

  • GPU アクセラレーションインスタンス

    次の表に、GPUアクセラレーションインスタンスの仕様を示します。 ビジネス要件に基づいてインスタンス仕様を設定できます。

    説明

    fc.gpu.tesla.1 GPUインスタンスは、物理NVIDIA T4 GPUと基本的に同じgpuパフォーマンスを提供します。

    インスタンス仕様

    フル GPU サイズ (GB)

    フルGPUのコンピューティング能力 (TFLOPS)

    利用可能な仕様

    オンデマンドモード

    通常のプロビジョニングモード

    アイドル準備モード

    FP16

    FP32

    vGPU メモリ (MB)

    vGPUコンピューティングパワー (GPU)

    vCPU

    メモリサイズ (MB)

    fc.gpu.tesla.1

    16

    65

    8

    有効な値: 1024〜16384 (1 GB〜16 GB) 。

    注: 値は1024の倍数でなければなりません。

    値は、vGPU の計算能力 = vGPU メモリ (GB) / 16 で計算されます。 たとえば、vGPU メモリを 5 GB に設定した場合、vGPU の最大計算能力は 5 / 16 メモリカードです。

    計算能力は Function Compute によって自動的に割り当てられ、手動で割り当てる必要はありません。

    有効な値: vGPU memory (GB)/2の値に0.05します。

    注:値は 0.05 の倍数とする必要があります。 詳細については、このトピックの「GPU仕様」セクションをご参照ください。

    有効な値: [vGPU memory (GB) x 2048] の値に128されます。

    注:値は 64 の倍数とする必要があります。 詳細については、このトピックの「GPU仕様」セクションをご参照ください。

    対応

    対応

    対応

    fc.gpu.ada.1

    48

    119

    60

    49152 (48 GB)

    注:48 GB GPU メモリのみサポートされています。

    デフォルトでは、フルGPUのコンピュータパワーが割り当てられます。

    注:計算能力は Function Compute によって自動的に割り当てられ、手動で割り当てる必要はありません。

    有効な値:8

    注: 8コアvCPUのみがサポートされています。

    有効な値:65536

    注:64 GB メモリのみサポートされています。

    対応

    対応

    対応

    Function ComputeのGPU高速化インスタンスは、次のリソース仕様もサポートしています。

    画像サイズ (GB)

    最大関数実行時間 (秒)

    最大ディスクサイズ (GB)

    最大帯域幅 (Gbit/s)

    Container Registry Enterprise Edition (Standard Edition): 15

    Container Registry Enterprise Edition (Advanced Edition): 15

    Container Registry Enterprise Edition (Basic Edition): 15

    Container Registry Personal Edition (無料): 15

    86400

    10

    5

    説明
    • インスタンスタイプをg1に設定することは、インスタンスタイプをfc.gpu.tesla.1に設定することと同じです。

    • TeslaシリーズGPUのGPU高速化インスタンスは、中国 (杭州) 、中国 (上海) 、中国 (北京) 、中国 (張家口) 、中国 (深セン) 、日本 (東京) 、米国 (バージニア) 、シンガポールの各リージョンでサポートされています。

    • AdaシリーズGPUのGPU高速化インスタンスは、中国 (北京) 、中国 (杭州) 、中国 (上海) 、中国 (深セン) 、シンガポール、米国 (バージニア) の各リージョンでサポートされています。

GPU仕様

展開して詳細を表示します。fc.gpu.tesla.1.

vGPU メモリ (MB)

vCPU

最大メモリサイズ (GB)

メモリサイズ (MB)

1024

0.05 ~ 0.5

2

128 ~ 2048

2048

0.05 ~ 1

4

128 ~ 4096

3072

0.05 ~ 1.5

6

128 ~ 6144

4096

0.05 ~ 2

8

128 ~ 8192

5120

0.05 ~ 2.5

10

128 ~ 10240

6144

0.05 ~ 3

12

128 ~ 12288

7168

0.05 ~ 3.5

14

128 ~ 14336

8192

0.05 ~ 4

16

128 ~ 16384

9216

0.05 ~ 4.5

18

128 ~ 18432

10240

0.05 ~ 5

20

128 ~ 20480

11264

0.05 ~ 5.5

22

128 ~ 22528

12288

0.05 ~ 6

24

128 ~ 24576

13312

0.05 ~ 6.5

26

128 ~ 26624

14336

0.05 ~ 7

28

128 ~ 28672

15360

0.05 ~ 7.5

30

128 ~ 30720

16384

0.05 ~ 8

32

128 ~ 32768

GPUタイプとインスタンス同時実行性の関係

  • TeslaシリーズGPUの総メモリ容量は16 GBです。 GPU Memory Sizeパラメーターを1 GBに設定すると、このシリーズの1つのGPUで16個のGPUコンテナーを同時に実行できます。 デフォルトでは、リージョン内のGPUの総数は30に制限されています。 したがって、いつでも、リージョン内で最大480個のTeslaシリーズGPUコンテナを実行できます。

    • GPU関数のインスタンス同時実行性を1に設定すると、リージョン内の関数で最大480個の推論リクエストを同時に処理できます。

    • GPU関数のインスタンス同時実行性を5に設定すると、リージョン内の関数で最大2,400件の推論リクエストを同時に処理できます。

  • AdaシリーズのGPUのメモリ容量は48 GBで、GPUコンテナは1つだけです (GPU memory Sizeパラメーターは48 GBにのみ設定できます) 。 デフォルトでは、リージョン内のGPUの総数は30に制限されています。 したがって、どの時点でも、リージョン内で最大30個のAdaシリーズGPUコンテナを実行できます。

    • GPU関数のインスタンス同時実行性を1に設定すると、リージョン内の関数で最大30個の推論リクエストを同時に処理できます。

    • GPU関数のインスタンス同時実行性を5に設定すると、リージョン内の関数で最大150件の推論リクエストを同時に処理できます。

追加情報

  • 自動スケーリングルールを設定するときに、アイドルモードを有効にできます。 詳細は、「プロビジョニング済みインスタンスの設定」をご参照ください。

  • Function Computeの課金方法と課金可能項目の詳細については、「課金の概要」をご参照ください。

  • APIを呼び出して関数を作成する場合、instanceTypeパラメーターを使用してインスタンスタイプを指定できます。 詳細については、「CreateFunction」をご参照ください。

  • Function Computeコンソールでインスタンスタイプとインスタンス仕様を指定する方法の詳細については、「web関数の作成」をご参照ください。