すべてのプロダクト
Search
ドキュメントセンター

Function Compute:インスタンスタイプと仕様

最終更新日:Mar 22, 2026

Function Compute の汎用コンピューティングシナリオ (Web サービスやデータ処理など) では、通常、基本的な CPU インスタンスで十分です。しかし、音声・動画処理、人工知能 (AI) 推論、画像編集など、大規模な並列計算やディープラーニングを必要とするシナリオでは、GPU インスタンスを使用することで計算効率を大幅に向上させることができます。

Function Compute は、GPU ワークロード向けに、弹性インスタンス、プロビジョニング済みインスタンス、混在モードの 3 種類のインスタンスタイプを提供しています。リソース使用率、パフォーマンス、安定性のバランスを考慮し、ニーズに合ったタイプと仕様を選択してください。

インスタンスタイプの選択

CPU 関数では、弹性インスタンスのみがサポートされています。GPU 関数では、ビジネスのリソース使用率、遅延感度、コストの安定性に関する要件に基づいて、最適なインスタンスタイプを選択できます。3 種類のインスタンスタイプは、サービスを中断することなくいつでも切り替えることが可能です。

説明

プロビジョニング済みインスタンスは、Ada、Ada.2、Ada.3、Hopper、または Xpu.1 シリーズに属する GPU 関数にのみバインドできます。

弹性インスタンス

関数の最小インスタンス数を 0 に設定すると、インスタンスはリクエスト量に基づいて自動的にスケーリングされ、リクエストがない場合はリリースされます。これにより、使用した分だけ課金される従量課金モデルが実現し、コストを最大限に削減できます。リクエストの頻度が高いほど、仮想マシンと比較してリソース使用率が向上し、コスト削減効果も大きくなります。

コールドスタートの動作

はい、コールドスタートが発生する可能性があります。遅延の影響を受けやすいワークロードの場合、最小インスタンス数を 1 以上に設定することでコールドスタートを緩和できます。これにより、弹性リソースが事前に割り当てられ、インスタンスが迅速にアクティブ化されて受信リクエストを処理できるようになります。

課金(従量課金)

関数のコストには、アクティブな弹性インスタンスと Shallow Hibernation 状態の弹性インスタンスの料金が含まれます。最小インスタンス数を 1 以上に設定する場合は、Shallow Hibernation モードを有効にすることを推奨します。この状態では、vCPU リソースには課金されず、GPU リソースはアクティブなレートの 5 分の 1 で課金されるため、アクティブな弹性インスタンスと比較してコストを大幅に削減できます。

アクティブ状態と Shallow Hibernation 状態のユースケースに関する詳細については、「弹性インスタンス」をご参照ください。

プロビジョニング済みインスタンス

このインスタンスタイプは GPU 関数にのみ適用されます。事前に プロビジョニング済みリソースプール を購入し、特定の数とタイプのプロビジョニング済みインスタンスを関数に割り当てます。このアプローチは、予測可能で固定されたコストを提供し、リソース使用率が高い、遅延要件が厳しい、または安定した課金要件があるワークロードに最適です。

月額のプロビジョニング済みリソースプールを購入すると、プラットフォームはサブスクリプションベースのプロビジョニング済みインスタンスに加えて、一定のクォータのブーストインスタンスを割り当てます。このブーストインスタンスのクォータは課金されません。

コールドスタートの動作

いいえ、コールドスタートは発生しません。プロビジョニング済みインスタンスを使用する場合、割り当てられたキャパシティ内のリクエストはリアルタイムで応答を受け取ります。関数が処理できる同時リクエストの最大数は、(割り当てられたプロビジョニング済みインスタンスの数) × (インスタンスの同時実行数)+ ブーストインスタンスのクォータ として計算されます。この上限を超えるリクエストはスロットリングされます。

課金(サブスクリプション)

関数のコストは、購入したすべてのプロビジョニング済みリソースプールのサブスクリプション料金の合計です。ブーストインスタンスのクォータは課金されません

プロビジョニング済みインスタンスおよびエラスティックインスタンス(混合モード)

このモードは GPU 関数にのみ適用されます。プロビジョニング済みインスタンスと弹性インスタンスの利点を組み合わせたもので、トラフィックの変動が大きいワークロードに最適です。システムはまず、プロビジョニング済みリソースプールを使用して定常トラフィックを処理します。リクエストがプロビジョニング済みプールのキャパシティを超えると、システムは弹性インスタンスを起動して自動的にスケールアウトします。このアプローチにより、安定したベースラインキャパシティを保証しつつ、突然のトラフィックバーストを効果的に管理します。

コールドスタートの動作

部分的に発生します。プロビジョニング済みリソースプールによって処理されるリクエスト (最小インスタンス数まで) は、コールドスタートなしでリアルタイムに処理されます。ただし、トラフィックがオートスケーリングをトリガーし、新しい弹性インスタンスが起動されると、それらの新しいインスタンスではコールドスタートが発生します。

課金

混在モードのコストは、サブスクリプションと従量課金の両方のコンポーネントで構成されます:

  • プロビジョニング済み部分:購入したプロビジョニング済みリソースプールのクォータに対して課金されます。

  • 弹性部分:プロビジョニング済みのクォータを超えて起動されたインスタンスは、アクティブおよび Shallow Hibernation 状態の弹性インスタンスと同じレートで従量課金制で課金されます。

インスタンス仕様

  • CPU インスタンス

    vCPU (コア)

    メモリサイズ (MB)

    最大コードパッケージサイズ (GB)

    最大関数実行時間 (s)

    最大ディスクサイズ (GB)

    最大帯域幅 (Gbps)

    0.05~16

    注:値は 0.05 の倍数である必要があります。

    128~32768

    注:値は 64 の倍数である必要があります。

    10

    86400

    10

    有効値:

    • 512 MB。これはデフォルト値です。

    • 10 GB。

    5

    説明

    vCPU とメモリサイズ (GB 単位) の比率は、1:1 から 1:4 の範囲内である必要があります。

  • GPU インスタンスのハードウェア仕様

    説明

    詳細については、「ACS でサポートされている GPU インスタンスファミリー」をご参照ください。

    インスタンスタイプ

    GPU メモリ

    FP16 計算能力

    FP32 計算能力

    インスタンスあたりの最大カード数

    fc.gpu.tesla.1

    16 GB

    65 TFLOPS

    8 TFLOPS

    4 カード

    fc.gpu.ampere.1

    24 GB

    125 TFLOPS

    31.2 TFLOPS

    8 カード

    fc.gpu.ada.1

    48 GB

    119 TFLOPS

    60 TFLOPS

    fc.gpu.ada.2

    24 GB

    166 TFLOPS

    83 TFLOPS

    fc.gpu.ada.3

    48 GB

    148 TFLOPS

    73.5 TFLOPS

    fc.gpu.hopper.1

    96 GB

    148 TFLOPS

    44 TFLOPS

    fc.gpu.hopper.2

    141 GB

    148 TFLOPS

    44 TFLOPS

    fc.gpu.blackwell.1

    32 GB

    104.8 TFLOPS

    104.8 TFLOPS

    fc.gpu.xpu.1

    96 GB

    123 TFLOPS

    61.5 TFLOPS

    16 カード

  • GPU インスタンスの vCPU とメモリ構成

    説明

    マルチカードリソースの計算式:合計 vCPU = カードあたりの vCPU × カード数、合計メモリ = カードあたりのメモリ × カード数。

    インスタンスタイプ

    vCPU (カードあたり)

    メモリ範囲 (カードあたり)

    メモリ増分

    fc.gpu.tesla.1

    4 コア

    4~16 GB (4096~16384 MB)

    4 GB (4096 MB)

    8 コア

    8~32 GB (8192~32768 MB)

    16 コア

    16~64 GB (16384~65536 MB)

    fc.gpu.ampere.1

    8 コア

    8~32 GB (8192~32768 MB)

    16 コア

    16~64 GB (16384~65536 MB)

    fc.gpu.ada.1

    fc.gpu.ada.2

    fc.gpu.ada.3

    4 コア

    16~32 GB (16384~32768 MB)

    8 コア

    32~64 GB (32768~65536 MB)

    16 コア

    64~120 GB (65536~122880 MB)

    fc.gpu.hopper.1

    4 コア

    16~32 GB (16384~32768 MB)

    8 コア

    32~64 GB (32768~65536 MB)

    16 コア

    64~96 GB (65536~98304 MB)

    24 コア

    96~120 GB (98304~122880 MB)

    fc.gpu.hopper.2

    4 コア

    16~32 GB (16384~32768 MB)

    8 コア

    32~64 GB (32768~65536 MB)

    16 コア

    64~128 GB (65536~131072 MB)

    24 コア

    96~248 GB (98304~253952 MB)

    fc.gpu.blackwell.1

    4 コア

    16~32 GB (16384~32768 MB)

    8 コア

    32~64 GB (32768~65536 MB)

    16 コア

    64~120 GB (65536~122880 MB)

    24 コア

    96~184 GB (98304~188416 MB)

    fc.gpu.xpu.1

    4 コア

    16~48 GB (16384~49152 MB)

    8 コア

    32~96 GB (32768~98304 MB)

    12 コア

    48~120 GB (49152~122880 MB)

  • GPU インスタンスは、以下のリソース仕様もサポートしています。

    イメージサイズ (GB)

    最大関数実行時間 (s)

    ディスクサイズ (GB)

    最大帯域幅 (Gbps)

    ACR Enterprise Edition (Standard Edition):15

    ACR Enterprise Edition (Premium Edition):15

    ACR Enterprise Edition (Basic Edition):15

    ACR Personal Edition (Free):15

    86400

    • 512 MB

    • 10 GB~200 GB、10 GB 単位の増分

    5

    説明
    • インスタンスタイプを g1 に設定することは、fc.gpu.tesla.1 に設定することと同じです。

    • Tesla シリーズの GPU インスタンスは、次のリージョンでサポートされています:中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (深セン)、日本 (東京)、米国 (バージニア)、シンガポール。

    • Ada シリーズの GPU インスタンスは、次のリージョンでサポートされています:中国 (北京)、中国 (杭州)、中国 (上海)、中国 (深セン)、シンガポール、米国 (バージニア)。

GPU インスタンス仕様とインスタンス同時実行数の関係

Ada.1 GPU のメモリは 48 GB、Tesla シリーズ GPU のメモリは 16 GB です。Function Compute は、GPU カードの全メモリを単一の GPU コンテナに割り当てます。デフォルトの GPU カードクォータはリージョンあたり最大 30 であるため、そのリージョンでは最大 30 個の GPU コンテナを同時に実行できます。

  • GPU 関数のインスタンス同時実行数が 1 の場合、その関数はリージョン内で最大 30 の推論リクエストを同時に処理できます。

  • GPU 関数のインスタンス同時実行数が 5 の場合、その関数はリージョン内で最大 150 の推論リクエストを同時に処理できます。

単一インスタンスの同時実行数

リソース使用率を向上させるために、アプリケーションのリソース要件に基づいて単一インスタンスの同時実行数を設定できます。この設定では、複数のタスクが単一のインスタンス上で実行され、CPU とメモリリソースを共有することで、全体のリソース使用率が向上します。詳細については、「インスタンスの同時実行数の設定」をご参照ください。

単一インスタンス、単一同時実行数の実行時間

インスタンスが単一のリクエストを実行する場合、実行時間はリクエストがインスタンスに到着してからリクエストの実行が完了するまでの時間で測定されます。

image

単一インスタンス、複数同時実行数の実行時間

インスタンスが複数のリクエストを同時に実行する場合、実行時間は最初のリクエストがインスタンスに到着した時点から最後のリクエストが完了した時点までの時間で測定されます。このリソースの再利用により、コストを節約できます。

image

参照情報

  • Function Compute の課金方法と課金項目に関する詳細については、「課金概要」をご参照ください。

  • API を使用して関数を作成する場合、instanceType パラメーターを使用してインスタンスタイプを指定できます。詳細については、「CreateFunction」をご参照ください。

  • コンソールでインスタンスタイプと仕様を指定する方法については、「関数の作成」をご参照ください。