すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:JSON 設定ファイルを使用してサービスをデプロイする

最終更新日:Nov 30, 2025

Elastic Algorithm Service (EAS) では、JSON 構成ファイルを使用してオンラインサービスを定義し、デプロイできます。JSON 構成ファイルを準備した後、EAS コンソール、EASCMD クライアント、またはソフトウェア開発キット (SDK) を使用してサービスをデプロイできます。

JSON 構成ファイルの準備

サービスをデプロイするには、必要なすべての構成を含む JSON ファイルを作成します。新規ユーザーの場合、コンソールのサービスデプロイページで基本設定を構成できます。システムは対応する JSON コンテンツを自動的に生成します。その後、このコンテンツを変更および拡張できます。

以下は service.json ファイルの例です。すべてのパラメーターの説明については、「付録:JSON パラメーターの説明」をご参照ください。

{
    "metadata": {
        "name": "demo",
        "instance": 1,
        "workspace_id": "****"
    },
    "cloud": {
        "computing": {
            "instances": [
                {
                    "type": "ecs.c7a.large"
                }
            ]
        }
    },
    "containers": [
        {
            "image": "eas-registry-vpc.cn-hangzhou.cr.aliyuncs.com/pai-eas/python-inference:py39-ubuntu2004",
            "script": "python app.py",
            "port": 8000
        }
    ]
}

JSON ファイルを使用したサービスのデプロイ

コンソール

  1. PAI コンソールにログインします。ページの上部でリージョンを選択します。次に、目的のワークスペースを選択し、Elastic Algorithm Service (EAS) をクリックします。

  2. [推論サービス] タブで、[デプロイサービス] をクリックします。[デプロイサービス] ページで、[カスタムモデルデプロイメント] > [JSON オンプレミスデプロイメント] を選択します。

  3. 準備した JSON ファイルの内容を入力し、[デプロイ] をクリックします。サービスステータスが実行中に変更されるまで待ちます。これで、サービスがデプロイされたことになります。

EASCMD

EASCMD クライアントツールを使用して、モデルサービスを管理できます。これには、サービスの作成、表示、削除、更新が含まれます。手順は次のとおりです:

  1. クライアントのダウンロードと認証

    公式イメージを含む Distribution Switch (DSW) 開発環境を使用する場合、EASCMD クライアントは /etc/dsw/eascmd64 にプリインストール済みです。それ以外の場合は、「クライアントのダウンロードと認証」をご参照ください。

  2. デプロイコマンドの実行

    JSON ファイルが配置されているディレクトリで、次のコマンドを実行してサービスをデプロイします。Windows 64 ビット版を例として使用します。操作の詳細については、「コマンドリファレンス」をご参照ください。

    eascmdwin64.exe create <service.json>

    <service.json> をご利用の JSON ファイル名に置き換えます。

    説明

    DSW 開発環境を使用していて、JSON 構成ファイルをアップロードする必要がある場合は、「ファイルのアップロードとダウンロード」をご参照ください。

    システムは次のような結果を返します。

    [RequestId]: 1651567F-8F8D-4A2B-933D-F8D3E2DD****
    +-------------------+----------------------------------------------------------------------------+
    | Intranet Endpoint | http://166233998075****.cn-shanghai.pai-eas.aliyuncs.com/api/predict/test_eascmd |
    |             Token | YjhjOWQ2ZjNkYzdiYjEzMDZjOGEyNGY5MDIxMzczZWUzNGEyMzhi****                   |
    +-------------------+--------------------------------------------------------------------------+
    [OK] Creating api gateway
    [OK] Building image [registry-vpc.cn-shanghai.aliyuncs.com/eas/test_eascmd_cn-shanghai:v0.0.1-20221122114614]
    [OK] Pushing image [registry-vpc.cn-shanghai.aliyuncs.com/eas/test_eascmd_cn-shanghai:v0.0.1-20221122114614]
    [OK] Waiting [Total: 1, Pending: 1, Running: 0]
    [OK] Waiting [Total: 1, Pending: 1, Running: 0]
    [OK] Service is running

付録:JSON パラメーターの説明

パラメーター

必須

説明

metadata

はい

サービスのメタデータ。パラメーター設定の詳細については、「metadata パラメーターの説明」をご参照ください。

cloud

いいえ

コンピューティングリソースと Virtual Private Cloud (VPC) の構成。詳細については、「cloud パラメーターの説明」をご参照ください。

containers

いいえ

イメージ構成。詳細については、「containers パラメーターの説明」をご参照ください。

dockerAuth

いいえ

イメージがプライベートリポジトリからのものである場合、dockerAuth を構成する必要があります。値は、イメージリポジトリの username:password を Base64 でエンコードした文字列です。

networking

いいえ

サービス呼び出しの構成。パラメーター設定の詳細については、「networking パラメーターの説明」をご参照ください。

storage

いいえ

サービスのストレージマウント情報。詳細な構成手順については、「ストレージのマウント」をご参照ください。

token

いいえ

アクセス認証用のトークン文字列。このパラメーターを指定しない場合、システムは自動的にトークンを生成します。

aimaster

いいえ

複数マシンによる分散推論サービスのための計算能力検出とフォールトトレランスを有効にします。

model_path

はい

このパラメーターは、プロセッサーを使用してサービスをデプロイする場合に必要です。model_pathprocessor_path は、それぞれモデルとプロセッサーのソースデータアドレスを指定します。次のアドレス形式がサポートされています:

  • OSS アドレス:アドレスは特定のファイルパスまたはフォルダパスにすることができます。

  • HTTP アドレス:必要なファイルは、TAR.GZTARBZ2ZIP などの圧縮パッケージである必要があります。

  • ローカルパス:test コマンドを使用してローカルデバッグを行う場合、ローカルパスを使用できます。

oss_endpoint

いいえ

OSS のエンドポイント。例:oss-cn-beijing.aliyuncs.com。その他の値については、「リージョンとエンドポイント」をご参照ください。

説明

デフォルトでは、このパラメーターを指定する必要はありません。システムは現在のリージョンの内部ネットワーク OSS アドレスを使用してモデルファイルまたはプロセッサーファイルをダウンロードします。リージョンをまたいで OSS にアクセスする場合は、このパラメーターを指定する必要があります。例えば、中国 (杭州) リージョンでサービスをデプロイし、model_path が中国 (北京) リージョンの OSS アドレスを指定している場合、このパラメーターを使用して中国 (北京) リージョンの OSS のパブリックネットワークアクセスアドレスを指定する必要があります。

model_entry

いいえ

モデルのエントリファイル。任意のファイルを含めることができます。このパラメーターを指定しない場合、model_path のファイル名が使用されます。メインファイルのパスは、プロセッサーの initialize() 関数に渡されます。

model_config

いいえ

モデル構成。任意のテキストをサポートします。このパラメーターの値は、プロセッサーの initialize() 関数の 2 番目の引数として渡されます。

processor

いいえ

  • 公式の事前構築済みプロセッサーを使用する場合は、ここでプロセッサーコードを指定します。eascmd のプロセッサーで使用されるコードについては、「事前構築済みプロセッサー」をご参照ください。

  • カスタムプロセッサーを使用する場合は、このパラメーターを構成する必要はありません。processor_pathprocessor_entryprocessor_mainclassprocessor_type パラメーターのみを構成します。

processor_path

いいえ

プロセッサーに関連するファイルパッケージのパス。詳細については、model_path パラメーターの説明をご参照ください。

processor_entry

いいえ

プロセッサーのメインファイル。例:libprocessor.soapp.py。予測に必要な initialize() 関数と process() 関数の実装が含まれています。

processor_typecpp または python に設定されている場合、このパラメーターは必須です。

processor_mainclass

いいえ

プロセッサーのメインファイル。JAR パッケージのメインクラスです。例:com.aliyun.TestProcessor

processor_typejava に設定されている場合、このパラメーターは必須です。

processor_type

いいえ

processor が実装されている言語。有効な値:

  • cpp

  • java

  • python

warm_up_data_path

いいえ

モデルのプリフェッチに使用されるリクエストファイルのパス。モデルのプリフェッチ機能の詳細については、「モデルサービスのプリフェッチ」をご参照ください。

runtime.enable_crash_block

いいえ

プロセッサーコードの例外によりサービスインスタンスがクラッシュした後に自動的に再起動するかどうかを指定します。有効な値:

  • true:サービスインスタンスは自動的に再起動しません。これにより、トラブルシューティングのためにシーンが保持されます。

  • false:デフォルト値。サービスインスタンスは自動的に再起動します。

autoscaler

いいえ

モデルサービスの自動水平スケーリングの構成情報。パラメーター設定の詳細については、「自動水平スケーリング」をご参照ください。

labels

いいえ

EAS サービスのタグを構成します。フォーマットは key:value です。

unit.size

いいえ

分散推論構成における単一インスタンスがデプロイされるマシン数。デフォルト値は 2 です。

sinker

いいえ

サービスのすべてのリクエストと応答のレコードを MaxCompute または Simple Log Service (SLS) に永続化します。パラメーター設定の詳細については、「sinker パラメーターの説明」をご参照ください。

confidential

いいえ

システム信頼管理サービスを構成することで、データ、モデル、コードなどの情報がサービスデプロイメントおよび呼び出し中に安全に暗号化されることを保証できます。これにより、安全で検証可能な推論サービスが実現します。フォーマットは次のとおりです:

説明

安全な暗号化環境は、主にマウントされたストレージファイル用です。この機能を有効にする前に、ストレージファイルをマウントしてください。

"confidential": {
        "trustee_endpoint": "xxxx",
        "decryption_key": "xxxx"
    }

次の表にパラメーターを説明します。

  • trustee_endpoint:システム信頼管理サービス Trustee の URI。

  • decryption_key:復号鍵の KBS URI。例:kbs:///default/key/test-key

metadata パラメーターの説明

一般パラメーター

パラメーター

必須

説明

name

はい

サービス名。名前は同一リージョン内で一意である必要があります。

instance

はい

サービス用に起動するインスタンス数。

workspace_id

いいえ

ワークスペース ID を設定すると、サービスは指定された PAI ワークスペース内でのみ使用できます。例:1405**

cpu

いいえ

各インスタンスに必要な CPU コア数。

memory

いいえ

各インスタンスに必要なメモリ量。値は整数である必要があります。単位:MB。例:"memory": 4096 は、各インスタンスが 4 GB のメモリを必要とすることを示します。

gpu

いいえ

各インスタンスに必要な GPU 数。

gpu_memory

いいえ

EAS リソースグループまたはリソースクォータを使用する際に、GPU 共有機能を構成します。これにより、複数のインスタンスが単一の GPU を共有できます。

gpu_core_percentage

qos

いいえ

インスタンスのサービス品質 (QoS)。有効なパラメーター値は空または BestEffort です。qosBestEffort に設定されている場合、CPU 共有モードが有効になります。インスタンスは GPU メモリとメモリに基づいてスケジュールされ、ノード上の CPU コア数による制限を受けなくなります。ノード上のすべてのインスタンスが CPU リソースを共有します。この場合、cpu フィールドは、単一インスタンスが CPU 共有モードで使用できる最大クォータを示します。

resource

いいえ

リソースグループ ID。構成ポリシーは次のとおりです:

  • サービスがパブリックリソースグループにデプロイされている場合、このパラメーターは無視できます。サービスは従量課金制になります。

  • サービスが専用リソースグループにデプロイされている場合、このパラメーターをリソースグループ ID に設定します。例:eas-r-6dbzve8ip0xnzt****

cuda

いいえ

サービスに必要な CUDA バージョン。サービスの実行中、指定された CUDA バージョンがインスタンスの /usr/local/cuda ディレクトリに自動的にマウントされます。

サポートされている CUDA バージョン:8.0、9.0、10.0、10.1、10.2、11.0、11.1、11.2。例:"cuda":"11.2"

rdma

いいえ

分散推論構成で RDMA ネットワーキングを有効にするかどうかを指定します。RDMA ネットワーキングを有効にするには 1 に設定します。rdma パラメーターが構成されていない場合、RDMA ネットワーキングは無効になります。

説明

現在、Lingjun リソースを使用してデプロイされたサービスのみが RDMA ネットワーキングを使用できます。

enable_grpc

いいえ

サービスゲートウェイで gRPC 接続を有効にするかどうかを指定します。有効な値:

  • false:デフォルト値。ゲートウェイは gRPC 接続を有効にしません。HTTP リクエストはデフォルトでサポートされます。

  • true:ゲートウェイは gRPC 接続を有効にします。

説明

カスタムイメージを使用してサービスをデプロイし、イメージ内のサーバーサイド実装が gRPC の場合、このパラメーターを使用してゲートウェイプロトコルを gRPC に切り替える必要があります。

enable_webservice

いいえ

AI-Web アプリケーションをデプロイするために Web サーバーを有効にするかどうかを指定します:

  • false:デフォルト値。Web サーバーは有効になりません。

  • true:Web サーバーが有効になります。

type

いいえ

LLM インテリジェントルーターサービスをデプロイするには LLMGatewayService に設定します。JSON ファイルの構成方法については、「ステップ 1:LLM インテリジェントルーターサービスのデプロイ」をご参照ください。

高度なパラメーター

重要

高度なパラメーターは注意して調整してください。

パラメーター

必須

説明

rpc

batching

いいえ

GPU モデルを高速化するためにサーバーサイドバッチ処理を有効にするかどうかを指定します。これは事前構築済みプロセッサーモードでのみサポートされます。有効な値:

  • false:デフォルト値。サーバーサイドバッチ処理は無効です。

  • true:サーバーサイドバッチ処理は有効です。

keepalive

いいえ

単一リクエストの最大処理時間 (ミリ秒)。処理時間がこの値を超えると、サーバーは 408 タイムアウトエラーを返し、接続を閉じます。専用ゲートウェイのデフォルト値:600000。アプリケーション指向の専用ゲートウェイ (ALB) はこの構成をサポートしていません。

io_threads

いいえ

各インスタンスのネットワーク I/O 処理に使用されるスレッド数。デフォルト値は 4 です。

max_batch_size

いいえ

各バッチの最大サイズ。デフォルト値は 16 です。これは事前構築済みプロセッサーモードでのみサポートされます。このパラメーターは rpc.batchingtrue に設定されている場合にのみ有効です。

max_batch_timeout

いいえ

各バッチの最大タイムアウト。デフォルト値は 50 ミリ秒です。これは事前構築済みプロセッサーモードでのみサポートされます。このパラメーターは rpc.batchingtrue に設定されている場合にのみ有効です。

max_queue_size

いいえ

非同期推論サービスを作成する場合、これはキューの最大長です。デフォルト値は 64 です。キューがいっぱいになると、サーバーは 450 エラーを返し、接続を閉じます。サーバーの過負荷を防ぐため、キューは事前にクライアントに通知して他のインスタンスでリトライさせることができます。応答時間 (RT) が長いサービスの場合、リクエストがスタックしてタイムアウトするのを防ぐためにキューの長さを短くすることができます。

worker_threads

いいえ

各インスタンスでの同時リクエスト処理に使用されるスレッド数。デフォルト値は 5 です。これは事前構築済みプロセッサーモードでのみサポートされます。

rate_limit

いいえ

QPS 制限を有効にし、インスタンスが処理できる最大 QPS を制限します。デフォルト値は 0 で、QPS 制限を無効にします。

例えば、このパラメーターを 2000 に設定すると、QPS が 2000 を超えた場合にリクエストは 429 (Too Many Requests) エラーで拒否されます。

enable_sigterm

いいえ

有効な値:

  • false (デフォルト):インスタンスが終了状態に入るときに SIGTERM シグナルは送信されません。

  • true:サービスインスタンスが終了状態に入ると、システムはすぐにメインプロセスに SIGTERM シグナルを送信します。シグナルを受信した後、サービス内のプロセスはシグナルハンドラーでカスタムのグレースフルシャットダウン操作を実行する必要があります。シグナルが処理されない場合、メインプロセスはシグナル受信後に直接終了し、グレースフルシャットダウンが失敗する可能性があります。

rolling_strategy

max_surge

いいえ

サービスのローリングアップデート中に、指定されたインスタンス数を超えて作成できる追加インスタンスの最大数。このパラメーターは正の整数 (インスタンス数を示す) またはパーセンテージ (例:2%) にすることができます。デフォルトは 2% です。このパラメーターを増やすと、サービスの更新が高速化されます。

例えば、サービスインスタンス数が 100 で、このパラメーターが 20 に設定されている場合、サービス更新が始まるとすぐに 20 の新しいインスタンスが作成されます。

max_unavailable

いいえ

ローリングアップデート中の利用不可インスタンスの最大数。このパラメーターは、サービス更新中に新しいインスタンス用のリソースを解放し、アイドルリソースの不足による更新の停滞を防ぐことができます。専用リソースグループでは、デフォルト値は 1 です。パブリックリソースグループでは、デフォルト値は 0 です。

例えば、このパラメーターが N の場合、サービス更新が始まるとすぐに N 個のインスタンスが停止します。

説明

アイドルリソースが十分な場合は、このパラメーターを 0 に設定できます。このパラメーターを高く設定しすぎると、サービスの安定性に影響を与える可能性があります。これは、更新の瞬間に利用可能なインスタンス数が減少し、各インスタンスのトラフィック負荷が増加するためです。このパラメーターを構成する際は、サービスの安定性とリソースの可用性のバランスを取る必要があります。

eas.termination_grace_period

いいえ

インスタンスのグレースフルシャットダウン時間 (秒)。デフォルト値は 30 秒です。

EAS サービスはローリングアップデート戦略を使用します。インスタンスはまず終了中状態に入ります。その後、サービスは終了しようとしているインスタンスからトラフィックを迂回させます。インスタンスは、受信したリクエストを処理するために 30 秒待機してから終了します。リクエスト処理に時間がかかる場合は、この値を増やして、サービス更新中にすべての処理中のリクエストが処理されるようにすることができます。

重要

この値を小さくすると、サービスの安定性に影響します。この値を大きくしすぎると、サービスの更新が遅くなります。必要でない限り、このパラメーターは構成しないでください。

scheduling

spread.policy

いいえ

サービスインスタンススケジューリングのスプレッドポリシー。次のポリシーがサポートされています:

  • host:インスタンスをできるだけ異なるノードに分散させます。

  • zone:インスタンスをノードが配置されている異なるゾーンにできるだけ分散させます。

  • default:アクティブな分散ロジックなしで、デフォルトポリシーに基づいてインスタンスをスケジュールします。

構成例:

{
  "metadata": {
    "scheduling": {
      "spread": {
        "policy": "host"
      }
    }
}

resource_rebalancing

いいえ

有効な値:

  • false (デフォルト):この機能は無効です。

  • true:EAS は高優先度のリソース上で定期的にプローブインスタンスを作成します。プローブインスタンスが正常にスケジュールされると、スケジューリングが失敗するまで指数関数的に多くのプローブインスタンスが作成されます。正常にスケジュールされたプローブインスタンスが初期化されて準備完了になると、低優先度のリソース上のインスタンスを置き換えます。

この機能は、次の問題を解決できます:

  • ローリングアップデート中、終了中のインスタンスがまだリソースを占有しています。これにより、新しいインスタンスがパブリックリソース上で起動します。パブリックリソースの制限により、新しいインスタンスはその後、専用リソースグループに再スケジュールされます。

  • スポットインスタンスと通常インスタンスの両方が使用されている場合、システムは定期的にスポットインスタンスが利用可能かどうかを確認します。利用可能な場合、通常インスタンスはスポットインスタンスに移行されます。

workload_type

いいえ

EAS サービスをタスクとしてデプロイする場合は、このパラメーターを elasticjob に設定できます。Elastic Job サービスの使用に関する詳細については、「Elastic Job サービス」をご参照ください。

resource_burstable

いいえ

専用リソースグループを使用してデプロイされた EAS サービスの弾性リソースプール機能を有効にします:

  • true:機能を有効にします。

  • false:機能を無効にします。

shm_size

いいえ

インスタンスの共有メモリを構成します。これにより、データのコピーや転送なしでメモリへの直接読み書きが可能になります。単位:GB。

cloud パラメーターの説明

パラメーター

必須

説明

computing

instances

いいえ

パブリックリソースグループを使用してサービスをデプロイする場合、このパラメーターを設定する必要があります。使用するリソース仕様のリストを指定します。インスタンスタイプの入札に失敗した場合や在庫が不足している場合、システムは構成された順序で次のインスタンスタイプを使用してサービスの作成を試みます。

  • type:リソース仕様。

  • spot_price_limit はオプションのパラメーターです:

    • このパラメーターが構成されている場合、対応するインスタンスタイプがスポットインスタンスを使用し、価格上限を指定することを示します。単位:USD。従量課金がサポートされています。

    • このパラメーターが構成されていない場合、対応するインスタンスタイプが通常の従量課金インスタンスであることを示します。

  • capacity:使用するこのタイプのインスタンス数の上限。数値 (例:"500") または文字列 (例:"20%") を指定できます。構成後、このタイプのインスタンス数が上限に達すると、このタイプの利用可能なリソースがあっても再度使用されません。

    例えば、サービスの総インスタンス数が 200 で、インスタンスタイプ A の capacity が 20% に設定されている場合、サービスは最大で 40 のタイプ A インスタンスを使用します。残りのインスタンスは他の仕様を使用して起動されます。

disable_spot_protection_period

いいえ

スポットインスタンスを使用する場合、このパラメーターを設定する必要があります。有効な値:

  • false (デフォルト):スポットインスタンスが作成された後、デフォルトで 1 時間の保護期間があります。保護期間中、市場価格が入札価格を超えてもインスタンスは解放されません。

  • true:保護期間を無効にします。保護期間のないインスタンスは、保護期間のあるインスタンスよりも常に約 10% 安くなります。

networking

vpc_id

いいえ

EAS サービスにバインドする VPC、vSwitch、およびセキュリティグループ。

vswitch_id

いいえ

security_group_id

いいえ

例:

{
    "cloud": {
        "computing": {
            "instances": [
                {
                    "type": "ecs.c8i.2xlarge",
                    "spot_price_limit": 1
                },
                {
                    "type": "ecs.c8i.xlarge",
                    "capacity": "20%"
                }
            ],
            "disable_spot_protection_period": false
        },
        "networking": {
            "vpc_id": "vpc-bp1oll7xawovg9*****",
            "vswitch_id": "vsw-bp1jjgkw51nsca1e****",
            "security_group_id": "sg-bp1ej061cnyfn0b*****"
        }
    }
}

containers パラメーターの説明

カスタムイメージを使用してサービスをデプロイする場合は、「カスタムイメージ」をご参照ください。

パラメーター

必須

説明

image

はい

イメージを使用してデプロイする場合に必須です。モデルサービスのデプロイに使用されるイメージのアドレス。

env

name

いいえ

イメージ実行用の環境変数の名前。

value

いいえ

イメージ実行用の環境変数の値。

command

どちらか一方が必須

イメージのエントリコマンド。単一のコマンドのみをサポートし、`cd xxx && python app.py` のような複雑なスクリプトはサポートしません。複雑なスクリプトの場合は、`script` パラメーターを使用します。`command` フィールドは、イメージに `/bin/sh` コマンドが含まれていないシナリオに適しています。

script

イメージで実行するエントリスクリプト。複雑なスクリプトを指定できます。複数行を区切るには `\n` またはセミコロンを使用します。

port

いいえ

コンテナーポート。

重要
  • EAS エンジンは固定ポート 8080 と 9090 をリッスンするため、コンテナーポートは 8080 または 9090 にできません。

  • このポートは、command で指定された xxx.py ファイルで構成されたポートと同じである必要があります。

prepare

pythonRequirements

いいえ

インスタンス起動前にインストールする Python 要件のリスト。イメージにはシステムパスに `python` と `pip` コマンドが必要です。フォーマットはリストです。例:

"prepare": {
  "pythonRequirements": [
    "numpy==1.16.4",
    "absl-py==0.11.0"
  ]
}

pythonRequirementsPath

いいえ

インスタンス起動前にインストールする `requirements.txt` ファイルへのパス。イメージにはシステムパスに `python` と `pip` コマンドが必要です。`requirements.txt` ファイルは、イメージに直接含めるか、外部ストレージからサービスインスタンスにマウントできます。例:

"prepare": {
  "pythonRequirementsPath": "/data_oss/requirements.txt"
}

networking パラメーターの説明

パラメーター

必須

説明

gateway

いいえ

EAS サービス用に構成された専用ゲートウェイ

gateway_policy

いいえ

  • rate_limit:サービスのグローバルレート制限。サービスが 1 秒あたりに受信できるリクエストの最大数です。

    • enable:レート制限を有効にするかどうかを指定します。`true` は有効、`false` は無効です。

    • limit:レート制限値。

      説明

      共有ゲートウェイを使用するサービスの場合、単一サービスのデフォルト QPS 制限は 1,000、サーバーグループのデフォルト QPS 制限は 10,000 です。専用ゲートウェイにはデフォルト値は設定されていません。

  • concurrency_limit:サービスのグローバル同時実行制御。任意の瞬間に処理中のリクエストの最大数です。アプリケーション指向の専用ゲートウェイ (ALB) はこの設定をサポートしていません。

    • enable:レート制限を有効にするかどうかを指定します。`true` は有効、`false` は無効です。

    • limit:レート制限値。

レート制限の構成例:

{
    "networking": {
        "gateway_policy": {
            "rate_limit": {
                "enable": true,
                "limit": 100
            },
            "concurrency_limit": {
                "enable": true,
                "limit": 50
            }
        }
    }
}

sinker パラメーターの説明

パラメーター

必須

説明

type

いいえ

次の 2 つのストレージクラスがサポートされています:

  • maxcompute:MaxCompute。

  • sls:Simple Log Service (SLS)。

config

maxcompute.project

いいえ

MaxCompute プロジェクト名。

maxcompute.table

いいえ

MaxCompute データテーブル。

sls.project

いいえ

SLS プロジェクト名。

sls.logstore

いいえ

SLS の Logstore。

構成例:

MaxCompute への保存

"sinker": {
        "type": "maxcompute",
        "config": {
            "maxcompute": {
                "project": "cl****",
                "table": "te****"
            }
        }
    }

Simple Log Service (SLS) への保存

"sinker": {
        "type": "sls",
        "config": {
            "sls": {
                "project": "k8s-log-****",
                "logstore": "d****"
            }
        }
    }

付録:JSON 構成例

次の例は、前述のパラメーターが JSON ファイルでどのように構成されるかを示しています:

{
  "token": "****M5Mjk0NDZhM2EwYzUzOGE0OGMx****",
  "processor": "tensorflow_cpu_1.12",
  "model_path": "oss://examplebucket/exampledir/",
  "oss_endpoint": "oss-cn-beijing.aliyuncs.com",
  "model_entry": "",
  "model_config": "",
  "processor_path": "",
  "processor_entry": "",
  "processor_mainclass": "",
  "processor_type": "",
  "warm_up_data_path": "",
  "runtime": {
    "enable_crash_block": false
  },
  "unit": {
        "size": 2
    },
  "sinker": {
        "type": "maxcompute",
        "config": {
            "maxcompute": {
                "project": "cl****",
                "table": "te****"
            }
        }
    },
  "cloud": {
    "computing": {
      "instances": [
        {
          "capacity": 800,
          "type": "dedicated_resource"
        },
        {
          "capacity": 200,
          "type": "ecs.c7.4xlarge",
          "spot_price_limit": 3.6
        }
      ],
      "disable_spot_protection_period": true
    },
    "networking": {
            "vpc_id": "vpc-bp1oll7xawovg9t8****",
            "vswitch_id": "vsw-bp1jjgkw51nsca1e****",
            "security_group_id": "sg-bp1ej061cnyfn0b****"
        }
  },
  "autoscaler": {
    "min": 2,
    "max": 5,
    "strategies": {
      "qps": 10
    }
  },
  "storage": [
    {
      "mount_path": "/data_oss",
      "oss": {
        "endpoint": "oss-cn-shanghai-internal.aliyuncs.com",
        "path": "oss://bucket/path/"
      }
    }
  ],
  "confidential": {
        "trustee_endpoint": "xx",
        "decryption_key": "xx"
    },
  "metadata": {
    "name": "test_eascmd",
    "resource": "eas-r-9lkbl2jvdm0puv****",
    "instance": 1,
    "workspace_id": "1405**",
    "gpu": 0,
    "cpu": 1,
    "memory": 2000,
    "gpu_memory": 10,
    "gpu_core_percentage": 10,
    "qos": "",
    "cuda": "11.2",
    "enable_grpc": false,
    "enable_webservice": false,
    "rdma": 1,
    "rpc": {
      "batching": false,
      "keepalive": 5000,
      "io_threads": 4,
      "max_batch_size": 16,
      "max_batch_timeout": 50,
      "max_queue_size": 64,
      "worker_threads": 5,
      "rate_limit": 0,
      "enable_sigterm": false
    },
    "rolling_strategy": {
      "max_surge": 1,
      "max_unavailable": 1
    },
    "eas.termination_grace_period": 30,
    "scheduling": {
      "spread": {
        "policy": "host"
      }
    },
    "resource_rebalancing": false,
    "workload_type": "elasticjob",
    "shm_size": 100
  },
  "features": {
    "eas.aliyun.com/extra-ephemeral-storage": "100Gi",
    "eas.aliyun.com/gpu-driver-version": "tesla=550.127.08"
  },
  "networking": {
    "gateway": "gw-m2vkzbpixm7mo****"
  },
  "containers": [
    {
      "image": "registry-vpc.cn-shanghai.aliyuncs.com/xxx/yyy:zzz",
      "prepare": {
        "pythonRequirements": [
          "numpy==1.16.4",
          "absl-py==0.11.0"
        ]
      },
      "command": "python app.py",
      "port": 8000
    }
  ],
  "dockerAuth": "dGVzdGNhbzoxM*******"
}