JSON デプロイパラメーター構成ガイド - Platform For AI - Alibaba Cloud ドキュメントセンター

Elastic Algorithm Service (EAS) では、JSON 構成ファイルを使用してオンラインサービスを定義し、デプロイできます。JSON 構成ファイルを準備した後、EAS コンソール、EASCMD クライアント、またはソフトウェア開発キット (SDK) を使用してサービスをデプロイできます。

JSON 構成ファイルの準備

サービスをデプロイするには、必要なすべての構成を含む JSON ファイルを作成します。新規ユーザーの場合、コンソールのサービスデプロイページで基本設定を構成できます。システムは対応する JSON コンテンツを自動的に生成します。その後、このコンテンツを変更および拡張できます。

以下は service.json ファイルの例です。すべてのパラメーターの説明については、「付録：JSON パラメーターの説明」をご参照ください。

{
    "metadata": {
        "name": "demo",
        "instance": 1,
        "workspace_id": "****"
    },
    "cloud": {
        "computing": {
            "instances": [
                {
                    "type": "ecs.c7a.large"
                }
            ]
        }
    },
    "containers": [
        {
            "image": "eas-registry-vpc.cn-hangzhou.cr.aliyuncs.com/pai-eas/python-inference:py39-ubuntu2004",
            "script": "python app.py",
            "port": 8000
        }
    ]
}

JSON ファイルを使用したサービスのデプロイ

コンソール

PAI コンソールにログインします。ページの上部でリージョンを選択します。次に、目的のワークスペースを選択し、Elastic Algorithm Service (EAS) をクリックします。
[推論サービス] タブで、[デプロイサービス] をクリックします。[デプロイサービス] ページで、[カスタムモデルデプロイメント] > [JSON オンプレミスデプロイメント] を選択します。
準備した JSON ファイルの内容を入力し、[デプロイ] をクリックします。サービスステータスが実行中に変更されるまで待ちます。これで、サービスがデプロイされたことになります。

EASCMD

EASCMD クライアントツールを使用して、モデルサービスを管理できます。これには、サービスの作成、表示、削除、更新が含まれます。手順は次のとおりです：

クライアントのダウンロードと認証
公式イメージを含む Distribution Switch (DSW) 開発環境を使用する場合、EASCMD クライアントは /etc/dsw/eascmd64 にプリインストール済みです。それ以外の場合は、「クライアントのダウンロードと認証」をご参照ください。

デプロイコマンドの実行

JSON ファイルが配置されているディレクトリで、次のコマンドを実行してサービスをデプロイします。Windows 64 ビット版を例として使用します。操作の詳細については、「コマンドリファレンス」をご参照ください。

eascmdwin64.exe create <service.json>

<service.json> をご利用の JSON ファイル名に置き換えます。

説明

DSW 開発環境を使用していて、JSON 構成ファイルをアップロードする必要がある場合は、「ファイルのアップロードとダウンロード」をご参照ください。

システムは次のような結果を返します。

[RequestId]: 1651567F-8F8D-4A2B-933D-F8D3E2DD****
+-------------------+----------------------------------------------------------------------------+
| Intranet Endpoint | http://166233998075****.cn-shanghai.pai-eas.aliyuncs.com/api/predict/test_eascmd |
|             Token | YjhjOWQ2ZjNkYzdiYjEzMDZjOGEyNGY5MDIxMzczZWUzNGEyMzhi****                   |
+-------------------+--------------------------------------------------------------------------+
[OK] Creating api gateway
[OK] Building image [registry-vpc.cn-shanghai.aliyuncs.com/eas/test_eascmd_cn-shanghai:v0.0.1-20221122114614]
[OK] Pushing image [registry-vpc.cn-shanghai.aliyuncs.com/eas/test_eascmd_cn-shanghai:v0.0.1-20221122114614]
[OK] Waiting [Total: 1, Pending: 1, Running: 0]
[OK] Waiting [Total: 1, Pending: 1, Running: 0]
[OK] Service is running

付録：JSON パラメーターの説明

パラメーター	必須	説明
metadata	はい	サービスのメタデータ。パラメーター設定の詳細については、「metadata パラメーターの説明」をご参照ください。
cloud	いいえ	コンピューティングリソースと Virtual Private Cloud (VPC) の構成。詳細については、「cloud パラメーターの説明」をご参照ください。
containers	いいえ	イメージ構成。詳細については、「containers パラメーターの説明」をご参照ください。
dockerAuth	いいえ	イメージがプライベートリポジトリからのものである場合、dockerAuth を構成する必要があります。値は、イメージリポジトリの `username:password` を Base64 でエンコードした文字列です。
networking	いいえ	サービス呼び出しの構成。パラメーター設定の詳細については、「networking パラメーターの説明」をご参照ください。
storage	いいえ	サービスのストレージマウント情報。詳細な構成手順については、「ストレージのマウント」をご参照ください。
token	いいえ	アクセス認証用のトークン文字列。このパラメーターを指定しない場合、システムは自動的にトークンを生成します。
aimaster	いいえ	複数マシンによる分散推論サービスのための計算能力検出とフォールトトレランスを有効にします。
model_path	はい	このパラメーターは、プロセッサーを使用してサービスをデプロイする場合に必要です。model_path と processor_path は、それぞれモデルとプロセッサーのソースデータアドレスを指定します。次のアドレス形式がサポートされています： OSS アドレス：アドレスは特定のファイルパスまたはフォルダパスにすることができます。 HTTP アドレス：必要なファイルは、TAR.GZ、TAR、BZ2、ZIP などの圧縮パッケージである必要があります。ローカルパス：`test` コマンドを使用してローカルデバッグを行う場合、ローカルパスを使用できます。
oss_endpoint	いいえ	OSS のエンドポイント。例：oss-cn-beijing.aliyuncs.com。その他の値については、「リージョンとエンドポイント」をご参照ください。説明デフォルトでは、このパラメーターを指定する必要はありません。システムは現在のリージョンの内部ネットワーク OSS アドレスを使用してモデルファイルまたはプロセッサーファイルをダウンロードします。リージョンをまたいで OSS にアクセスする場合は、このパラメーターを指定する必要があります。例えば、中国 (杭州) リージョンでサービスをデプロイし、model_path が中国 (北京) リージョンの OSS アドレスを指定している場合、このパラメーターを使用して中国 (北京) リージョンの OSS のパブリックネットワークアクセスアドレスを指定する必要があります。
model_entry	いいえ	モデルのエントリファイル。任意のファイルを含めることができます。このパラメーターを指定しない場合、model_path のファイル名が使用されます。メインファイルのパスは、プロセッサーの initialize() 関数に渡されます。
model_config	いいえ	モデル構成。任意のテキストをサポートします。このパラメーターの値は、プロセッサーの initialize() 関数の 2 番目の引数として渡されます。
processor	いいえ	公式の事前構築済みプロセッサーを使用する場合は、ここでプロセッサーコードを指定します。`eascmd` のプロセッサーで使用されるコードについては、「事前構築済みプロセッサー」をご参照ください。カスタムプロセッサーを使用する場合は、このパラメーターを構成する必要はありません。processor_path、processor_entry、processor_mainclass、processor_type パラメーターのみを構成します。
processor_path	いいえ	プロセッサーに関連するファイルパッケージのパス。詳細については、model_path パラメーターの説明をご参照ください。
processor_entry	いいえ	プロセッサーのメインファイル。例：libprocessor.so や app.py。予測に必要な `initialize()` 関数と `process()` 関数の実装が含まれています。 processor_type が cpp または python に設定されている場合、このパラメーターは必須です。
processor_mainclass	いいえ	プロセッサーのメインファイル。JAR パッケージのメインクラスです。例：com.aliyun.TestProcessor。 processor_type が java に設定されている場合、このパラメーターは必須です。
processor_type	いいえ	processor が実装されている言語。有効な値： cpp java python
warm_up_data_path	いいえ	モデルのプリフェッチに使用されるリクエストファイルのパス。モデルのプリフェッチ機能の詳細については、「モデルサービスのプリフェッチ」をご参照ください。
runtime.enable_crash_block	いいえ	プロセッサーコードの例外によりサービスインスタンスがクラッシュした後に自動的に再起動するかどうかを指定します。有効な値： true：サービスインスタンスは自動的に再起動しません。これにより、トラブルシューティングのためにシーンが保持されます。 false：デフォルト値。サービスインスタンスは自動的に再起動します。
autoscaler	いいえ	モデルサービスの自動水平スケーリングの構成情報。パラメーター設定の詳細については、「自動水平スケーリング」をご参照ください。
labels	いいえ	EAS サービスのタグを構成します。フォーマットは `key:value` です。
unit.size	いいえ	分散推論構成における単一インスタンスがデプロイされるマシン数。デフォルト値は 2 です。
sinker	いいえ	サービスのすべてのリクエストと応答のレコードを MaxCompute または Simple Log Service (SLS) に永続化します。パラメーター設定の詳細については、「sinker パラメーターの説明」をご参照ください。
confidential	いいえ	システム信頼管理サービスを構成することで、データ、モデル、コードなどの情報がサービスデプロイメントおよび呼び出し中に安全に暗号化されることを保証できます。これにより、安全で検証可能な推論サービスが実現します。フォーマットは次のとおりです：説明安全な暗号化環境は、主にマウントされたストレージファイル用です。この機能を有効にする前に、ストレージファイルをマウントしてください。 `"confidential": { "trustee_endpoint": "xxxx", "decryption_key": "xxxx" }` 次の表にパラメーターを説明します。 trustee_endpoint：システム信頼管理サービス Trustee の URI。 decryption_key：復号鍵の KBS URI。例：`kbs:///default/key/test-key`。

metadata パラメーターの説明

一般パラメーター

パラメーター	必須	説明
name	はい	サービス名。名前は同一リージョン内で一意である必要があります。
instance	はい	サービス用に起動するインスタンス数。
workspace_id	いいえ	ワークスペース ID を設定すると、サービスは指定された PAI ワークスペース内でのみ使用できます。例：`1405**`。
cpu	いいえ	各インスタンスに必要な CPU コア数。
memory	いいえ	各インスタンスに必要なメモリ量。値は整数である必要があります。単位：MB。例：`"memory": 4096` は、各インスタンスが 4 GB のメモリを必要とすることを示します。
gpu	いいえ	各インスタンスに必要な GPU 数。
gpu_memory	いいえ	EAS リソースグループまたはリソースクォータを使用する際に、GPU 共有機能を構成します。これにより、複数のインスタンスが単一の GPU を共有できます。
gpu_core_percentage	いいえ
qos	いいえ	インスタンスのサービス品質 (QoS)。有効なパラメーター値は空または BestEffort です。qos が BestEffort に設定されている場合、CPU 共有モードが有効になります。インスタンスは GPU メモリとメモリに基づいてスケジュールされ、ノード上の CPU コア数による制限を受けなくなります。ノード上のすべてのインスタンスが CPU リソースを共有します。この場合、cpu フィールドは、単一インスタンスが CPU 共有モードで使用できる最大クォータを示します。
resource	いいえ	リソースグループ ID。構成ポリシーは次のとおりです：サービスがパブリックリソースグループにデプロイされている場合、このパラメーターは無視できます。サービスは従量課金制になります。サービスが専用リソースグループにデプロイされている場合、このパラメーターをリソースグループ ID に設定します。例：eas-r-6dbzve8ip0xnzt****。
cuda	いいえ	サービスに必要な CUDA バージョン。サービスの実行中、指定された CUDA バージョンがインスタンスの `/usr/local/cuda` ディレクトリに自動的にマウントされます。サポートされている CUDA バージョン：8.0、9.0、10.0、10.1、10.2、11.0、11.1、11.2。例：`"cuda":"11.2"`。
rdma	いいえ	分散推論構成で RDMA ネットワーキングを有効にするかどうかを指定します。RDMA ネットワーキングを有効にするには 1 に設定します。rdma パラメーターが構成されていない場合、RDMA ネットワーキングは無効になります。説明現在、Lingjun リソースを使用してデプロイされたサービスのみが RDMA ネットワーキングを使用できます。
enable_grpc	いいえ	サービスゲートウェイで gRPC 接続を有効にするかどうかを指定します。有効な値： false：デフォルト値。ゲートウェイは gRPC 接続を有効にしません。HTTP リクエストはデフォルトでサポートされます。 true：ゲートウェイは gRPC 接続を有効にします。説明カスタムイメージを使用してサービスをデプロイし、イメージ内のサーバーサイド実装が gRPC の場合、このパラメーターを使用してゲートウェイプロトコルを gRPC に切り替える必要があります。
enable_webservice	いいえ	AI-Web アプリケーションをデプロイするために Web サーバーを有効にするかどうかを指定します： false：デフォルト値。Web サーバーは有効になりません。 true：Web サーバーが有効になります。
type	いいえ	LLM インテリジェントルーターサービスをデプロイするには LLMGatewayService に設定します。JSON ファイルの構成方法については、「ステップ 1：LLM インテリジェントルーターサービスのデプロイ」をご参照ください。

高度なパラメーター

重要

高度なパラメーターは注意して調整してください。

パラメーター		必須	説明
rpc	batching	いいえ	GPU モデルを高速化するためにサーバーサイドバッチ処理を有効にするかどうかを指定します。これは事前構築済みプロセッサーモードでのみサポートされます。有効な値： false：デフォルト値。サーバーサイドバッチ処理は無効です。 true：サーバーサイドバッチ処理は有効です。
	keepalive	いいえ	単一リクエストの最大処理時間 (ミリ秒)。処理時間がこの値を超えると、サーバーは 408 タイムアウトエラーを返し、接続を閉じます。専用ゲートウェイのデフォルト値：600000。アプリケーション指向の専用ゲートウェイ (ALB) はこの構成をサポートしていません。
	io_threads	いいえ	各インスタンスのネットワーク I/O 処理に使用されるスレッド数。デフォルト値は 4 です。
	max_batch_size	いいえ	各バッチの最大サイズ。デフォルト値は 16 です。これは事前構築済みプロセッサーモードでのみサポートされます。このパラメーターは rpc.batching が true に設定されている場合にのみ有効です。
	max_batch_timeout	いいえ	各バッチの最大タイムアウト。デフォルト値は 50 ミリ秒です。これは事前構築済みプロセッサーモードでのみサポートされます。このパラメーターは rpc.batching が true に設定されている場合にのみ有効です。
	max_queue_size	いいえ	非同期推論サービスを作成する場合、これはキューの最大長です。デフォルト値は 64 です。キューがいっぱいになると、サーバーは 450 エラーを返し、接続を閉じます。サーバーの過負荷を防ぐため、キューは事前にクライアントに通知して他のインスタンスでリトライさせることができます。応答時間 (RT) が長いサービスの場合、リクエストがスタックしてタイムアウトするのを防ぐためにキューの長さを短くすることができます。
	worker_threads	いいえ	各インスタンスでの同時リクエスト処理に使用されるスレッド数。デフォルト値は 5 です。これは事前構築済みプロセッサーモードでのみサポートされます。
	rate_limit	いいえ	QPS 制限を有効にし、インスタンスが処理できる最大 QPS を制限します。デフォルト値は 0 で、QPS 制限を無効にします。例えば、このパラメーターを 2000 に設定すると、QPS が 2000 を超えた場合にリクエストは 429 (Too Many Requests) エラーで拒否されます。
	enable_sigterm	いいえ	有効な値： false (デフォルト)：インスタンスが終了状態に入るときに SIGTERM シグナルは送信されません。 true：サービスインスタンスが終了状態に入ると、システムはすぐにメインプロセスに SIGTERM シグナルを送信します。シグナルを受信した後、サービス内のプロセスはシグナルハンドラーでカスタムのグレースフルシャットダウン操作を実行する必要があります。シグナルが処理されない場合、メインプロセスはシグナル受信後に直接終了し、グレースフルシャットダウンが失敗する可能性があります。
rolling_strategy	max_surge	いいえ	サービスのローリングアップデート中に、指定されたインスタンス数を超えて作成できる追加インスタンスの最大数。このパラメーターは正の整数 (インスタンス数を示す) またはパーセンテージ (例：2%) にすることができます。デフォルトは 2% です。このパラメーターを増やすと、サービスの更新が高速化されます。例えば、サービスインスタンス数が 100 で、このパラメーターが 20 に設定されている場合、サービス更新が始まるとすぐに 20 の新しいインスタンスが作成されます。
rolling_strategy	max_unavailable	いいえ	ローリングアップデート中の利用不可インスタンスの最大数。このパラメーターは、サービス更新中に新しいインスタンス用のリソースを解放し、アイドルリソースの不足による更新の停滞を防ぐことができます。専用リソースグループでは、デフォルト値は 1 です。パブリックリソースグループでは、デフォルト値は 0 です。例えば、このパラメーターが N の場合、サービス更新が始まるとすぐに N 個のインスタンスが停止します。説明アイドルリソースが十分な場合は、このパラメーターを 0 に設定できます。このパラメーターを高く設定しすぎると、サービスの安定性に影響を与える可能性があります。これは、更新の瞬間に利用可能なインスタンス数が減少し、各インスタンスのトラフィック負荷が増加するためです。このパラメーターを構成する際は、サービスの安定性とリソースの可用性のバランスを取る必要があります。
eas.termination_grace_period		いいえ	インスタンスのグレースフルシャットダウン時間 (秒)。デフォルト値は 30 秒です。 EAS サービスはローリングアップデート戦略を使用します。インスタンスはまず終了中状態に入ります。その後、サービスは終了しようとしているインスタンスからトラフィックを迂回させます。インスタンスは、受信したリクエストを処理するために 30 秒待機してから終了します。リクエスト処理に時間がかかる場合は、この値を増やして、サービス更新中にすべての処理中のリクエストが処理されるようにすることができます。重要この値を小さくすると、サービスの安定性に影響します。この値を大きくしすぎると、サービスの更新が遅くなります。必要でない限り、このパラメーターは構成しないでください。
scheduling	spread.policy	いいえ	サービスインスタンススケジューリングのスプレッドポリシー。次のポリシーがサポートされています： host：インスタンスをできるだけ異なるノードに分散させます。 zone：インスタンスをノードが配置されている異なるゾーンにできるだけ分散させます。 default：アクティブな分散ロジックなしで、デフォルトポリシーに基づいてインスタンスをスケジュールします。構成例： `{ "metadata": { "scheduling": { "spread": { "policy": "host" } } }`
resource_rebalancing		いいえ	有効な値： false (デフォルト)：この機能は無効です。 true：EAS は高優先度のリソース上で定期的にプローブインスタンスを作成します。プローブインスタンスが正常にスケジュールされると、スケジューリングが失敗するまで指数関数的に多くのプローブインスタンスが作成されます。正常にスケジュールされたプローブインスタンスが初期化されて準備完了になると、低優先度のリソース上のインスタンスを置き換えます。この機能は、次の問題を解決できます：ローリングアップデート中、終了中のインスタンスがまだリソースを占有しています。これにより、新しいインスタンスがパブリックリソース上で起動します。パブリックリソースの制限により、新しいインスタンスはその後、専用リソースグループに再スケジュールされます。スポットインスタンスと通常インスタンスの両方が使用されている場合、システムは定期的にスポットインスタンスが利用可能かどうかを確認します。利用可能な場合、通常インスタンスはスポットインスタンスに移行されます。
workload_type		いいえ	EAS サービスをタスクとしてデプロイする場合は、このパラメーターを elasticjob に設定できます。Elastic Job サービスの使用に関する詳細については、「Elastic Job サービス」をご参照ください。
resource_burstable		いいえ	専用リソースグループを使用してデプロイされた EAS サービスの弾性リソースプール機能を有効にします： true：機能を有効にします。 false：機能を無効にします。
shm_size		いいえ	インスタンスの共有メモリを構成します。これにより、データのコピーや転送なしでメモリへの直接読み書きが可能になります。単位：GB。

cloud パラメーターの説明

パラメーター		必須	説明
computing	instances	いいえ	パブリックリソースグループを使用してサービスをデプロイする場合、このパラメーターを設定する必要があります。使用するリソース仕様のリストを指定します。インスタンスタイプの入札に失敗した場合や在庫が不足している場合、システムは構成された順序で次のインスタンスタイプを使用してサービスの作成を試みます。 type：リソース仕様。 spot_price_limit はオプションのパラメーターです：このパラメーターが構成されている場合、対応するインスタンスタイプがスポットインスタンスを使用し、価格上限を指定することを示します。単位：USD。従量課金がサポートされています。このパラメーターが構成されていない場合、対応するインスタンスタイプが通常の従量課金インスタンスであることを示します。 capacity：使用するこのタイプのインスタンス数の上限。数値 (例："500") または文字列 (例："20%") を指定できます。構成後、このタイプのインスタンス数が上限に達すると、このタイプの利用可能なリソースがあっても再度使用されません。例えば、サービスの総インスタンス数が 200 で、インスタンスタイプ A の capacity が 20% に設定されている場合、サービスは最大で 40 のタイプ A インスタンスを使用します。残りのインスタンスは他の仕様を使用して起動されます。
computing	disable_spot_protection_period	いいえ	スポットインスタンスを使用する場合、このパラメーターを設定する必要があります。有効な値： false (デフォルト)：スポットインスタンスが作成された後、デフォルトで 1 時間の保護期間があります。保護期間中、市場価格が入札価格を超えてもインスタンスは解放されません。 true：保護期間を無効にします。保護期間のないインスタンスは、保護期間のあるインスタンスよりも常に約 10% 安くなります。
networking	vpc_id	いいえ	EAS サービスにバインドする VPC、vSwitch、およびセキュリティグループ。
	vswitch_id	いいえ
	security_group_id	いいえ

例：

{
    "cloud": {
        "computing": {
            "instances": [
                {
                    "type": "ecs.c8i.2xlarge",
                    "spot_price_limit": 1
                },
                {
                    "type": "ecs.c8i.xlarge",
                    "capacity": "20%"
                }
            ],
            "disable_spot_protection_period": false
        },
        "networking": {
            "vpc_id": "vpc-bp1oll7xawovg9*****",
            "vswitch_id": "vsw-bp1jjgkw51nsca1e****",
            "security_group_id": "sg-bp1ej061cnyfn0b*****"
        }
    }
}

containers パラメーターの説明

カスタムイメージを使用してサービスをデプロイする場合は、「カスタムイメージ」をご参照ください。

パラメーター		必須	説明
image		はい	イメージを使用してデプロイする場合に必須です。モデルサービスのデプロイに使用されるイメージのアドレス。
env	name	いいえ	イメージ実行用の環境変数の名前。
env	value	いいえ	イメージ実行用の環境変数の値。
command		どちらか一方が必須	イメージのエントリコマンド。単一のコマンドのみをサポートし、`cd xxx && python app.py` のような複雑なスクリプトはサポートしません。複雑なスクリプトの場合は、`script` パラメーターを使用します。`command` フィールドは、イメージに `/bin/sh` コマンドが含まれていないシナリオに適しています。
script		どちらか一方が必須	イメージで実行するエントリスクリプト。複雑なスクリプトを指定できます。複数行を区切るには `\n` またはセミコロンを使用します。
port		いいえ	コンテナーポート。重要 EAS エンジンは固定ポート 8080 と 9090 をリッスンするため、コンテナーポートは 8080 または 9090 にできません。このポートは、command で指定された xxx.py ファイルで構成されたポートと同じである必要があります。
prepare	pythonRequirements	いいえ	インスタンス起動前にインストールする Python 要件のリスト。イメージにはシステムパスに `python` と `pip` コマンドが必要です。フォーマットはリストです。例： `"prepare": { "pythonRequirements": [ "numpy==1.16.4", "absl-py==0.11.0" ] }`
prepare	pythonRequirementsPath	いいえ	インスタンス起動前にインストールする `requirements.txt` ファイルへのパス。イメージにはシステムパスに `python` と `pip` コマンドが必要です。`requirements.txt` ファイルは、イメージに直接含めるか、外部ストレージからサービスインスタンスにマウントできます。例： `"prepare": { "pythonRequirementsPath": "/data_oss/requirements.txt" }`

networking パラメーターの説明

パラメーター

必須

説明

gateway

いいえ

EAS サービス用に構成された専用ゲートウェイ。

gateway_policy

いいえ

rate_limit：サービスのグローバルレート制限。サービスが 1 秒あたりに受信できるリクエストの最大数です。
- enable：レート制限を有効にするかどうかを指定します。`true` は有効、`false` は無効です。
- limit：レート制限値。
  説明
  共有ゲートウェイを使用するサービスの場合、単一サービスのデフォルト QPS 制限は 1,000、サーバーグループのデフォルト QPS 制限は 10,000 です。専用ゲートウェイにはデフォルト値は設定されていません。
concurrency_limit：サービスのグローバル同時実行制御。任意の瞬間に処理中のリクエストの最大数です。アプリケーション指向の専用ゲートウェイ (ALB) はこの設定をサポートしていません。
- enable：レート制限を有効にするかどうかを指定します。`true` は有効、`false` は無効です。
- limit：レート制限値。

レート制限の構成例：

{
    "networking": {
        "gateway_policy": {
            "rate_limit": {
                "enable": true,
                "limit": 100
            },
            "concurrency_limit": {
                "enable": true,
                "limit": 50
            }
        }
    }
}

sinker パラメーターの説明

パラメーター		必須	説明
type		いいえ	次の 2 つのストレージクラスがサポートされています： maxcompute：MaxCompute。 sls：Simple Log Service (SLS)。
config	maxcompute.project	いいえ	MaxCompute プロジェクト名。
	maxcompute.table	いいえ	MaxCompute データテーブル。
	sls.project	いいえ	SLS プロジェクト名。
	sls.logstore	いいえ	SLS の Logstore。

構成例：

MaxCompute への保存

"sinker": {
        "type": "maxcompute",
        "config": {
            "maxcompute": {
                "project": "cl****",
                "table": "te****"
            }
        }
    }

Simple Log Service (SLS) への保存

"sinker": {
        "type": "sls",
        "config": {
            "sls": {
                "project": "k8s-log-****",
                "logstore": "d****"
            }
        }
    }

付録：JSON 構成例

次の例は、前述のパラメーターが JSON ファイルでどのように構成されるかを示しています：

{
  "token": "****M5Mjk0NDZhM2EwYzUzOGE0OGMx****",
  "processor": "tensorflow_cpu_1.12",
  "model_path": "oss://examplebucket/exampledir/",
  "oss_endpoint": "oss-cn-beijing.aliyuncs.com",
  "model_entry": "",
  "model_config": "",
  "processor_path": "",
  "processor_entry": "",
  "processor_mainclass": "",
  "processor_type": "",
  "warm_up_data_path": "",
  "runtime": {
    "enable_crash_block": false
  },
  "unit": {
        "size": 2
    },
  "sinker": {
        "type": "maxcompute",
        "config": {
            "maxcompute": {
                "project": "cl****",
                "table": "te****"
            }
        }
    },
  "cloud": {
    "computing": {
      "instances": [
        {
          "capacity": 800,
          "type": "dedicated_resource"
        },
        {
          "capacity": 200,
          "type": "ecs.c7.4xlarge",
          "spot_price_limit": 3.6
        }
      ],
      "disable_spot_protection_period": true
    },
    "networking": {
            "vpc_id": "vpc-bp1oll7xawovg9t8****",
            "vswitch_id": "vsw-bp1jjgkw51nsca1e****",
            "security_group_id": "sg-bp1ej061cnyfn0b****"
        }
  },
  "autoscaler": {
    "min": 2,
    "max": 5,
    "strategies": {
      "qps": 10
    }
  },
  "storage": [
    {
      "mount_path": "/data_oss",
      "oss": {
        "endpoint": "oss-cn-shanghai-internal.aliyuncs.com",
        "path": "oss://bucket/path/"
      }
    }
  ],
  "confidential": {
        "trustee_endpoint": "xx",
        "decryption_key": "xx"
    },
  "metadata": {
    "name": "test_eascmd",
    "resource": "eas-r-9lkbl2jvdm0puv****",
    "instance": 1,
    "workspace_id": "1405**",
    "gpu": 0,
    "cpu": 1,
    "memory": 2000,
    "gpu_memory": 10,
    "gpu_core_percentage": 10,
    "qos": "",
    "cuda": "11.2",
    "enable_grpc": false,
    "enable_webservice": false,
    "rdma": 1,
    "rpc": {
      "batching": false,
      "keepalive": 5000,
      "io_threads": 4,
      "max_batch_size": 16,
      "max_batch_timeout": 50,
      "max_queue_size": 64,
      "worker_threads": 5,
      "rate_limit": 0,
      "enable_sigterm": false
    },
    "rolling_strategy": {
      "max_surge": 1,
      "max_unavailable": 1
    },
    "eas.termination_grace_period": 30,
    "scheduling": {
      "spread": {
        "policy": "host"
      }
    },
    "resource_rebalancing": false,
    "workload_type": "elasticjob",
    "shm_size": 100
  },
  "features": {
    "eas.aliyun.com/extra-ephemeral-storage": "100Gi",
    "eas.aliyun.com/gpu-driver-version": "tesla=550.127.08"
  },
  "networking": {
    "gateway": "gw-m2vkzbpixm7mo****"
  },
  "containers": [
    {
      "image": "registry-vpc.cn-shanghai.aliyuncs.com/xxx/yyy:zzz",
      "prepare": {
        "pythonRequirements": [
          "numpy==1.16.4",
          "absl-py==0.11.0"
        ]
      },
      "command": "python app.py",
      "port": 8000
    }
  ],
  "dockerAuth": "dGVzdGNhbzoxM*******"
}