パブリックまたは VPC エンドポイントによる PAI-EAS モデルの呼び出し - Platform for AI

Elastic Algorithm Service (EAS) は、デプロイされたモデル推論サービスを呼び出すための共有ゲートウェイと専用ゲートウェイを提供します。これらのサービスには、インターネットまたはプライベートネットワーク経由でアクセスできます。どちらの方法でもプロセスは似ています。ニーズに最適なゲートウェイタイプとアクセス方法を選択してください。

ゲートウェイタイプの選択

EAS は共有ゲートウェイと専用ゲートウェイを提供します。違いは以下のとおりです。

比較	共有ゲートウェイ	専用ゲートウェイ
パブリックネットワークからの呼び出し	デフォルトでサポート	サポートされていますが、最初に有効にする必要があります
プライベートネットワークアクセス	デフォルトでサポート	サポートされていますが、最初に有効にする必要があります
コスト	無料	追加料金が必要
帯域幅	共有	専用
シナリオ	トラフィックが少なく、カスタムアクセスポリシーを必要としないステージング環境のサービス	高いセキュリティ、安定性、パフォーマンスを必要とする高トラフィックのサービス
構成方法	デフォルト構成。すぐに使用可能。	最初に作成し、デプロイ時に選択する必要があります。詳細については、「専用ゲートウェイの使用」をご参照ください。

推奨事項:

開発およびテスト環境には 共有ゲートウェイ を使用します。
本番環境には 専用ゲートウェイ を使用します。

アクセス方法の選択

インターネットエンドポイント

環境にインターネットアクセスがある場合は、この方法を使用します。リクエストは EAS 共有ゲートウェイを介してデプロイされたサービスに転送されます。

シナリオ:

Alibaba Cloud の外部からのサービス呼び出し
ローカルでの開発とテスト
外部アプリケーションとの統合

VPC アドレス

アプリケーションと EAS サービスが 同じリージョン にデプロイされている場合は、この方法を使用します。同じリージョン内の VPC ネットワークは、安全な通信のために VPC 接続を確立できます。

シナリオ:

アプリケーションが EAS サービスと同じリージョンの Alibaba Cloud 上で実行されている場合。
より低いレイテンシーとコストが求められます。
サービスをインターネットに公開すべきではない場合。

重要

インターネット経由での呼び出しと比較して、VPC 内での呼び出しは、インターネットアクセスによるネットワークパフォーマンスのオーバーヘッドを回避するため、高速です。また、プライベートネットワークトラフィックは通常無料であるため、コストも安くなります。

サービスの呼び出し方法

EAS サービスを呼び出すには、次の3つの主要な要素が必要です。

サービスエンドポイント
認証トークン
モデルの API 仕様に従って構造化されたリクエスト

ステップ 1: エンドポイントとトークンの取得

サービスをデプロイすると、システムは自動的にエンドポイントと認証トークンを生成します。

重要

コンソールはベースエンドポイントを提供します。通常、完全なリクエスト URL を形成するには、正しい API パスを追加する必要があります。不正確なパスは、404 Not Found エラーの最も一般的な原因です。

Inference Service タブで、対象のサービス名をクリックして、Overview ページに移動します。
Basic Information セクションで、View Endpoint Information をクリックします。
Invocation Method パネルで、エンドポイントとトークンをコピーします。
- 必要に応じて インターネットエンドポイント または VPC エンドポイント を選択します。
- 以下の例では、エンドポイントに <EAS_ENDPOINT>、トークンに <EAS_TOKEN> を使用しています。

ステップ 2: リクエストの構築と送信

インターネットエンドポイントを使用する場合でも VPC エンドポイントを使用する場合でも、リクエスト形式は同じです。標準リクエストには通常、次の4つのコア要素が含まれます。

メソッド: 最も一般的なメソッドは POST と GET です。
URL:
- 形式: <EAS_ENDPOINT> + API パス
- 例: http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test + /v1/chat/completion
ヘッダー:
- Authorization: <EAS_TOKEN> (認証に必要)
- Content-Type: application/json (通常、POST リクエストに必要)
ボディ: JSON などの形式は、デプロイされたモデルの API 仕様によって異なります。
重要
ゲートウェイ経由で呼び出す場合、リクエストボディサイズは 1 MB を超えることはできません。

呼び出し例

vLLM でデプロイされた DeepSeek-R1-Distill-Qwen-7B モデルサービスを呼び出すには、次の要素が必要です。

メソッド: POST
リクエストパス: <EAS_ENDPOINT>/v1/chat/completions (チャット API)
ヘッダー:
- Authorization: <Token>
- Content-Type: application/json

リクエストボディ:

{
    "model": "DeepSeek-R1-Distill-Qwen-7B",
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant."
    },
    {
        "role": "user",
        "content": "hello!"
    }
    ]
}

コード例:

<EAS_ENDPOINT> が http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test であると仮定します。

curl

curl http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: *********5ZTM1ZDczg5OT**********" \
-X POST \
-d '{
    "model": "DeepSeek-R1-Distill-Qwen-7B",
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant."
    },
    {
        "role": "user",
        "content": "hello!"
    }
    ]
}'

Python

import requests

# Replace with your actual endpoint.
url = 'http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test/v1/chat/completions'
# The value of Authorization in the header is your actual token.
headers = {
    "Content-Type": "application/json",
    "Authorization": "*********5ZTM1ZDczg5OT**********",
}
# Construct the service request based on the data format required by the specific model.
data = {
    "model": "DeepSeek-R1-Distill-Qwen-7B",
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "hello!"
        }
    ]
}
# Send the request.
resp = requests.post(url, json=data, headers=headers)
print(resp)
print(resp.content)

大規模言語モデル (LLM) サービスの呼び出しの詳細については、「LLM サービス呼び出し」をご参照ください。

その他のシナリオ

モデルギャラリーからデプロイされたモデル: これらのモデルの Overview ページには、通常、完全な URL パスおよびリクエストフォーマットを含む API 呼び出しの例が記載されています。
cURL コマンド
基本構文: curl [options] [URL]
一般的なパラメーター (オプション):
- -X: -X POST のように HTTP メソッドを指定します。
- -H: -H "Content-Type: application/json" のようにリクエストヘッダーを追加します。
- -d: -d '{"key": "value"}' のようにリクエストボディを追加します。
Python コード
以下の Python コードは、Qwen3-Reranker-8B モデルを例として使用しています。その URL とリクエストボディは cURL コマンドの例とは異なることに注意してください。対応するモデルの紹介を必ず参照してください。
シナリオベースのデプロイメント:
TensorFlow、Caffe、PMML などの汎用プロセッサを使用してデプロイされたサービス: 詳細については、「汎用プロセッサに基づいてサービスリクエストを構築」をご参照ください。
その他のカスタムサービス: リクエスト形式は、カスタムイメージまたはコードで定義するデータ入力形式によって決定されます。
自分でトレーニングしたモデル: 呼び出し方法は元のモデルと同じです。

よくある質問

サービス呼び出しに関連するよくある質問とソリューションについては、「サービス呼び出しのよくある質問」をご参照ください。