共有ゲートウェイ (パブリックエンドポイント / VPC) 経由のサービス呼び出し - Platform For AI

EAS サービスがデプロイされると、デフォルトで共有ゲートウェイが提供されます。このゲートウェイを使用して、パブリックエンドポイントまたは VPC アドレス経由でデプロイされたモデル推論サービスを呼び出すことができます。

重要

共有ゲートウェイは、開発環境およびテスト環境での使用を推奨します。本番環境では、専用ゲートウェイを使用してください。

呼び出しアドレスの選択

共有ゲートウェイがデプロイされると、デフォルトで 2 種類の呼び出しアドレスが提供されます。

呼び出しアドレス

説明

ユースケース

パブリックエンドポイント

EAS 共有ゲートウェイは、リクエストをターゲットサービスに転送します。この方法は、パブリックインターネットにアクセスできるあらゆる環境に適しています。

Alibaba Cloud 外部からの呼び出し
ローカルでの開発とテスト

VPC アドレス

アプリケーションと EAS サービスが同じリージョンにデプロイされているシナリオに適しています。

重要

パブリックインターネット経由の呼び出しと比較して、VPC 経由の呼び出しは、パブリックネットワークのオーバーヘッドを回避することでレイテンシーが低く、VPC 内のトラフィックは通常無料であるため、コスト効率が高くなります。

Alibaba Cloud 内部からの呼び出し (EAS サービスと同じリージョン内)
より低いレイテンシーとコストが求められる場合
サービスがパブリックインターネットに公開されるのを防ぎたい場合

アプリケーションと EAS サービスが異なるリージョンにある場合、VPC が接続されていても、共有ゲートウェイの VPC アドレスを使用してサービスにアクセスすることはできません。この場合、インスタンス IP アドレスとポートを使用してのみサービスにアクセスできます。ただし、サービスの再起動または更新時に IP アドレスが変更されるため、専用ゲートウェイの使用を推奨します。

サービスの呼び出し

ステップ 1: エンドポイントとトークンの取得

サービスをデプロイすると、システムは自動的にエンドポイントと認証トークンを生成します。

重要

コンソールはベースエンドポイントを提供します。完全なリクエスト URL を構築する際は、このベースエンドポイントに正しい API パスを追加する必要があります。 404 Not Found エラーの最も一般的な原因は、パスが正しくないことです。

Inference Service タブで、ターゲットサービスの名前をクリックして Overview ページに移動します。
Basic Information セクションで、View Endpoint Information をクリックします。
Invocation Method パネルで、エンドポイントとトークンをコピーします。
- 必要に応じて、[public endpoint] または [VPC address] を選択します。
- 以下の例では、エンドポイントのプレースホルダーとして <EAS_ENDPOINT> を、トークンのプレースホルダーとして <EAS_TOKEN> を使用します。

ステップ 2: リクエストの構築と送信

パブリックエンドポイントを使用する場合でも、VPC アドレスを使用する場合でも、リクエスト形式は同じです。標準的なリクエストには、以下の要素が含まれます。

要素	説明
メソッド	最も一般的なメソッドは POST と GET です。
リクエストパス (URL)	フォーマット：<EAS_ENDPOINT> + API パス。例： `http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test/v1/chat/completions`
Authorization (必須)	`Authorization: <EAS_TOKEN>`、認証に使用します。
Content-Type	`Content-Type: application/json`、通常は POST リクエストで必要です。
リクエスト本文	デプロイされたモデルの API 仕様によってフォーマットが決まります。ゲートウェイ経由で送信する場合、リクエスト本文は 1 MB を超えることはできません。

呼び出し例

次の例は、vLLM でデプロイされた DeepSeek-R1-Distill-Qwen-7B モデルサービスを呼び出す方法を示しています。<EAS_ENDPOINT> が http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test であると仮定します。

リクエスト本文：

{
    "model": "DeepSeek-R1-Distill-Qwen-7B",
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant."
    },
    {
        "role": "user",
        "content": "hello!"
    }
    ]
}

コード例：

curl http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: *********5ZTM1ZDczg5OT**********" \
-X POST \
-d '{
    "model": "DeepSeek-R1-Distill-Qwen-7B",
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant."
    },
    {
        "role": "user",
        "content": "hello!"
    }
    ]
}'

import requests

# 実際のエンドポイントに置き換えてください。
url = 'http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test/v1/chat/completions'
# Authorization ヘッダーの値は、実際のトークンに置き換えてください。
headers = {
    "Content-Type": "application/json",
    "Authorization": "*********5ZTM1ZDczg5OT**********",
}
# 特定のモデルで必要とされるデータ形式に基づいて、サービスリクエストを構築します。
data = {
    "model": "DeepSeek-R1-Distill-Qwen-7B",
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "hello!"
        }
    ]
}
# リクエストを送信します。
resp = requests.post(url, json=data, headers=headers)
print(resp)
print(resp.content)

大規模言語モデル (LLM) サービスの呼び出しに関する詳細は、「LLM サービスの呼び出し」をご参照ください。

その他のデプロイシナリオ

モデルギャラリーからデプロイされたモデル：モデルの Overview ページには通常、完全な URL パスやリクエスト形式を含む API 呼び出しの例が記載されています。

cURL コマンド

共通パラメーター：

パラメーター	説明	例
`-X`	HTTP メソッドを指定します。	`-X POST`
`-H`	リクエストヘッダーを追加します。	`-H "Content-Type: application/json"`
`-d`	リクエスト本文を追加します。	`-d '{"key": "value"}'`

Python コード

次の例では、Qwen3-Reranker-8B モデルを使用して、Python コードでサービスを呼び出す方法を示します。URL とリクエスト本文が、前述の DeepSeek モデルの cURL の例とは異なることに注意してください。常にモデルの [Overview] ページの指示に従ってください。

シナリオベースのデプロイ：
汎用プロセッサ (TensorFlow、Caffe、PMML など) を使用してデプロイされたサービス：「汎用プロセッサに基づくサービスリクエストの構築」をご参照ください。
その他のカスタムサービス：リクエスト形式は、カスタムイメージまたはコードで定義されたデータ入力形式によって決まります。
独自にトレーニングしたモデル：呼び出し方法は、元のモデルと同じです。

よくある質問

サービス呼び出しに関する一般的な問題と解決策は、「サービス呼び出しに関するよくある質問」をご参照ください。