すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:ゲートウェイ経由でのインターネットまたはプライベートネットワークからのサービス呼び出し

最終更新日:Mar 04, 2026

Elastic Algorithm Service (EAS) は、デプロイされたモデル推論サービスを呼び出すための共有ゲートウェイと専用ゲートウェイを提供します。これらのサービスには、インターネットまたはプライベートネットワーク経由でアクセスできます。どちらの方法でもプロセスは似ています。ニーズに最適なゲートウェイタイプとアクセス方法を選択してください。

ゲートウェイタイプの選択

EAS は共有ゲートウェイと専用ゲートウェイを提供します。違いは以下のとおりです。

比較

共有ゲートウェイ

専用ゲートウェイ

パブリックネットワークからの呼び出し

デフォルトでサポート

サポートされていますが、最初に有効にする必要があります

プライベートネットワークアクセス

デフォルトでサポート

サポートされていますが、最初に有効にする必要があります

コスト

無料

追加料金が必要

帯域幅

共有

専用

シナリオ

トラフィックが少なく、カスタムアクセスポリシーを必要としないステージング環境のサービス

高いセキュリティ、安定性、パフォーマンスを必要とする高トラフィックのサービス

構成方法

デフォルト構成。すぐに使用可能。

最初に作成し、デプロイ時に選択する必要があります。詳細については、「専用ゲートウェイの使用」をご参照ください。

推奨事項:

  • 開発およびテスト環境には 共有ゲートウェイ を使用します。

  • 本番環境には 専用ゲートウェイ を使用します。

アクセス方法の選択

インターネットエンドポイント

環境にインターネットアクセスがある場合は、この方法を使用します。リクエストは EAS 共有ゲートウェイを介してデプロイされたサービスに転送されます。

シナリオ:

  • Alibaba Cloud の外部からのサービス呼び出し

  • ローカルでの開発とテスト

  • 外部アプリケーションとの統合

VPC アドレス

アプリケーションと EAS サービスが 同じリージョン にデプロイされている場合は、この方法を使用します。同じリージョン内の VPC ネットワークは、安全な通信のために VPC 接続を確立できます。

シナリオ:

  • アプリケーションが EAS サービスと同じリージョンの Alibaba Cloud 上で実行されている場合。

  • より低いレイテンシーとコストが求められます。

  • サービスをインターネットに公開すべきではない場合。

重要

インターネット経由での呼び出しと比較して、VPC 内での呼び出しは、インターネットアクセスによるネットワークパフォーマンスのオーバーヘッドを回避するため、高速です。また、プライベートネットワークトラフィックは通常無料であるため、コストも安くなります。

サービスの呼び出し方法

EAS サービスを呼び出すには、次の3つの主要な要素が必要です。

  • サービスエンドポイント

  • 認証トークン

  • モデルの API 仕様に従って構造化されたリクエスト

ステップ 1: エンドポイントとトークンの取得

サービスをデプロイすると、システムは自動的にエンドポイントと認証トークンを生成します。

重要

コンソールはベースエンドポイントを提供します。通常、完全なリクエスト URL を形成するには、正しい API パスを追加する必要があります。不正確なパスは、404 Not Found エラーの最も一般的な原因です。

  1. Inference Service タブで、対象のサービス名をクリックして、Overview ページに移動します。

  2. Basic Information セクションで、View Endpoint Information をクリックします。

  3. Invocation Method パネルで、エンドポイントとトークンをコピーします。

    • 必要に応じて インターネットエンドポイント または VPC エンドポイント を選択します。

    • 以下の例では、エンドポイントに <EAS_ENDPOINT>、トークンに <EAS_TOKEN> を使用しています。

    image

ステップ 2: リクエストの構築と送信

インターネットエンドポイントを使用する場合でも VPC エンドポイントを使用する場合でも、リクエスト形式は同じです。標準リクエストには通常、次の4つのコア要素が含まれます。

  • メソッド: 最も一般的なメソッドは POST と GET です。

  • URL:

    • 形式: <EAS_ENDPOINT> + API パス

    • 例: http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test + /v1/chat/completion

  • ヘッダー:

    • Authorization: <EAS_TOKEN> (認証に必要)

    • Content-Type: application/json (通常、POST リクエストに必要)

  • ボディ: JSON などの形式は、デプロイされたモデルの API 仕様によって異なります。

    重要

    ゲートウェイ経由で呼び出す場合、リクエストボディサイズは 1 MB を超えることはできません。

呼び出し例

vLLM でデプロイされた DeepSeek-R1-Distill-Qwen-7B モデルサービスを呼び出すには、次の要素が必要です。

  • メソッド: POST

  • リクエストパス: <EAS_ENDPOINT>/v1/chat/completions (チャット API)

  • ヘッダー:

    • Authorization: <Token>

    • Content-Type: application/json

  • リクエストボディ:

    {
        "model": "DeepSeek-R1-Distill-Qwen-7B",
        "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "hello!"
        }
        ]
    }

コード例:

<EAS_ENDPOINT> が http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test であると仮定します。

curl http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: *********5ZTM1ZDczg5OT**********" \
-X POST \
-d '{
    "model": "DeepSeek-R1-Distill-Qwen-7B",
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant."
    },
    {
        "role": "user",
        "content": "hello!"
    }
    ]
}' 
import requests

# Replace with your actual endpoint.
url = 'http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test/v1/chat/completions'
# The value of Authorization in the header is your actual token.
headers = {
    "Content-Type": "application/json",
    "Authorization": "*********5ZTM1ZDczg5OT**********",
}
# Construct the service request based on the data format required by the specific model.
data = {
    "model": "DeepSeek-R1-Distill-Qwen-7B",
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "hello!"
        }
    ]
}
# Send the request.
resp = requests.post(url, json=data, headers=headers)
print(resp)
print(resp.content)

大規模言語モデル (LLM) サービスの呼び出しの詳細については、「LLM サービス呼び出し」をご参照ください。

その他のシナリオ

  • モデルギャラリーからデプロイされたモデル: これらのモデルの Overview ページには、通常、完全な URL パスおよびリクエストフォーマットを含む API 呼び出しの例が記載されています。

    cURL コマンド

    基本構文: curl [options] [URL]

    一般的なパラメーター (オプション):

    • -X: -X POST のように HTTP メソッドを指定します。

    • -H: -H "Content-Type: application/json" のようにリクエストヘッダーを追加します。

    • -d: -d '{"key": "value"}' のようにリクエストボディを追加します。

    image

    Python コード

    以下の Python コードは、Qwen3-Reranker-8B モデルを例として使用しています。その URL とリクエストボディは cURL コマンドの例とは異なることに注意してください。対応するモデルの紹介を必ず参照してください。

    image

  • シナリオベースのデプロイメント:

  • TensorFlow、Caffe、PMML などの汎用プロセッサを使用してデプロイされたサービス: 詳細については、「汎用プロセッサに基づいてサービスリクエストを構築」をご参照ください。

  • その他のカスタムサービス: リクエスト形式は、カスタムイメージまたはコードで定義するデータ入力形式によって決定されます。

  • 自分でトレーニングしたモデル: 呼び出し方法は元のモデルと同じです。

よくある質問

サービス呼び出しに関連するよくある質問とソリューションについては、「サービス呼び出しのよくある質問」をご参照ください。