すべてのプロダクト
Search
ドキュメントセンター

API Gateway:ゲートウェイインスタンスの作成

最終更新日:Dec 03, 2025

このトピックでは、AI Gateway インスタンスを作成する方法について説明します。

操作手順

  1. AI Gateway コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[AI Gateway] > [インスタンス] をクリックします。上部のナビゲーションバーで、リージョンを選択します。

  3. [インスタンスの作成] をクリックします。AI Gateway の購入ページで、必要な設定を選択し、[今すぐ購入] をクリックします。

    設定項目

    説明

    製品タイプ

    [専用インスタンス (従量課金)][専用インスタンス (サブスクリプション)]、および [サーバーレス (従量課金)] をサポートしています。これら 3 種類の課金方法の詳細については、「課金」をご参照ください。

    リージョン

    ゲートウェイのリージョンを選択します。

    重要

    リソースの作成後は、そのリージョンを変更することはできません。

    ゲートウェイ名

    ゲートウェイのカスタム名を入力します。推奨される命名規則は `environment` または `environment-business_realm` です (例:`test`、`order-prod`)。名前は最大 64 文字です。

    ゲートウェイ仕様

    実際の要件に基づいてノード仕様を選択します。さまざまなゲートウェイ仕様のキャパシティ仕様については、「プロダクトの選択」をご参照ください。サーバーレス版にはゲートウェイ仕様はありません。

    リソースグループ

    デフォルトのリソースグループまたは既存のリソースグループを使用します。新しいリソースグループを作成するには、[リソースグループの作成] をクリックします。

    説明

    リソースグループを使用して、ご利用の Alibaba Cloud アカウント配下のリソースを分類および管理します。これにより、各リソースを個別に管理する代わりに、グループごとに権限の管理、リソースのデプロイ、リソースのモニタリングを行うことができます。

    ネットワークアクセスタイプ

    [パブリックネットワーク][プライベートネットワーク][パブリックネットワーク + プライベートネットワーク] の 3 種類のアクセスタイプをサポートしています。

    • インターネット:インターネット経由でゲートウェイにアクセスすると、Cloud Data Transfer (CDT) に基づいて一律に課金され、マルチラインパターンのボーダーゲートウェイプロトコル (BGP) を使用するトラフィックに対してデータ転送コストが発生します。詳細については、「インターネットデータ転送」をご参照ください。

    • プライベートネットワーク:プライベートネットワーク経由のアクセスでは、データ転送コストは発生しません。

    • インターネット + プライベートネットワーク:

      インターネット経由でゲートウェイにアクセスすると、データ転送コストが発生します。インターネットトラフィックは CDT に基づいて課金され、BGP (マルチライン) モードを使用します。プライベートネットワーク経由のアクセスでは、データ転送コストは発生しません。

    VPC

    ゲートウェイインスタンスが実行される VPC を選択します。新しい VPC を作成するには、VPC コンソールに移動します。

    説明
    • ゲートウェイの VPC は、サービスの VPC と同じである必要があります。

    ゾーン選択

    [自動割り当て] または [手動選択] を選択します。

    • 自動割り当て:vSwitch を選択すると、システムが自動的に 2 つのゾーンを割り当ててゲートウェイノードをデプロイします。

    • 手動選択:ゲートウェイノードをデプロイするゾーンと vSwitch を手動で選択します。

    VSwitch

    ゲートウェイインスタンスが実行される vSwitch を選択します。新しい vSwitch を作成するには、VPC コンソールに移動します。

    Simple Log Service

    [Simple Log Service (SLS) を使用] を選択して Simple Log Service (SLS) をアクティブ化し、ゲートウェイログ配信機能を有効にすると、ログ分析とダッシュボードが提供されます。詳細については、「ゲートウェイログ配信の有効化」をご参照ください。

    サービスにリンクされたロール

    自動的に作成されます。このロールにより、AI Gateway は他の Alibaba Cloud サービスにアクセスできます。

  4. [注文の確認] ページで、AI Gateway の設定詳細を確認し、[今すぐ購入] をクリックします。

    説明

    ゲートウェイインスタンスの作成には 1 分から 5 分かかります。

  5. AI Gateway の [インスタンス] ページに戻ります。ゲートウェイ情報が正しく、[実行ステータス][実行中] であることを確認します。これは、ゲートウェイが正常に作成されたことを示します。

高度な機能

ゲートウェイインスタンスを作成する際に、高度な機能を設定して、ログデータをモニタリングや分析に使用したり、リクエストとレスポンスを圧縮してゲートウェイトラフィックを削減したりできます。Gzip ハードウェアアクセラレーションは、インスタンス作成時にのみ有効にできます。インスタンス作成後にこの機能を有効にすることはできません。ただし、Simple Log Service (SLS) を有効にするタイミングに制限はありません。

Gzip ハードウェアアクセラレーションの有効化

Gzip ハードウェアアクセラレーションは、専用のハードウェアデバイスを使用して高速なデータ圧縮と展開を行う技術です。Gzip の圧縮と展開のタスクを CPU から専用ハードウェアにオフロードすることで、この技術は処理効率を大幅に向上させ、CPU 負荷を軽減します。

説明

サーバーレス版では Gzip ハードウェアアクセラレーションはサポートされていません。

操作手順

  1. AI Gateway の購入ページで、次のパラメーターを設定し、[今すぐ購入] をクリックしてゲートウェイインスタンスを作成します。

    • リージョン:Gzip ハードウェアアクセラレーションは、中国 (杭州)、中国 (北京)、中国 (上海)、中国 (深セン)、中国 (ウランチャブ)、中国 (香港)、シンガポールの各リージョンでサポートされています。

      この機能は、サポートされているリージョン内の一部のゾーンでは利用できない場合があります。最新情報については、プロダクト購入ページをご参照ください。
    • ゲートウェイ仕様[aigw.medium.x1] 以上を選択します。

    • Gzip ハードウェアアクセラレーション:このオプションを選択して、Gzip ハードウェアアクセラレーションを有効にします。

    • ゾーン[Gzip ハードウェアアクセラレーションをサポート] するゾーンを選択し、次に vSwitch を選択します。

  2. インスタンスが作成されたら、対象インスタンスの ID または名前をクリックします。左側のナビゲーションウィンドウで、[パラメーター設定] をクリックします。[ゲートウェイエンジンパラメーター] エリアで、[EnableGzipHardwareAccelerate] パラメーターを編集します。

    説明

    インスタンスの購入時に [Gzip ハードウェアアクセラレーションを有効にする] を選択しなかった場合、後でこの機能を有効にすることはできません。

  3. この機能を有効にした後、クライアントは Gzip 圧縮データを処理できる必要があります。サポートされているクライアントの場合、Accept-Encoding: gzip リクエストヘッダーを追加します。

パフォーマンスリファレンス

Gzip 圧縮を有効にすると、どのくらいのトラフィックを節約できますか?

Gzip を使用して圧縮する場合、圧縮後のデータサイズと元のデータサイズの比率である圧縮率は、データ自体に大きく依存します。圧縮率が低いほど圧縮効果が高く、圧縮率が高いほど圧縮効果が低いことを示します。

一般的に、テキスト内の文字、単語、句読点など、データに多くの繰り返しパターンや構造が含まれている場合、Gzip 圧縮はより効果的で、圧縮率は低くなります。逆に、画像、動画、すでに圧縮されたファイルなど、ランダム性とエントロピーが高いデータの場合、内部の繰り返しが少ないため、圧縮効果は限定的で、圧縮率は通常高くなります。

圧縮率は、ビジネスの属性によってお客様ごとに大きく異なります。コアリージョンで Gzip を有効にしているインスタンスの統計によると、ほとんどのインスタンスの圧縮率は 10% から 50% の範囲です。これは、Gzip を有効にすると、平均で 50% 以上のトラフィックを節約できることを意味します。

Gzip がすでに有効な場合、ハードウェアアクセラレーションを使用すると、どのくらいのインスタンスリソースを節約できますか?

Gzip ハードウェアアクセラレーションを有効にすると、ゲートウェイは専用のハードウェアを使用して圧縮を行うため、CPU リソースを節約できます。以下のストレステストデータは、Gzip ハードウェアアクセラレーションを有効にしたスタンドアロンインスタンスと、ソフトウェアベースの Gzip を使用する 4 ノードインスタンスの CPU 使用率を比較したものです。両方のインスタンスは、同じ秒間クエリ数 (QPS) を処理します。

たとえば、圧縮データは約 120 KB の JSON テキストです。

QPS

ハードウェアアクセラレーション Gzip / aigw.medium.x1 / シングルノード CPU 使用率

ソフトウェアベース Gzip / aigw.medium.x1 / 4 ノード CPU 使用率

2000

9%

11%

5000

26%

28%

10000

56%

56%

13000

69%

72%

この表から、Gzip ハードウェアアクセラレーションを備えたシングルノードインスタンスの CPU 使用率が、ソフトウェアベースの Gzip を備えた 4 ノードインスタンスの CPU 使用率とほぼ同じであることがわかります。これは、元々 4 つのノードを必要としていたワークロードが、Gzip ハードウェアアクセラレーションを有効にすると単一のノードで処理できるようになり、インスタンスリソースを約 75% 節約できることを意味します。

ゲートウェイログ配信の有効化

ゲートウェイの運用ログを収集、保存、分析するために、ゲートウェイインスタンスの作成時に Simple Log Service (SLS) をアクティブ化できます。これにより、ログ分析とダッシュボードモニタリングが可能になります。

ゲートウェイインスタンスを作成する際に、[Simple Log Service (SLS) を使用] を選択します。この操作により、SLS がアクティブ化され、ゲートウェイログ配信機能が有効になります。

ログ配信を有効にした後、[可観測性 & 分析] > [ログセンター] に移動してゲートウェイログを表示できます。

ログフィールドの説明

フィールド名

タイプ

説明

__time__

long

ログが生成された時間。

cluster_id

string

購入したゲートウェイインスタンス。

ai_log

json

Model API、Agent API、および MCP API 用に設計されたログフィールド。フィールドは JSON 形式です。このフィールドは、他のタイプの API では空です。

  • api:AI API の名前。

  • cache_status:Model API のコンテンツキャッシュが有効な場合、このフィールドはリクエストがキャッシュにヒットしたかどうかを示します。

  • consumer:コンシューマー認証が有効な場合、このフィールドは現在のリクエストのコンシューマーの ID を記録します。

  • fallback_from:Model API のフォールバックポリシーが有効な場合、このフィールドはリクエストがフォールバックしたルートを記録します。

  • input_token:LLM リクエストの入力トークン数。

  • llm_first_token_duration:LLM リクエストの最初のパケットの応答時間 (RT)。

  • llm_service_duration:LLM リクエストの全体的な RT。

  • model:LLM リクエストのモデル名。

  • output_token:LLM リクエストの出力トークン数。

  • response_type:LLM リクエストのレスポンスタイプ (ストリーミングまたは非ストリーミングなど)。

  • safecheck_status:LLM リクエストの Content Moderation ステータス。

  • token_ratelimit_status:LLM リクエストがトークンベースのレート制限によってブロックされたかどうかを示します。

authority

string

リクエストメッセージの Host ヘッダー。

bytes_received

long

ヘッダーを除くリクエストボディのサイズ。

bytes_sent

long

ヘッダーを除くレスポンスボディのサイズ。

downstream_local_address

string

ゲートウェイ Pod アドレス。

downstream_remote_address

string

ゲートウェイに接続するクライアントのアドレス。

duration

long

リクエストの処理にかかった合計時間。これは、ゲートウェイがダウンストリームサービスから最初のバイトを受信してから、レスポンスの最後のバイトを送信するまでの期間です。単位:ミリ秒。

method

string

HTTP メソッド。

path

string

HTTP リクエストのパス。

protocol

string

HTTP プロトコルのバージョン。

request_duration

long

ゲートウェイがダウンストリームサービスから最初のバイトを受信してから、ダウンストリームサービスから最後のバイトを受信するまでの期間。単位:ミリ秒。

request_id

string

ゲートウェイは各リクエストに対して ID を生成し、それを x-request-id ヘッダーに含めます。バックエンドはこのフィールドをロギングやトラブルシューティングに使用できます。

requested_server_name

string

SSL 接続に使用されるサーバー名。

response_code_details

string

レスポンスコードに関する追加情報を提供します。たとえば、`via_upstream` はレスポンスコードがバックエンドサービスによって返されたことを示し、`route_not_found` はリクエストに一致するルートが見つからなかったことを示します。

response_tx_duration

long

ゲートウェイがアップストリームサービスから最初のバイトを受信してから、ダウンストリームサービスに最後のバイトを送信するまでの期間。単位:ミリ秒。

route_name

string

ルート名。

start_time

string

リクエストが開始された時間。フォーマット:UTC。

trace_id

string

トレース ID。

upstream_cluster

string

アップストリームクラスター。

upstream_host

string

アップストリーム IP アドレス。

upstream_local_address

string

アップストリームサービスへの接続に使用されるローカルアドレス。

upstream_service_time

long

アップストリームサービスがリクエストを処理するのにかかった時間 (ミリ秒単位)。これには、ゲートウェイがアップストリームサービスにアクセスするためのネットワーク遅延と、アップストリームサービス自体の処理時間が含まれます。

upstream_transport_failure_reason

string

アップストリームサービスへの接続が失敗した理由。

user_agent

string

HTTP リクエストの User-Agent ヘッダー。

x_forwarded_for

string

HTTP リクエストの x-forwarded-for ヘッダー。このヘッダーは通常、HTTP クライアントの送信元 IP アドレスを示します。