LLM、MCP & Agents 向け統合 AI ゲートウェイ概要 - API Gateway

概要

人工知能 (AI) は、ビジネスイノベーションを推進する重要な要素です。大規模言語モデル (LLM) の発展により、AI の応用範囲は拡大しています。商用モデルや自社開発モデルは、多くの分野でビジネスの進歩を後押ししています。アプリケーションアーキテクチャも、マイクロサービスやクラウドネイティブアーキテクチャから AI ネイティブアーキテクチャへと進化しています。この過程で、企業は AI の統合、システムの安定性、セキュリティ、コンプライアンス、管理といった課題に直面しています。

これらの課題に対応するため、クラウドネイティブ API ゲートウェイは AI ゲートウェイを提供します。AI ゲートウェイは、AI アプリケーション、モデルサービス、ツール、その他のエージェント間の中核的な接続点として機能します。プロトコル変換、セキュリティ保護、トラフィックガバナンス、統一された可観測性を提供することで、企業が AI ネイティブアプリケーションを構築・管理するのを支援します。

ビジネスシナリオにおける AI 利用の課題

AI アプリケーションはビジネスで広く利用されています。従来のアプリケーションと比較して、AI アプリケーションは独特のアーキテクチャを持っています。それらはモデル中心であり、モデルの推論能力、プロンプト、ツール呼び出し、メモリを使用して、特定のビジネスニーズをサポートし、応答します。

トラフィックパターンに基づき、AI アプリケーションのシナリオは 3 つのカテゴリに分類されます。

AI アプリケーションがさまざまなモデルサービスにアクセスする：AI アプリケーションのコア機能は、モデルの能力を推論や計画に利用することです。そのため、モデルアクセスパスのセキュリティと安定性を確保することが重要です。
AI アプリケーションが外部ツールを呼び出す：ツールは AI アプリケーションと外部システムとの間のブリッジとして機能します。ツールの呼び出しは、通常、MCP などの標準化されたプロトコルを使用して実行されます。
AI アプリケーションが外部からアクセスされる：これには、エンドユーザーや他の AI アプリケーションによるアクセスが含まれます。これらのシナリオでは、AI アプリケーションはアプリケーション間の通信に A2A などのプロトコルをよく使用します。

これら 3 種類のシナリオを実装する際、企業はさまざまなエンジニアリング上および技術上の課題に直面することがよくあります。これらには以下が含まれます。

モデルサービスへのアクセスにおける課題：多様な要因と高い要件

3つの「多」：

多様なモデル：モデルプロバイダーごとに API 操作仕様、認証メカニズム、呼び出しメソッドが異なります。これにより、呼び出し側がプロバイダー間で統一された統合や柔軟な切り替えを実現することが困難になります。複数のモデルへの並列呼び出しをサポートする標準的な抽象化レイヤーが存在しません。
多様なモダリティ：OpenAI 標準と互換性のあるテキストからテキストへの LLM とは異なり、マルチモーダルモデルには統一された標準がありません。SSE、WebSocket、Web Real-Time Communication (WebRTC) などのトランスポートプロトコルが異なります。また、同期か非同期かといった通信モードや、リクエスト/レスポンス構造も異なります。多様なインターフェイスは、システム統合と運用管理の複雑さを増大させます。
多様なシナリオ：ビジネスシナリオごとにモデルサービスに対するニーズが異なります。例えば、リアルタイムの音声テキスト変換には低い応答時間 (RT) が求められます。長文読解には処理の安定性が必要です。シナリオごとに速度制限ポリシー、フォールトトレランスメカニズム、サービス品質に対する要件が異なり、これにはカスタム適応が必要です。

最高人民法院 (SPC) および最高人民検察院 (SPP)：

高いセキュリティ要件：企業はモデルサービスを呼び出す際にデータ侵害のリスクに直面します。特に外部モデルやオープンソースモデルを使用する場合はなおさらです。機密データの送信と処理は、プライバシー保護、監査証跡、アクセス制御措置など、厳格なデータコンプライアンス要件を満たす必要があります。
高い安定性要件：モデルサービスは基盤となる計算能力リソースによって制限されます。一般的に API 操作の速度制限のしきい値は低いです。従来の API サービスと比較して、RT とリクエスト成功率はより大きく変動します。サービスの可用性は安定していません。これは、上流の AI アプリケーションの継続性とユーザーエクスペリエンスに課題をもたらします。

ツールアクセスにおける課題：精度とセキュリティ

AI アプリケーションがツールを呼び出す際の主な課題は、効率とセキュリティのバランスを取ることです。

利用可能なツールの数が増えるにつれて、ツールリスト全体を LLM に送信して推論と選択を行うと、トークン消費量と推論コストが大幅に増加します。さらに、候補ツールが多すぎると、モデルが誤った選択をする可能性があり、実行精度が低下します。

また、ツールはしばしばコアビジネスロジックに直接関連しています。不適切な呼び出しは、システムのセキュリティリスクの攻撃対象領域を拡大させる可能性があります。悪意のある MCP ポイズニングなど、新しい攻撃手法も出現しています。これにより、ツールアクセスメカニズムのセキュリティ設計に対する要求が高まっています。

AI アプリケーションへのアクセスにおける課題：安定性と柔軟性

開発者はいくつかの方法で AI アプリケーションを構築できますが、これらは主に次の 3 つのカテゴリに分類されます。

ハイコード開発：Spring AI Alibaba、ADK、LangChain などのフレームワークを使用してコードを記述します。この方法は最高の柔軟性と機能的なスケーラビリティを提供しますが、開発者にはより高いレベルの技術スキルが求められます。
ローコード開発：Alibaba Cloud Model Studio などのプラットフォームを使用して、視覚的なドラッグアンドドロップインターフェイスでアプリケーションフローをオーケストレーションします。この方法は迅速な構築と反復をサポートし、開発の障壁を下げ、迅速な検証やプロトタイピングに適しています。
ノーコード開発：JManus などのツールを使用して、プロンプトを設定することで AI アプリケーションを構築します。プログラミングは不要です。これは、単純なシナリオでの迅速なデプロイメントに適しています。

開発モデルごとに実装やアーキテクチャ設計が異なるため、AI アプリケーションを接続するための統一された標準は存在しません。これにより、クラウドネイティブアプリケーションと同様の中央集権的なガバナンスとコントロールを実現することが困難になります。

さらに、AI アプリケーションの動作とパフォーマンスは、基盤となる LLM の能力に大きく依存します。その出力の安定性は不確かです。効果的な隔離とフォールトトレランスメカニズムがなければ、単一障害点が連鎖反応を引き起こす可能性があります。これにより、アプリケーションに依存する業務システムで大規模な障害が発生する可能性があります。

AI ゲートウェイを利用した 3 つのシナリオにおける典型的な実践例

これらの問題を顧客のために解決するため、Alibaba Cloud は AI ゲートウェイを提供します。これは、AI アプリケーション、モデルサービス、ツール、その他のエージェント間のブリッジとして機能します。以下の 3 つのシナリオは、AI ゲートウェイを使用した典型的な実践例を示しています。

モデルアクセス

ある企業は、運用効率を向上させ、新しいビジネスシナリオを開拓するために AI アプリケーションを構築することを計画しています。Alibaba Cloud プラットフォーム上で、PAI にファインチューニングされたモデルをデプロイし、フォールバックサービスとして Alibaba Cloud Model Studio を統合します。画像生成などの特定のニーズに対しては、Function Compute (FC) にデプロイされたオープンソースモデルを使用します。すべての AI アプリケーションから LLM サービスへの安全で効率的な呼び出しを確保するため、この企業は AI ゲートウェイをデプロイします。さまざまなアプリケーションシナリオに対応するモデル API を構成し、トラフィックガバナンスや認証などの制御機能を API レイヤーに統合します。これにより、モデルアクセスのための統一されたエントリーポイントが提供されます。

AI Gateway は、「3つの多と2つの高」の問題に効果的に対処します。

多様なモデル：AI ゲートウェイは、複数のモデルルーティングポリシーをサポートします。これには、モデル名、リクエスト比率、またはヘッダーなどの特定のリクエスト特徴に基づくルーティングルールが含まれます。ゲートウェイはまた、異なるモデルプロバイダーからのプロトコルを OpenAI 互換のインターフェイスに変換することもできます。これにより、AI アプリケーションは単一の標準に接続して、複数のモデル間をシームレスに切り替えることができます。
多様なモダリティ：AI ゲートウェイは、HTTP および WebSocket プロトコルを介したマルチモーダルモデル呼び出しのプロキシをサポートします。統一されたエンドポイントを提供します。これにより、アプリケーションはテキストからテキストへ、テキストから画像へ、音声認識など、さまざまなモデルを一貫した方法で呼び出すことができます。管理者はプラグインを使用して、マルチモーダル呼び出しのセキュリティと安定性を強化することもできます。
多様なシナリオ：テキスト生成、画像生成、音声認識など、特定のモデルアプリケーションシナリオごとに個別のモデル API を作成します。各呼び出し元に一意のコンシューマー ID を割り当てます。コンシューマーディメンションを使用して、呼び出しの監視、速度制限、セキュリティ保護、課金などを実装します。これにより、リソースの隔離ときめ細かな管理が保証されます。
高いセキュリティ要件：AI ゲートウェイは、ネットワークセキュリティ、データセキュリティ、コンテンツセキュリティの各レイヤーで包括的な保護を提供します。
- ネットワークセキュリティ：SSL 証明書、WAF 保護、IP ブラックリストおよびホワイトリストを統合します。これにより、ネットワークのエントリーレイヤーで悪意のあるトラフィックや攻撃から防御します。
- データセキュリティ：API キーを直接公開することを避けるため、コンシューマー側の ID 認証をサポートします。バックエンドモデルサービスのバックエンド認証と API キー管理を実行します。また、KMS でキーをホストして、機密情報がゲートウェイにローカルに保存されるのを防ぐこともできます。
- コンテンツセキュリティ：AI セキュリティガードレールと深く統合し、非準拠コンテンツや危険な入力をリアルタイムで遮断します。データマスキングプラグインと連携して、リクエストを転送する前に機密情報を削除し、コンテンツのコンプライアンスを確保します。
高い安定性要件：AI ゲートウェイは、可観測性と制御可能性の 2 つのディメンションからシステムの安定性を向上させます。
- 可観測性：各リクエストのソースプロバイダー、ターゲットモデル、コンシューマーを記録します。また、最初のバイトまでの時間 (TTFB) やトークン数などの主要なメトリックも記録します。ゲートウェイは、速度制限、遮断、フォールバックなどのイベントをマークします。組み込みのダッシュボードがエンドツーエンドの可視化を提供します。
- 制御可能性：負荷分散、フォールバックメカニズム、速度制限ポリシー、キャッシュを提供します。コンシューマーに基づいて、トークン制限や同時実行制御などのガバナンスルールを構成します。管理者はモニタリングデータを使用してポリシーを継続的に最適化し、リソースを動的に調整してシステムの安定性を確保できます。

ツールアクセス

モデルサービスの統一アクセスシステムを構築した後、ある企業はツールアクセスに関する多くの問題を特定しました。特に、集中的なガバナンスを必要とする高いセキュリティリスクに直面しています。これに対処するため、企業はツールアクセスのプロトコルとエントリーポイントの制御を統一することを決定しました。アーキテクチャチームは、ツールアクセスの標準プロトコルとして MCP を選択しました。AI ゲートウェイの HTTP から MCP への変換機能を使用して、既存の API を自動的に MCP サーバーに変換します。これにより、迅速なビジネスの反復とイノベーションがサポートされます。

AI ゲートウェイは、以下のメカニズムを通じてツール呼び出しの精度とセキュリティを保証します。

精度：
AI ゲートウェイは、既存の HTTP サービスへの接続と MCP サーバーのホスティングをサポートします。既存の HTTP サービスについては、ユーザーはゲートウェイでツール記述を動的に更新できます。ゲートウェイはツールの柔軟なオーケストレーションをサポートします。仮想 MCP サーバーを作成して、さまざまなビジネスシナリオの要件を満たすために必要に応じてツールリストを組み合わせることができます。これにより、プロバイダーとコンシューマーは独立して独自の MCP サーバーを定義できます。さらに、AI ゲートウェイはインテリジェントなツールルーティング機能を提供します。リクエスト内容に基づいてゲートウェイ側で関連するツールセットを自動的にフィルターし、現在のタスクに一致するツールリストのみを返します。これにより、モデル推論のためのトークン消費量を効果的に削減し、ツール選択の精度を向上させます。
セキュリティ：ツールアクセス制御に関して、AI ゲートウェイは多層セキュリティメカニズムを備えています。MCP サーバーレベルでの呼び出し認証をサポートするだけでなく、個々のツールに対するきめ細かなアクセス権限設定もサポートします。これにより、呼び出し元の ID に基づいたきめ細かな権限付与管理が可能になります。セキュリティレベルの異なるツールが、そのリスクレベルに応じて対応するアクセス権限を割り当てられることを保証します。

エージェントアクセス

AI アプリケーションの数が増えるにつれて、ある企業は連携と管理の問題を解決するために、それらを AI ゲートウェイの下で統一します。Nacos AI レジストリを介したサービス登録と検出のために、A2A プロトコルの使用を推奨しています。

AI ゲートウェイは、AI アプリケーションの統一プロキシサービスとして機能し、安定性と柔軟性を提供します。

安定性：AI ゲートウェイは、Container Service for Kubernetes (ACK)、FC、SAE など、複数の Alibaba Cloud ランタイムプラットフォームへの直接接続をサポートします。アクティブおよびパッシブのヘルスチェックメカニズムを提供して、異常なノードを自動的に隔離します。カナリアリリース機能を使用して変更リスクを低減します。また、多次元の速度制限ポリシーをサポートして、アプリケーションの過負荷を防ぎ、サービスの安定性を確保します。
柔軟性：AI ゲートウェイは、サービス検出機能を使用して、異なるコンピューティングプラットフォームにデプロイされた AI アプリケーションを統一的に公開します。REST から A2A へのプロトコル変換を提供し、既存の HTTP アプリケーションを A2A プロトコルに自動的にアップグレードできます。Model Studio で構築されたローコード AI アプリケーションに対して、AI ゲートウェイは統一されたプロキシアクセスをサポートし、二次認証メカニズムを拡張できます。

さらに、AI ゲートウェイは Alibaba Cloud の可観測性システムと深く統合されています。AI アプリケーションが接続されると、ワンクリックでエンドツーエンドの可観測性を有効にできます。これにより、アプリケーション層、MCP ツールからモデル呼び出しまでの呼び出しチェーン全体をカバーし、エンドツーエンドのトレースと障害特定が可能になります。

AI Gateway のコア機能

モデル、MCP Server、およびエージェントの統一プロキシ

AI ゲートウェイは、モデル、MCP サーバー、エージェントのプロキシ機能を提供します。以下を含む複数のサービスタイプの統一アクセスと管理をサポートします。

AI サービス：さまざまなモデルサービスのプロキシをサポートします。これには、Model Studio、OpenAI、Minimax、Anthropic、Amazon Bedrock、Azure などのベンダーのモデルサービスが含まれます。また、Ollama、vLLM、SGLang に基づく自社開発モデルとも互換性があります。AI サービスで API キーを構成し、内部サービスアドレス用にカスタム DNS サーバを指定できます。
エージェントサービス：Model Studio、Dify、ユーザー定義のエージェントワークロードなど、エージェントアプリケーションプラットフォーム上のサービスをサポートします。ID 認証とアクセス制御のために API キーと APP-ID を構成できます。
コンテナサービス：Alibaba Cloud ACK または ACS クラスターで実行されているサービスをサポートします。単一の AI ゲートウェイインスタンスは、最大 3 つのコンテナクラスターに関連付けることができます。
Nacos サービス：MSE Nacos レジストリに登録されたサービスインスタンスへのアクセスをサポートします。これは、通常のマイクロサービスと MCP サーバーに適用されます。
DNS サービス：DNS 解析を介してバックエンドサービスにアクセスすることをサポートします。プライベートネットワークや内部ドメイン名を解決するために、専用の DNS サーバを指定できます。
固定アドレス：バックエンドサービスアドレスを固定 IP アドレスのリストとして構成することをサポートします。複数の IP:Port アドレスを設定できます。
SAE サービス：Alibaba Cloud SAE 上で実行されているサービスをサポートします。
FC サービス：Alibaba Cloud Function Compute (FC) サービスへのアクセスをサポートします。AI ゲートウェイは HTTP トリガーをバイパスし、バックエンドサービスと直接統合して呼び出し効率を向上させることができます。
Compute Nest MCP サービス：Compute Nest によってホストされている MCP サーバーをサポートします。

AI ゲートウェイでは、サービスのヘルスチェックを構成できます。これには、アクティブおよびパッシブのヘルスチェックモードが含まれます。

アクティブヘルスチェック：ゲートウェイは、ユーザーが構成した検出ルールに基づいて、サービスノードに定期的にヘルスプローブを送信し、その可用性ステータスを判断します。
パッシブヘルスチェック：ゲートウェイは、ユーザーが構成した検出ルールに従って、実際のリクエストを処理する際のパフォーマンスに基づいてサービスノードのヘルスステータスを評価します。

モデルとエージェントの負荷分散とカナリアリリース

モデルの負荷分散とカナリアリリース

Model API は、3 つの組み込みモデルロードバランシング機能を提供します。

単一モデルサービス：単一の LLM サービスを指定できます。モデル名のパススルーまたはモデル名の指定をサポートします。モデル名が明示的に指定された場合、ユーザーリクエストで渡されたモデル名は無視されます。
複数モデルサービス (モデル名による)：1 つ以上の LLM サービスを構成し、各サービスのモデル名に対するマッチングルールを設定できます。たとえば、モデル名が deepseek-* に一致するリクエストを DeepSeek LLM サービスに送信し、モデル名が qwen-* に一致するリクエストを Alibaba Cloud Model Studio LLM サービスに送信するルールを定義できます。
複数モデルサービス (重みによる)：1 つ以上の LLM サービスを構成し、各サービスに対応するモデル名とリクエスト割り当ての重みを指定できます。これは、新しいモデルのカナリアリリースなどのシナリオに適しています。

モデル API は、カスタムルート構成をサポートします。特定のヘッダーなどのリクエスト特徴に基づいて、リクエストを異なるバックエンドサービスに転送できます。

エージェントのカナリアリリース

モデル API と同様に、エージェント API はリクエスト特徴に基づいたカナリアリリース機能をサポートします。特定のヘッダーなどの特定の特徴に基づいて、リクエストを異なるバックエンドサービスにルーティングできます。

コンシューマーやその他のディメンションに基づく認証、可観測性、速度制限、計量

AI ゲートウェイは、ユーザーのきめ細かな管理ニーズを満たすために、さまざまなビジネスソースに基づいて独立した認証、モニタリング、速度制限、計量機能をサポートします。

コンシューマー認証

AI ゲートウェイでは、異なるコンシューマーを作成し、各コンシューマーにリクエスト認証情報を割り当てることができます。また、必要に応じてモデル API、MCP サーバー、エージェント API のコンシューマー認証を有効にすることもできます。AI ゲートウェイは、API キー、JWT、HMAC の 3 つの認証方式をサポートします。セキュリティに敏感なシナリオでは、コンシューマーの認証情報を KMS でホストできます。

AI ゲートウェイで複数のコンシューマーを作成し、それぞれに個別のリクエスト認証情報を割り当てることができます。モデル API、MCP サーバー、エージェント API については、必要に応じてコンシューマー認証を有効にできます。AI ゲートウェイは、API キー、JWT、HMAC の 3 つの認証方式をサポートします。高いセキュリティ要件が求められるシナリオでは、コンシューマーの認証情報を KMS でホストして安全に管理できます。

コンシューマーの可観測性とメータリング

AI ゲートウェイは、多次元の可観測性機能を提供します。コンシューマーなどのディメンションによるモニタリングと分析をサポートします。主要なメトリックには以下が含まれます。

QPS：1 秒あたりの AI リクエストとレスポンスの数。AI リクエスト QPS、ストリーミング応答 QPS、非ストリーミング応答 QPS に分類されます。
リクエスト成功率：AI リクエストの成功率。1 秒、15 秒、1 分の粒度で統計が利用可能です。
1 秒あたりの消費トークン数：1 秒あたりに消費されるトークン数。入力トークン、出力トークン、合計トークンに分けられます。
平均リクエスト RT：指定された期間 (1 秒、15 秒、または 1 分の統計) における AI リクエストの平均応答時間 (ミリ秒)。内訳には、非ストリーミング RT、ストリーミング RT (ストリーミング応答の合計時間)、およびストリーミングの最初のバイトまでの時間 RT (ストリーミング応答の最初のパケットの遅延) が含まれます。
キャッシュヒット：指定された期間内のキャッシュヒットとミスの数。
速度制限の統計：指定された期間内の速度制限されたリクエスト数と正常に処理されたリクエスト数。
モデル別のトークン統計：指定された期間内の異なるモデルのトークン消費量。
コンシューマー別のトークン統計：指定された期間内の異なるコンシューマーのトークン消費量。
リスク統計：コンテンツセキュリティ検出結果に基づき、リスクタイプやコンシューマーなどのディメンションで識別されたリスクリクエストの統計。

この可観測性データに基づき、AI ゲートウェイはコンシューマーに基づいた計量および課金機能をサポートできます。指定された期間内に特定のコンシューマーが特定のモデルを呼び出した際のトークン消費量など、詳細なデータを提供します。これにより、ユーザーは迅速に正確なリソース使用量の計量と課金を実現できます。

コンシューマーの速度制限

AI ゲートウェイは、コンシューマー、モデル名、リクエストヘッダーなど、複数のディメンションに基づいた速度制限ポリシーをサポートします。単位時間あたりのリクエスト数、同時実行数、接続数、トークン数を制限できます。

多次元・マルチモーダルな AI セキュリティ保護

AI ゲートウェイは、(コンテンツセキュリティ保護) 機能を統合し、AI セキュリティ機能を提供します。API ごとに有効にすることで、モデル呼び出し中のセキュリティリスクを効果的に防止できます。これらのリスクには、禁止用語、コンプライアンス問題、プロンプトインジェクション攻撃、ブルートフォース攻撃などが含まれます。これにより、AI アプリケーションのセキュリティと安定性が向上します。

AI ゲートウェイは、異なる保護ディメンションに対して独立した遮断ポリシーを構成することをサポートします。保護可能なディメンションには以下が含まれます。

contentModeration：コンテンツコンプライアンス検出
promptAttack：プロンプト攻撃検出
sensitiveData：機密コンテンツ検出
maliciousFile：悪意のあるファイル検出
waterMark：デジタルウォーターマーク

各保護ディメンションに対して、対応する遮断ポリシーを構成できます。遮断ポリシーには以下が含まれます。

高：リスクレベルが低、中、高のリクエストはすべて遮断されます。
中：脅威レベルが中または高のリクエストをブロックします。
低：リスクレベルが高いリクエストのみが遮断されます。
モニターモード：リクエストは遮断されず、記録のみが行われます。

ホットスワップおよびホットアップデート可能なポリシーと拡張プラグイン

AI ゲートウェイは、豊富な組み込み拡張ポリシーとプラグインを提供します。また、ユーザーが特定のビジネスニーズを満たすためにカスタムプラグインを開発することも可能です。

たとえば、モデル API には、ツール選択、セキュリティ保護、速度制限、キャッシュ、ウェブ検索の 5 つのコア組み込みポリシーが付属しています。必要に応じて、より多くのポリシーやプラグインを有効にできます。

すべてのポリシーとプラグインは、ホットスワップとローリングアップデートをサポートしています。これにより、構成変更中にサービストラフィックが影響を受けないことが保証されます。

次のステップ

AI Gateway のゲートウェイタイプと課金についてご参照ください。

ゲートウェイインスタンスを作成して、AI ゲートウェイの機能を体験してください。