すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:Gateway with Inference Extension

最終更新日:Dec 18, 2025

Gateway with Inference Extension コンポーネントは、Kubernetes Gateway API とその Inference Extension 仕様に基づいて構築された拡張コンポーネントです。Kubernetes のレイヤー 4 およびレイヤー 7 のルーティングサービスをサポートし、大規模言語モデル (LLM) の推論シナリオ向けにスマートロードバランシングを提供します。このトピックでは、Gateway with Inference Extension コンポーネントの概要、使用方法、および変更履歴について説明します。

コンポーネント情報

Gateway with Inference Extension コンポーネントは、Envoy Gateway プロジェクトに基づいて構築されています。Gateway API の機能と互換性があり、Gateway API の推論拡張機能を統合しています。このコンポーネントは、主に LLM 推論サービスのロードバランシングとルーティングを提供します。

使用方法

  • Gateway with Inference Extension コンポーネントには、Gateway API コンポーネントが提供する CustomResourceDefinition (CRD) が必要です。Gateway with Inference Extension をインストールする前に、Gateway API コンポーネントがクラスターにインストールされていることを確認してください。詳細については、「コンポーネントのインストール」をご参照ください。

  • Gateway with Inference Extension コンポーネントの使用方法の詳細については、「Gateway with Inference Extension の概要」をご参照ください。

変更履歴

2025 年 12 月

バージョン番号

変更日

変更内容

影響

v1.4.0-apsara.4

2025 年 12 月 16 日

  • InferencePool v1 CRD をサポートします。

  • 最新の vllm v1 推論エンジンをサポートします。

  • 高い同時実行性におけるスマートルーティングのスケジューリング能力を向上させました。

以前のバージョンからアップグレードすると、ゲートウェイ Pod が再起動します。オフピーク時間帯にアップグレードを実行してください。

2025年9月

バージョン番号

変更日

変更内容

影響

v1.4.0-apsara.3

2025年9月4日

  • SGLang PD 分離サービスの推論ルート設定をサポートします。

  • プレサイスモードでのプレフィックスキャッシュアウェアルーティングをサポートします。

  • 外部の Model as a Service (MaaS) サービスへのルーティングをサポートします。

  • Alibaba Cloud Content Moderation との統合をサポートし、AI コンテンツレビューを実装します。

  • InferenceTrafficPolicy API を使用した推論ルーティングポリシーの設定をサポートします。

以前のバージョンからアップグレードすると、ゲートウェイ Pod が再起動します。アップグレードはオフピーク時間帯に実行してください。

2025 年 5 月

バージョン番号

変更日

変更内容

影響

v1.4.0-aliyun.1

2025 年 5 月 27 日

  • Gateway API 1.3.0 をサポートします。

  • 推論拡張機能:

    • vLLM、SGLang、TensorRT-LLM などの複数の推論サービスフレームワークをサポートします。

    • プレフィックス認識ロードバランシングをサポートします。

    • モデル名に基づいた推論サービスのルーティングをサポートします。

    • 推論リクエストのキューイングと優先スケジューリングをサポートします。

  • 生成 AI リクエストの可観測性を提供します。

  • グローバルレート制限をサポートします。

  • 生成 AI リクエストのトークンに基づいたグローバルレート制限をサポートします。

  • 指定されたリクエストヘッダーに Secret コンテンツを追加することをサポートします。

以前のバージョンからアップグレードすると、ゲートウェイ Pod が再起動します。アップグレードはオフピーク時間帯に実行してください。

2025 年 4 月

バージョン番号

変更日

変更

影響

v1.3.0-aliyun.2

2025 年 5 月 7 日

  • ACS クラスターをサポートします。

  • 推論拡張機能の強化:HTTPRoute での InferencePool リソースの参照をサポートします。また、加重ルーティング、トラフィックミラーリング、サーキットブレーキングなどの InferencePool レベルの機能もサポートします。

  • プレフィックス認識ロードバランシングをサポートします。

以前のバージョンからアップグレードすると、ゲートウェイ Pod が再起動します。アップグレードはオフピーク時間帯に実行してください。

2025 年 3 月

バージョン番号

変更日

説明

影響

v1.3.0-aliyun.1

2025 年 3 月 12 日

  • Gateway API v1.2 をサポートします。

  • Inference Extension をサポートし、大規模言語モデル (LLM) の推論シナリオ向けにスマートロードバランシングを提供します。

このアップグレードはサービスに影響しません。