すべてのプロダクト
Search
ドキュメントセンター

Container Compute Service:Inference Extension を備えた Gateway

最終更新日:Oct 15, 2025

推論拡張機能付きゲートウェイは、Kubernetes Gateway API を推論拡張機能仕様で強化します。 Kubernetes で レイヤー 4 および レイヤー 7 のルーティングサービスを提供し、大規模言語モデル(LLM)の推論シナリオ向けにインテリジェントな負荷分散を実現します。 このトピックでは、推論拡張機能付きゲートウェイの利用ガイドラインとリリースノートを紹介します。

概要

推論拡張機能付きゲートウェイは、Envoy Gateway プロジェクトに基づいて構築されています。 Gateway API との互換性を維持しながら、推論拡張機能を統合しています。 このアドオンは、主に LLM 推論サービスの負荷分散とルーティング機能を提供します。

使用上の注意

推論拡張機能付きゲートウェイのインストールと使用は、Gateway API によって提供されるカスタムリソース定義(CRD)に依存します。 インストールする前に、クラスターに Gateway API がインストールされていることを確認してください。

リリースノート

2025 年 5 月

バージョン番号

リリース日

説明

影響

1.4.0-aliyun.1

2025-05-27

  • Gateway API 1.3.0 がサポートされています。

  • 推論拡張機能の強化:

    • 複数の推論フレームワーク(vLLM、SGLang、TensorRT-LLM など)がサポートされています。

    • プレフィックス対応の負荷分散が最適化されました。

    • モデル名に基づいて推論サービスのルーティングを実装できます。

    • 推論ワークロードのリクエストキューイングと優先順位付けスケジューリングがサポートされています。

  • 生成 AI リクエストの可観測性が利用可能です。

  • グローバル 速度制限がサポートされています。

  • 生成 AI リクエストのトークンベースのグローバル速度制限が利用可能です。

  • 指定されたリクエストヘッダーへのシークレットコンテンツの挿入がサポートされています。

更新中に Gateway Pod の再起動が発生します。オフピーク時にこれらの更新を実行することをお勧めします。

2025 年 4 月

バージョン番号

リリース日

説明

影響

1.3.0-aliyun.2

2025-04-07

  • Alibaba Cloud Container Compute Service (ACS) クラスターがサポートされています。

  • 推論拡張機能の強化:

    • HTTPRoute で InferencePool リソースの参照が有効になりました。

    • InferencePool レベルで、重みベースのルーティング、トラフィックミラーリング、およびサーキットブレーク機能を実装できます。

  • プレフィックス対応の負荷分散がサポートされています。

更新中に Gateway Pod の再起動が発生します。オフピーク時にこれらの更新を実行することをお勧めします。