推論拡張機能付きゲートウェイは、Kubernetes Gateway API を推論拡張機能仕様で強化します。 Kubernetes で レイヤー 4 および レイヤー 7 のルーティングサービスを提供し、大規模言語モデル(LLM)の推論シナリオ向けにインテリジェントな負荷分散を実現します。 このトピックでは、推論拡張機能付きゲートウェイの利用ガイドラインとリリースノートを紹介します。
概要
推論拡張機能付きゲートウェイは、Envoy Gateway プロジェクトに基づいて構築されています。 Gateway API との互換性を維持しながら、推論拡張機能を統合しています。 このアドオンは、主に LLM 推論サービスの負荷分散とルーティング機能を提供します。
使用上の注意
推論拡張機能付きゲートウェイのインストールと使用は、Gateway API によって提供されるカスタムリソース定義(CRD)に依存します。 インストールする前に、クラスターに Gateway API がインストールされていることを確認してください。
リリースノート
2025 年 5 月
バージョン番号 | リリース日 | 説明 | 影響 |
1.4.0-aliyun.1 | 2025-05-27 |
| 更新中に Gateway Pod の再起動が発生します。オフピーク時にこれらの更新を実行することをお勧めします。 |
2025 年 4 月
バージョン番号 | リリース日 | 説明 | 影響 |
1.3.0-aliyun.2 | 2025-04-07 |
| 更新中に Gateway Pod の再起動が発生します。オフピーク時にこれらの更新を実行することをお勧めします。 |