すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:推論拡張機能付きゲートウェイの概要

最終更新日:Jun 11, 2025

このトピックでは、推論拡張機能付きゲートウェイ コンポーネントの主な機能、実装原則、および利点について説明します。

機能

推論拡張機能付きゲートウェイ コンポーネントは、Kubernetes コミュニティ Gateway API とその推論拡張機能に基づく拡張コンポーネントです。ACK 推論拡張機能付きゲートウェイは、Kubernetes のレイヤー 4 およびレイヤー 7 ルーティング サービスをサポートし、生成 AI 推論シナリオ向けの拡張機能を提供します。このコンポーネントは、生成 AI 推論サービスの管理を簡素化し、複数の推論サービス ワークロード全体の負荷分散を最適化します。

コンポーネントの機能

  • モデル推論サービスの最適化された負荷分散

  • モデル対応ルーティング: OpenAI API 仕様で定義されているモデル名に基づいて推論リクエストをルーティングします。名前で同じベースモデルの異なる LoRA モデルに対してトラフィック グレー スケール操作を実行できます。

  • モデルの重要度の構成: 各モデルに異なる重要度レベルを指定することにより、異なるモデルのリクエストに優先順位を付けます。

リソースの説明

推論拡張機能付きゲートウェイ は、Gateway API から拡張された InferencePool および InferenceModel カスタム リソースを介して生成 AI 推論サービスを宣言および管理します。

  • InferencePool: 同じコンピューティング構成、アクセラレータ タイプ、基盤モデル、およびモデル サーバーを共有するポッドのグループを指定します。AI モデル サービス リソースを論理的にグループ化および管理します。単一の InferencePool オブジェクトには、複数の ACK ノードにまたがる複数のポッドを含めることができ、スケーラビリティと高可用性を提供します。

  • InferenceModel: InferencePool からのモデル サーバー ポッドによって提供されるモデルの名前を指定します。 InferenceModel リソースは、重要度レベルなど、モデルのサービス プロパティも定義します。Critical として分類されたワークロードは優先的に処理されます。

次の図は、InferencePool、InferenceModel カスタム リソース、および Gateway API リソース間の関連付けを示しています。

次の図は、推論拡張機能付きゲートウェイ コンポーネントの InferencePool および InferenceModel リソース定義が推論リクエストを処理する方法を示しています。

モデル推論サービスの負荷分散の利点

従来の HTTP ルーティング

従来の HTTP リクエストの場合、従来の負荷分散アルゴリズムは、異なるワークロード間でリクエストを均等に分散できます。ただし、大規模言語モデル (LLM) 推論サービスの場合、各リクエストがバックエンドにもたらす負荷を予測することは困難です。推論プロセス中に、リクエスト処理には次の 2 つのフェーズが含まれます。

  • プリフィル フェーズ: 入力をエンコードします。

  • デコード フェーズ: このフェーズはいくつかのステップに分割でき、各ステップは前の入力をデコードし、新しいトークンを出力します (LLM データ処理の基本単位であり、LLM 推論によって出力される各単語にほぼ対応します)。

各リクエストがいくつのトークンを出力するかを事前に判断できないため、異なるワークロード間でリクエストを均等に分散すると、各ワークロードの実際のワークロードに一貫性がなくなり、負荷の不均衡が生じます。

推論サービス ルーティング

メトリックの複数のディメンションを通じて推論サーバーの内部状態を評価し、内部状態に基づいて複数の推論サーバー ワークロード全体で負荷分散を実行します。次のメトリックが含まれます。

  • リクエスト キューの長さ (vllm: num_requests_waiting): モデル サーバーによって処理されるのを待機しているリクエストの数を指定します。キュー内のリクエストが少ないほど、新しいリクエストが迅速に処理される可能性が高くなります。

  • GPU キャッシュ使用率 (vllm: gpu_cache_usage_perc): 中間推論結果をキャッシュするためにモデル サーバーによって使用される KV キャッシュ使用率の割合を指定します。使用率が低いほど、GPU に新しいリクエストにリソースを割り当てるのに十分なスペースがあることを示します。

従来の負荷分散アルゴリズムと比較して、このアプローチは、複数の推論サービス ワークロード全体で GPU 負荷の一貫性をより適切に確保し、LLM 推論リクエストの最初のトークンまでの時間 (TTFT) 応答レイテンシを大幅に削減し、LLM 推論リクエストのスループットを向上させます。