推論拡張機能付きゲートウェイの概要 - Container Service for Kubernetes

このトピックでは、推論拡張機能付きゲートウェイコンポーネントの主な機能、実装原則、および利点について説明します。

機能

推論拡張機能付きゲートウェイコンポーネントは、Kubernetes コミュニティ Gateway API とその推論拡張機能に基づく拡張コンポーネントです。ACK 推論拡張機能付きゲートウェイは、Kubernetes のレイヤー 4 およびレイヤー 7 ルーティングサービスをサポートし、生成 AI 推論シナリオ向けの拡張機能を提供します。このコンポーネントは、生成 AI 推論サービスの管理を簡素化し、複数の推論サービスワークロード全体の負荷分散を最適化します。

コンポーネントの機能

モデル推論サービスの最適化された負荷分散。
モデル対応ルーティング: OpenAI API 仕様で定義されているモデル名に基づいて推論リクエストをルーティングします。名前で同じベースモデルの異なる LoRA モデルに対してトラフィックグレースケール操作を実行できます。
モデルの重要度の構成: 各モデルに異なる重要度レベルを指定することにより、異なるモデルのリクエストに優先順位を付けます。

リソースの説明

推論拡張機能付きゲートウェイは、Gateway API から拡張された InferencePool および InferenceModel カスタムリソースを介して生成 AI 推論サービスを宣言および管理します。

InferencePool: 同じコンピューティング構成、アクセラレータタイプ、基盤モデル、およびモデルサーバーを共有するポッドのグループを指定します。AI モデルサービスリソースを論理的にグループ化および管理します。単一の InferencePool オブジェクトには、複数の ACK ノードにまたがる複数のポッドを含めることができ、スケーラビリティと高可用性を提供します。
InferenceModel: InferencePool からのモデルサーバーポッドによって提供されるモデルの名前を指定します。 InferenceModel リソースは、重要度レベルなど、モデルのサービスプロパティも定義します。Critical として分類されたワークロードは優先的に処理されます。

次の図は、InferencePool、InferenceModel カスタムリソース、および Gateway API リソース間の関連付けを示しています。

次の図は、推論拡張機能付きゲートウェイコンポーネントの InferencePool および InferenceModel リソース定義が推論リクエストを処理する方法を示しています。

モデル推論サービスの負荷分散の利点

従来の HTTP ルーティング

従来の HTTP リクエストの場合、従来の負荷分散アルゴリズムは、異なるワークロード間でリクエストを均等に分散できます。ただし、大規模言語モデル (LLM) 推論サービスの場合、各リクエストがバックエンドにもたらす負荷を予測することは困難です。推論プロセス中に、リクエスト処理には次の 2 つのフェーズが含まれます。

プリフィルフェーズ: 入力をエンコードします。
デコードフェーズ: このフェーズはいくつかのステップに分割でき、各ステップは前の入力をデコードし、新しいトークンを出力します (LLM データ処理の基本単位であり、LLM 推論によって出力される各単語にほぼ対応します)。

各リクエストがいくつのトークンを出力するかを事前に判断できないため、異なるワークロード間でリクエストを均等に分散すると、各ワークロードの実際のワークロードに一貫性がなくなり、負荷の不均衡が生じます。

推論サービスルーティング

メトリックの複数のディメンションを通じて推論サーバーの内部状態を評価し、内部状態に基づいて複数の推論サーバーワークロード全体で負荷分散を実行します。次のメトリックが含まれます。

リクエストキューの長さ (vllm: num_requests_waiting): モデルサーバーによって処理されるのを待機しているリクエストの数を指定します。キュー内のリクエストが少ないほど、新しいリクエストが迅速に処理される可能性が高くなります。
GPU キャッシュ使用率 (vllm: gpu_cache_usage_perc): 中間推論結果をキャッシュするためにモデルサーバーによって使用される KV キャッシュ使用率の割合を指定します。使用率が低いほど、GPU に新しいリクエストにリソースを割り当てるのに十分なスペースがあることを示します。

従来の負荷分散アルゴリズムと比較して、このアプローチは、複数の推論サービスワークロード全体で GPU 負荷の一貫性をより適切に確保し、LLM 推論リクエストの最初のトークンまでの時間 (TTFT) 応答レイテンシを大幅に削減し、LLM 推論リクエストのスループットを向上させます。

機能

コンポーネントの機能

リソースの説明

モデル推論サービスの負荷分散の利点

従来の HTTP ルーティング

推論サービス ルーティング

推論サービスルーティング