Gateway with Inference Extension は、複数の生成 AI 推論フレームワークをサポートし、異なる推論フレームワーク上にデプロイされた AI 推論サービスに対して一貫した機能を提供します。これらの機能には、カナリアリリース戦略、推論ロードバランシング、モデル名ベースの推論ルーティングが含まれます。このトピックでは、Gateway with Inference Extension でサポートされている生成 AI 推論フレームワークを紹介し、フレームワークの使用方法について説明します。
サポートされている推論フレームワーク
推論フレームワーク | 必要なバージョン |
vLLM v0 | ≥ v0.6.4 |
vLLM v1 | ≥ v0.8.0 |
SGLang | ≥ v0.3.6 |
Triton with a TensorRT-LLM backend | ≥ 25.03 |
vLLM のサポート
vLLM は、Gateway with Inference Extension でサポートされているデフォルトのバックエンド推論フレームワークです。 vLLM ベースの推論サービスを使用する場合、生成 AI 拡張機能を利用するために追加の構成は必要ありません。
SGLang のサポート
SGLang を使用して生成 AI 推論サービスをデプロイする場合、inference.networking.x-k8s.io/model-server-runtime: sglang アノテーションを InferencePool リソースに追加することで、SGLang フレームワーク上にデプロイされた推論サービスのインテリジェントルーティングとロードバランシングを有効にできます。
次のコードブロックは、SGLang を使用して推論サービスをデプロイする場合の InferencePool の構成例を示しています。他のリソースに追加の構成は必要ありません。
apiVersion: inference.networking.x-k8s.io/v1alpha2
kind: InferencePool
metadata:
annotations:
inference.networking.x-k8s.io/model-server-runtime: sglang # SGLang ランタイムを指定
name: deepseek-sglang-pool
spec:
extensionRef:
group: ""
kind: Service
name: deepseek-sglang-ext-proc
selector:
app: deepseek-r1-sglang
targetPortNumber: 30000TensorRT-LLM のサポート
TensorRT-LLM は、LLM 推論パフォーマンスを最適化するために NVIDIA が提供するオープンソースエンジンです。 TensorRT-LLM は、LLM を定義し、NVIDIA GPU 上の LLM 推論パフォーマンスを最適化する TensorRT エンジンを構築するために使用されます。 TensorRT-LLM は、Triton のバックエンドとして機能するように Triton と統合できます: TensorRT-LLM Backend。 TensorRT-LLM で構築されたモデルは、1 つ以上の GPU で実行でき、Tensor Parallelism と Pipeline Parallelism をサポートします。
TensorRT-LLM バックエンドを使用して Triton で生成 AI 推論サービスをデプロイする場合、inference.networking.x-k8s.io/model-server-runtime: trt-llm アノテーションを InferencePool リソースに追加することで、TensorRT-LLM 上にデプロイされた推論サービスのインテリジェントルーティングとロードバランシングを有効にできます。
次のコードブロックは、TensorRT-LLM を使用して推論サービスをデプロイする場合の InferencePool の構成例を示しています。他のリソースに追加の構成は必要ありません。
apiVersion: inference.networking.x-k8s.io/v1alpha2
kind: InferencePool
metadata:
annotations:
inference.networking.x-k8s.io/model-server-runtime: trt-llm # TensorRT-LLM ランタイムを指定
name: qwen-trt-pool
spec:
extensionRef:
group: ""
kind: Service
name: trt-llm-ext-proc
selector:
app: qwen-trt-llm
targetPortNumber: 8000