すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:推論フレームワークのサポート

最終更新日:Jun 25, 2025

Gateway with Inference Extension は、複数の生成 AI 推論フレームワークをサポートし、異なる推論フレームワーク上にデプロイされた AI 推論サービスに対して一貫した機能を提供します。これらの機能には、カナリアリリース戦略、推論ロードバランシング、モデル名ベースの推論ルーティングが含まれます。このトピックでは、Gateway with Inference Extension でサポートされている生成 AI 推論フレームワークを紹介し、フレームワークの使用方法について説明します。

サポートされている推論フレームワーク

推論フレームワーク

必要なバージョン

vLLM v0

≥ v0.6.4

vLLM v1

≥ v0.8.0

SGLang

≥ v0.3.6

Triton with a TensorRT-LLM backend

≥ 25.03

vLLM のサポート

vLLM は、Gateway with Inference Extension でサポートされているデフォルトのバックエンド推論フレームワークです。 vLLM ベースの推論サービスを使用する場合、生成 AI 拡張機能を利用するために追加の構成は必要ありません。

SGLang のサポート

SGLang を使用して生成 AI 推論サービスをデプロイする場合、inference.networking.x-k8s.io/model-server-runtime: sglang アノテーションを InferencePool リソースに追加することで、SGLang フレームワーク上にデプロイされた推論サービスのインテリジェントルーティングとロードバランシングを有効にできます。

次のコードブロックは、SGLang を使用して推論サービスをデプロイする場合の InferencePool の構成例を示しています。他のリソースに追加の構成は必要ありません。

apiVersion: inference.networking.x-k8s.io/v1alpha2
kind: InferencePool
metadata:
  annotations:
    inference.networking.x-k8s.io/model-server-runtime: sglang  # SGLang ランタイムを指定
  name: deepseek-sglang-pool
spec:
  extensionRef:
    group: ""
    kind: Service
    name: deepseek-sglang-ext-proc
  selector:
    app: deepseek-r1-sglang
  targetPortNumber: 30000

TensorRT-LLM のサポート

TensorRT-LLM は、LLM 推論パフォーマンスを最適化するために NVIDIA が提供するオープンソースエンジンです。 TensorRT-LLM は、LLM を定義し、NVIDIA GPU 上の LLM 推論パフォーマンスを最適化する TensorRT エンジンを構築するために使用されます。 TensorRT-LLM は、Triton のバックエンドとして機能するように Triton と統合できます: TensorRT-LLM Backend。 TensorRT-LLM で構築されたモデルは、1 つ以上の GPU で実行でき、Tensor Parallelism と Pipeline Parallelism をサポートします。

TensorRT-LLM バックエンドを使用して Triton で生成 AI 推論サービスをデプロイする場合、inference.networking.x-k8s.io/model-server-runtime: trt-llm アノテーションを InferencePool リソースに追加することで、TensorRT-LLM 上にデプロイされた推論サービスのインテリジェントルーティングとロードバランシングを有効にできます。

次のコードブロックは、TensorRT-LLM を使用して推論サービスをデプロイする場合の InferencePool の構成例を示しています。他のリソースに追加の構成は必要ありません。

apiVersion: inference.networking.x-k8s.io/v1alpha2
kind: InferencePool
metadata:
  annotations:
    inference.networking.x-k8s.io/model-server-runtime: trt-llm # TensorRT-LLM ランタイムを指定
  name: qwen-trt-pool
spec:
  extensionRef:
    group: ""
    kind: Service
    name: trt-llm-ext-proc
  selector:
    app: qwen-trt-llm
  targetPortNumber: 8000