Dukungan untuk kerangka kerja inferensi - Container Service for Kubernetes

Gateway dengan Ekstensi Inferensi mendukung berbagai kerangka kerja inferensi AI generatif dan menyediakan kemampuan konsisten untuk layanan inferensi AI yang diterapkan di atas kerangka kerja inferensi berbeda. Kemampuan ini mencakup strategi rilis canary, penyeimbangan beban inferensi, dan pengarahan inferensi berbasis nama model. Topik ini menjelaskan kerangka kerja inferensi AI generatif yang didukung oleh Gateway dengan Ekstensi Inferensi serta cara menggunakannya.

Kerangka kerja inferensi yang didukung

Kerangka kerja inferensi	Versi yang diperlukan
vLLM v0	≥ v0.6.4
vLLM v1	≥ v0.8.0
SGLang	≥ v0.3.6
Triton dengan backend TensorRT-LLM	≥ 25.03

Dukungan vLLM

vLLM adalah kerangka kerja inferensi backend default yang didukung oleh Gateway dengan Ekstensi Inferensi. Saat menggunakan layanan inferensi berbasis vLLM, tidak diperlukan konfigurasi tambahan untuk memanfaatkan kemampuan yang ditingkatkan oleh AI generatif.

Dukungan SGLang

Saat menerapkan layanan inferensi AI generatif dengan SGLang, Anda dapat menambahkan anotasi inference.networking.x-k8s.io/model-server-runtime: sglang ke sumber daya InferencePool untuk mengaktifkan pengarahan cerdas dan penyeimbangan beban pada layanan inferensi yang diterapkan di atas kerangka kerja SGLang.

Contoh blok kode berikut menunjukkan konfigurasi InferencePool saat menggunakan SGLang untuk menerapkan layanan inferensi. Tidak diperlukan konfigurasi tambahan pada sumber daya lainnya.

apiVersion: inference.networking.x-k8s.io/v1alpha2
kind: InferencePool
metadata:
  annotations:
    inference.networking.x-k8s.io/model-server-runtime: sglang
  name: deepseek-sglang-pool
spec:
  extensionRef:
    group: ""
    kind: Service
    name: deepseek-sglang-ext-proc
  selector:
    app: deepseek-r1-sglang
  targetPortNumber: 30000

Dukungan TensorRT-LLM

TensorRT-LLM adalah mesin sumber terbuka dari NVIDIA yang dioptimalkan untuk meningkatkan kinerja inferensi LLM. TensorRT-LLM digunakan untuk mendefinisikan LLM dan membangun mesin TensorRT guna mengoptimalkan kinerja inferensi LLM pada GPU NVIDIA. TensorRT-LLM dapat diintegrasikan dengan Triton sebagai backend Triton: Backend TensorRT-LLM. Model yang dibangun dengan TensorRT-LLM dapat berjalan pada satu atau lebih GPU serta mendukung Tensor Parallelism dan Pipeline Parallelism.

Saat menerapkan layanan inferensi AI generatif menggunakan Triton dengan backend TensorRT-LLM, Anda dapat menambahkan anotasi inference.networking.x-k8s.io/model-server-runtime: trt-llm ke sumber daya InferencePool untuk mengaktifkan pengarahan cerdas dan penyeimbangan beban pada layanan inferensi yang diterapkan di atas TensorRT-LLM.

Contoh blok kode berikut menunjukkan konfigurasi InferencePool saat menggunakan TensorRT-LLM untuk menerapkan layanan inferensi. Tidak diperlukan konfigurasi tambahan pada sumber daya lainnya.

apiVersion: inference.networking.x-k8s.io/v1alpha2
kind: InferencePool
metadata:
  annotations:
    inference.networking.x-k8s.io/model-server-runtime: trt-llm
  name: qwen-trt-pool
spec:
  extensionRef:
    group: ""
    kind: Service
    name: trt-llm-ext-proc
  selector:
    app: qwen-trt-llm
  targetPortNumber: 8000