Gateway dengan Ekstensi Inferensi mendukung berbagai kerangka kerja inferensi AI generatif dan menyediakan kemampuan konsisten untuk layanan inferensi AI yang diterapkan di atas kerangka kerja inferensi berbeda. Kemampuan ini mencakup strategi rilis canary, penyeimbangan beban inferensi, dan pengarahan inferensi berbasis nama model. Topik ini menjelaskan kerangka kerja inferensi AI generatif yang didukung oleh Gateway dengan Ekstensi Inferensi serta cara menggunakannya.
Kerangka kerja inferensi yang didukung
Kerangka kerja inferensi | Versi yang diperlukan |
vLLM v0 | ≥ v0.6.4 |
vLLM v1 | ≥ v0.8.0 |
SGLang | ≥ v0.3.6 |
Triton dengan backend TensorRT-LLM | ≥ 25.03 |
Dukungan vLLM
vLLM adalah kerangka kerja inferensi backend default yang didukung oleh Gateway dengan Ekstensi Inferensi. Saat menggunakan layanan inferensi berbasis vLLM, tidak diperlukan konfigurasi tambahan untuk memanfaatkan kemampuan yang ditingkatkan oleh AI generatif.
Dukungan SGLang
Saat menerapkan layanan inferensi AI generatif dengan SGLang, Anda dapat menambahkan anotasi inference.networking.x-k8s.io/model-server-runtime: sglang ke sumber daya InferencePool untuk mengaktifkan pengarahan cerdas dan penyeimbangan beban pada layanan inferensi yang diterapkan di atas kerangka kerja SGLang.
Contoh blok kode berikut menunjukkan konfigurasi InferencePool saat menggunakan SGLang untuk menerapkan layanan inferensi. Tidak diperlukan konfigurasi tambahan pada sumber daya lainnya.
apiVersion: inference.networking.x-k8s.io/v1alpha2
kind: InferencePool
metadata:
annotations:
inference.networking.x-k8s.io/model-server-runtime: sglang
name: deepseek-sglang-pool
spec:
extensionRef:
group: ""
kind: Service
name: deepseek-sglang-ext-proc
selector:
app: deepseek-r1-sglang
targetPortNumber: 30000Dukungan TensorRT-LLM
TensorRT-LLM adalah mesin sumber terbuka dari NVIDIA yang dioptimalkan untuk meningkatkan kinerja inferensi LLM. TensorRT-LLM digunakan untuk mendefinisikan LLM dan membangun mesin TensorRT guna mengoptimalkan kinerja inferensi LLM pada GPU NVIDIA. TensorRT-LLM dapat diintegrasikan dengan Triton sebagai backend Triton: Backend TensorRT-LLM. Model yang dibangun dengan TensorRT-LLM dapat berjalan pada satu atau lebih GPU serta mendukung Tensor Parallelism dan Pipeline Parallelism.
Saat menerapkan layanan inferensi AI generatif menggunakan Triton dengan backend TensorRT-LLM, Anda dapat menambahkan anotasi inference.networking.x-k8s.io/model-server-runtime: trt-llm ke sumber daya InferencePool untuk mengaktifkan pengarahan cerdas dan penyeimbangan beban pada layanan inferensi yang diterapkan di atas TensorRT-LLM.
Contoh blok kode berikut menunjukkan konfigurasi InferencePool saat menggunakan TensorRT-LLM untuk menerapkan layanan inferensi. Tidak diperlukan konfigurasi tambahan pada sumber daya lainnya.
apiVersion: inference.networking.x-k8s.io/v1alpha2
kind: InferencePool
metadata:
annotations:
inference.networking.x-k8s.io/model-server-runtime: trt-llm
name: qwen-trt-pool
spec:
extensionRef:
group: ""
kind: Service
name: trt-llm-ext-proc
selector:
app: qwen-trt-llm
targetPortNumber: 8000