Ekstensi inferensi gateway untuk routing yang sadar LLM di ACK - ACK

Komponen Gateway with Inference Extension merupakan implementasi yang ditingkatkan berdasarkan Kubernetes Gateway API dan spesifikasi Inference Extension-nya. Komponen ini mendukung perutean Lapisan 4 dan Lapisan 7 di Kubernetes serta menyediakan penyeimbangan beban cerdas untuk skenario inferensi model bahasa besar (LLM). Topik ini memperkenalkan komponen Gateway with Inference Extension, menjelaskan cara menggunakannya, serta menyediakan log perubahannya.

Informasi komponen

Komponen Gateway with Inference Extension dibangun di atas proyek Envoy Gateway. Komponen ini kompatibel dengan fitur Gateway API dan mengintegrasikan ekstensi inferensi dari Gateway API, terutama untuk menyediakan penyeimbangan beban dan perutean bagi layanan inferensi LLM.

Petunjuk penggunaan

Komponen Gateway with Inference Extension memerlukan CustomResourceDefinitions (CRDs) yang disediakan oleh komponen Gateway API. Sebelum menginstal Gateway with Inference Extension, pastikan komponen Gateway API telah terpasang di kluster Anda. Untuk informasi selengkapnya, lihat Install components.
Untuk informasi selengkapnya tentang penggunaan komponen Gateway with Inference Extension, lihat Overview of Gateway with Inference Extension.

Log perubahan

Desember 2025

Nomor versi	Tanggal perubahan	Konten Perubahan	Dampak
v1.4.0-apsara.4	16 Desember 2025	Mendukung CRD InferencePool v1. Mendukung mesin inferensi vllm v1 terbaru. Menyempurnakan kemampuan penjadwalan perutean pintar saat konkurensi tinggi.	Upgrade dari versi sebelumnya akan me-restart gateway pod. Lakukan upgrade selama jam sepi.

September 2025

Nomor versi	Ubah tanggal	Perubahan	Dampak
v1.4.0-apsara.3	4 September 2025	Mendukung konfigurasi entri rute inferensi untuk layanan SGLang yang terpisah PD. Mendukung routing yang mempertimbangkan cache awalan dalam mode presisi. Mendukung perutean ke layanan Model as a Service (MaaS) eksternal. Mendukung integrasi dengan Alibaba Cloud Content Moderation untuk menerapkan peninjauan konten AI. Mendukung konfigurasi kebijakan routing inferensi menggunakan API InferenceTrafficPolicy.	Peningkatan dari versi sebelumnya akan me-restart Pod gateway. Lakukan peningkatan selama jam sepi.

Mei 2025

Nomor versi	Tanggal perubahan	Riwayat Perubahan	Dampak
v1.4.0-aliyun.1	27 Mei 2025	Mendukung Gateway API 1.3.0. Ekstensi inferensi: Mendukung beberapa kerangka kerja layanan inferensi, seperti vLLM, SGLang, dan TensorRT-LLM. Mendukung penyeimbangan beban yang peka terhadap awalan (prefix-aware load balancing). Mendukung perutean untuk layanan inferensi berdasarkan nama model. Mendukung antrian permintaan inferensi dan penjadwalan prioritas. Menyediakan observabilitas untuk permintaan AI generatif. Mendukung pembatasan laju global. Mendukung pembatasan laju global berdasarkan token dalam permintaan AI generatif. Mendukung penambahan konten Secret ke header permintaan tertentu.	Peningkatan dari versi sebelumnya akan me-restart Pod gateway. Lakukan peningkatan selama jam sepi.

April 2025

Nomor versi	Tanggal perubahan	Perubahan	Dampak
v1.3.0-aliyun.2	7 Mei 2025	Mendukung kluster ACS. Penyempurnaan ekstensi inferensi: Mendukung referensi ke sumber daya InferencePool dalam HTTPRoute. Juga mendukung kemampuan tingkat InferencePool seperti perutean berbasis bobot, pencerminan traffic, dan pemutusan sirkuit. Mendukung penyeimbangan beban yang peka terhadap awalan (prefix-aware load balancing).	Peningkatan dari versi sebelumnya akan me-restart Pod gateway. Lakukan peningkatan selama jam sepi.

Maret 2025

Nomor versi	Tanggal perubahan	Deskripsi	Dampak
v1.3.0-aliyun.1	12 Maret 2025	Mendukung Gateway API v1.2. Mendukung Inference Extension, yang menyediakan penyeimbangan beban cerdas untuk skenario inferensi model bahasa besar (LLM).	Peningkatan ini tidak memengaruhi layanan Anda.