Pengenalan dan catatan rilis Gerbang dengan Ekstensi Inferensi - Container Compute Service

Gateway dengan Ekstensi Inferensi memperluas Kubernetes Gateway API dengan spesifikasi Ekstensi Inferensi. Ini menyediakan layanan perutean Lapisan 4 dan Lapisan 7 di Kubernetes serta menawarkan penyeimbangan beban cerdas untuk skenario inferensi model bahasa besar (LLMs). Topik ini menjelaskan panduan penggunaan dan mencatat rilis Gateway dengan Ekstensi Inferensi.

Pengenalan

Gateway dengan Ekstensi Inferensi dibangun berdasarkan proyek Envoy Gateway. Ini mempertahankan kompatibilitas dengan Gateway API sambil mengintegrasikan ekstensi inferensinya. Add-on ini terutama menyediakan kemampuan penyeimbangan beban dan perutean untuk layanan inferensi LLM.

Catatan penggunaan

Instalasi dan penggunaan Gateway dengan Ekstensi Inferensi bergantung pada Definisi Sumber Daya Kustom (CRDs) yang disediakan oleh Gateway API. Sebelum instalasi, pastikan bahwa Gateway API telah diinstal di kluster.

Catatan rilis

Mei 2025

Nomor versi	Tanggal rilis	Deskripsi	Dampak
1.4.0-aliyun.1	2025-05-27	Gateway API 1.3.0 didukung. Penyempurnaan Ekstensi Inferensi: Berbagai kerangka inferensi (seperti vLLM, SGLang, dan TensorRT-LLM) didukung. Penyeimbangan beban berbasis awalan dioptimalkan. Perutean untuk layanan inferensi dapat diimplementasikan berdasarkan nama model. Antrian permintaan dan penjadwalan prioritas untuk beban kerja inferensi didukung. Kemampuan observabilitas untuk permintaan AI generatif tersedia. Pembatasan kecepatan global didukung. Pembatasan kecepatan global berbasis token untuk permintaan AI generatif tersedia. Injeksi konten rahasia ke header permintaan tertentu didukung.	Pod Gateway akan restart selama pembaruan. Kami menyarankan untuk melakukan pembaruan ini selama jam-jam sepi.

April 2025

Nomor versi	Tanggal rilis	Deskripsi	Dampak
1.3.0-aliyun.2	2025-04-07	Kluster Alibaba Cloud Container Compute Service (ACS) didukung. Penyempurnaan Ekstensi Inferensi: Referensi Sumber Daya InferencePool diaktifkan di HTTPRoute. Kemampuan perutean berbasis bobot, pencerminan lalu lintas, dan pemutusan sirkuit dapat diimplementasikan di tingkat InferencePool. Penyeimbangan beban berbasis awalan didukung.	Pod Gateway akan restart selama pembaruan. Kami menyarankan untuk melakukan pembaruan ini selama jam-jam sepi.