Gateway dengan Ekstensi Inferensi memperluas Kubernetes Gateway API dengan spesifikasi Ekstensi Inferensi. Ini menyediakan layanan perutean Lapisan 4 dan Lapisan 7 di Kubernetes serta menawarkan penyeimbangan beban cerdas untuk skenario inferensi model bahasa besar (LLMs). Topik ini menjelaskan panduan penggunaan dan mencatat rilis Gateway dengan Ekstensi Inferensi.
Pengenalan
Gateway dengan Ekstensi Inferensi dibangun berdasarkan proyek Envoy Gateway. Ini mempertahankan kompatibilitas dengan Gateway API sambil mengintegrasikan ekstensi inferensinya. Add-on ini terutama menyediakan kemampuan penyeimbangan beban dan perutean untuk layanan inferensi LLM.
Catatan penggunaan
Instalasi dan penggunaan Gateway dengan Ekstensi Inferensi bergantung pada Definisi Sumber Daya Kustom (CRDs) yang disediakan oleh Gateway API. Sebelum instalasi, pastikan bahwa Gateway API telah diinstal di kluster.
Catatan rilis
Mei 2025
Nomor versi | Tanggal rilis | Deskripsi | Dampak |
1.4.0-aliyun.1 | 2025-05-27 |
| Pod Gateway akan restart selama pembaruan. Kami menyarankan untuk melakukan pembaruan ini selama jam-jam sepi. |
April 2025
Nomor versi | Tanggal rilis | Deskripsi | Dampak |
1.3.0-aliyun.2 | 2025-04-07 |
| Pod Gateway akan restart selama pembaruan. Kami menyarankan untuk melakukan pembaruan ini selama jam-jam sepi. |