全部产品
Search
文档中心

Container Compute Service:Gerbang dengan Ekstensi Inferensi

更新时间:Oct 15, 2025

Gateway dengan Ekstensi Inferensi memperluas Kubernetes Gateway API dengan spesifikasi Ekstensi Inferensi. Ini menyediakan layanan perutean Lapisan 4 dan Lapisan 7 di Kubernetes serta menawarkan penyeimbangan beban cerdas untuk skenario inferensi model bahasa besar (LLMs). Topik ini menjelaskan panduan penggunaan dan mencatat rilis Gateway dengan Ekstensi Inferensi.

Pengenalan

Gateway dengan Ekstensi Inferensi dibangun berdasarkan proyek Envoy Gateway. Ini mempertahankan kompatibilitas dengan Gateway API sambil mengintegrasikan ekstensi inferensinya. Add-on ini terutama menyediakan kemampuan penyeimbangan beban dan perutean untuk layanan inferensi LLM.

Catatan penggunaan

Instalasi dan penggunaan Gateway dengan Ekstensi Inferensi bergantung pada Definisi Sumber Daya Kustom (CRDs) yang disediakan oleh Gateway API. Sebelum instalasi, pastikan bahwa Gateway API telah diinstal di kluster.

Catatan rilis

Mei 2025

Nomor versi

Tanggal rilis

Deskripsi

Dampak

1.4.0-aliyun.1

2025-05-27

  • Gateway API 1.3.0 didukung.

  • Penyempurnaan Ekstensi Inferensi:

    • Berbagai kerangka inferensi (seperti vLLM, SGLang, dan TensorRT-LLM) didukung.

    • Penyeimbangan beban berbasis awalan dioptimalkan.

    • Perutean untuk layanan inferensi dapat diimplementasikan berdasarkan nama model.

    • Antrian permintaan dan penjadwalan prioritas untuk beban kerja inferensi didukung.

  • Kemampuan observabilitas untuk permintaan AI generatif tersedia.

  • Pembatasan kecepatan global didukung.

  • Pembatasan kecepatan global berbasis token untuk permintaan AI generatif tersedia.

  • Injeksi konten rahasia ke header permintaan tertentu didukung.

Pod Gateway akan restart selama pembaruan. Kami menyarankan untuk melakukan pembaruan ini selama jam-jam sepi.

April 2025

Nomor versi

Tanggal rilis

Deskripsi

Dampak

1.3.0-aliyun.2

2025-04-07

  • Kluster Alibaba Cloud Container Compute Service (ACS) didukung.

  • Penyempurnaan Ekstensi Inferensi:

    • Referensi Sumber Daya InferencePool diaktifkan di HTTPRoute.

    • Kemampuan perutean berbasis bobot, pencerminan lalu lintas, dan pemutusan sirkuit dapat diimplementasikan di tingkat InferencePool.

  • Penyeimbangan beban berbasis awalan didukung.

Pod Gateway akan restart selama pembaruan. Kami menyarankan untuk melakukan pembaruan ini selama jam-jam sepi.