全部产品
Search
文档中心

Container Compute Service:Manajemen trafik dan manajemen layanan inferensi Gateway with Inference Extension

更新时间:Mar 04, 2026

Topik ini menjelaskan fitur, prinsip implementasi, dan keunggulan komponen Gateway with Inference Extension.

Fitur

Komponen Gateway with Inference Extension merupakan komponen yang dikembangkan berdasarkan Gateway API dari komunitas Kubernetes dan spesifikasi Inference Extension-nya. Komponen ini mendukung perutean Lapisan 4 dan Lapisan 7 di Kubernetes serta menyediakan kemampuan yang ditingkatkan untuk skenario inferensi AI generatif. Selain itu, komponen ini menyederhanakan manajemen layanan inferensi AI generatif dan mengoptimalkan kinerja penyeimbangan beban di berbagai beban kerja layanan inferensi.

Fitur komponen

  • Penyeimbangan beban yang dioptimalkan untuk layanan inferensi model.

  • Perutean berbasis model: Merutekan permintaan inferensi berdasarkan nama model yang ditentukan dalam spesifikasi OpenAI API. Anda dapat menerapkan operasi trafik grayscale pada berbagai model LoRA dari model dasar yang sama berdasarkan nama model tersebut.

  • Konfigurasi tingkat kritisitas model: Memberikan prioritas permintaan untuk model yang berbeda dengan menetapkan tingkat kritisitas yang berbeda untuk setiap model.

Deskripsi resource

Komponen Gateway with Inference Extension mendeklarasikan dan mengelola layanan inferensi AI generatif menggunakan resource kustom InferencePool dan InferenceModel, yang merupakan ekstensi dari Gateway API:

  • InferencePool: Mewakili kelompok Pod yang memiliki konfigurasi komputasi, tipe akselerator, model dasar, dan server model yang sama. Resource ini mengelompokkan dan mengelola sumber daya layanan model AI secara logis. Satu objek InferencePool dapat mencakup beberapa Pod di berbagai node ACK, sehingga memberikan skalabilitas dan ketersediaan tinggi.

  • InferenceModel: Menentukan nama model yang dilayani oleh Pod server model dalam suatu InferencePool. Resource InferenceModel juga mendefinisikan properti layanan model tersebut, seperti tingkat kritisitasnya. Beban kerja yang diklasifikasikan sebagai Critical diproses dengan prioritas lebih tinggi.

Gambar berikut menunjukkan hubungan antara resource kustom InferencePool dan InferenceModel dengan resource Gateway API.

image

Gambar berikut menunjukkan bagaimana definisi resource InferencePool dan InferenceModel dari komponen Gateway with Inference Extension memproses permintaan inferensi.

image

Keunggulan penyeimbangan beban berbasis inferensi

Perutean HTTP tradisional

Untuk permintaan HTTP tradisional, algoritma penyeimbangan beban klasik dapat mendistribusikan permintaan secara merata di antara beban kerja yang berbeda. Namun, untuk layanan inferensi model bahasa besar (LLM), beban yang ditimbulkan setiap permintaan pada backend sulit diprediksi. Selama inferensi, pemrosesan permintaan mencakup dua fase:

  • Fase Prefill: Mengenkode input.

  • Fase Decoding: Fase ini terdiri dari beberapa langkah. Setiap langkah mendekode input sebelumnya dan menghasilkan token baru. Token merupakan unit dasar pemrosesan data LLM dan kira-kira setara dengan satu kata dalam output inferensi LLM.

Karena jumlah token yang akan dihasilkan oleh setiap permintaan tidak dapat ditentukan sebelumnya, distribusi permintaan secara merata di berbagai beban kerja menyebabkan beban yang tidak konsisten dan menimbulkan ketidakseimbangan beban.

Perutean layanan inferensi

Status internal server inferensi dievaluasi menggunakan metrik dari berbagai dimensi. Beban kemudian diseimbangkan di berbagai beban kerja server inferensi berdasarkan status internal mereka. Metrik utama meliputi:

  • Panjang antrian permintaan (vllm: num_requests_waiting): Menunjukkan jumlah permintaan dalam antrian yang menunggu untuk diproses oleh server model. Antrian yang lebih pendek berarti permintaan baru lebih mungkin diproses segera.

  • Pemanfaatan cache GPU (vllm: gpu_cache_usage_perc): Menunjukkan persentase pemanfaatan KV Cache, yang digunakan server model untuk menyimpan hasil inferensi antara. Pemanfaatan yang lebih rendah menunjukkan bahwa GPU memiliki ruang yang cukup untuk mengalokasikan sumber daya bagi permintaan baru.

Dibandingkan dengan algoritma penyeimbangan beban tradisional, pendekatan ini memberikan konsistensi beban GPU yang lebih baik di berbagai beban kerja layanan inferensi, secara signifikan mengurangi waktu hingga token pertama (TTFT) untuk permintaan inferensi LLM, serta meningkatkan throughput.