All Products
Search
Document Center

Container Service for Kubernetes:Mengelola traffic dan layanan inferensi dengan Gateway with Inference Extension

Last Updated:Mar 07, 2026

Topik ini menjelaskan fitur, implementasi, dan manfaat komponen Gateway with Inference Extension .

Kemampuan

Komponen Gateway with Inference Extension memperluas Kubernetes Gateway API dengan dukungan terhadap spesifikasi Inference Extension. Komponen ini mendukung routing Lapisan 4 dan Lapisan 7 serta menyediakan kemampuan lanjutan untuk inferensi AI generatif, menyederhanakan pengelolaan layanan inferensi dan mengoptimalkan penyeimbangan beban di berbagai beban kerja layanan inferensi.

Fitur komponen

  • Penyeimbangan beban yang dioptimalkan untuk layanan inferensi model.

  • Routing berbasis model: Anda dapat mengarahkan permintaan inferensi berdasarkan nama model yang ditentukan dalam spesifikasi OpenAI API, memungkinkan operasi traffic grayscale pada berbagai model LoRA dari model dasar yang sama berdasarkan nama.

  • Konfigurasi tingkat kritis model: Anda dapat menentukan tingkat kritis berbagai model untuk memprioritaskan permintaan.

Deskripsi resource

Gateway with Inference Extension mendeklarasikan dan mengelola layanan inferensi AI generatif menggunakan CustomResourceDefinitions (CRD) InferencePool dan InferenceModel, yang memperluas Gateway API.

  • InferencePool: Mewakili kelompok Pod yang memiliki konfigurasi komputasi, tipe akselerator, model dasar, dan model server yang sama. Resource ini mengelompokkan dan mengelola sumber daya layanan model AI secara logis. Satu objek InferencePool dapat mencakup beberapa Pod di berbagai node ACK, sehingga menyediakan skalabilitas dan ketersediaan tinggi.

  • InferenceModel: Menentukan nama model yang disajikan oleh Pod model server dalam suatu InferencePool. Resource InferenceModel juga mendefinisikan properti layanan model tersebut, seperti tingkat kritisnya. Beban kerja yang diklasifikasikan sebagai Critical akan diprioritaskan.

Gambar berikut menunjukkan hubungan antara CRD InferencePool dan InferenceModel dengan resource Gateway API.

image

Gambar berikut menunjukkan cara komponen Gateway with Inference Extension memproses permintaan inferensi menggunakan definisi resource InferencePool dan InferenceModel.

image

Manfaat penyeimbangan beban ekstensi inferensi

Routing HTTP tradisional

Untuk permintaan HTTP tradisional, algoritma penyeimbangan beban klasik dapat mendistribusikan permintaan secara merata ke berbagai beban kerja. Namun, untuk layanan inferensi Large Language Model (LLM), beban yang diberikan setiap permintaan pada Backend sulit diprediksi. Proses inferensi mencakup dua fase berikut:

  • Fase Prefill: Mengenkoding input.

  • Fase Decoding: Terdiri dari beberapa langkah. Setiap langkah mendekode input sebelumnya dan menghasilkan token baru. Token merupakan unit dasar pemrosesan data untuk LLM dan kira-kira setara dengan satu kata dalam output LLM.

Karena jumlah token yang dihasilkan setiap permintaan tidak dapat ditentukan sebelumnya, distribusi permintaan yang merata di berbagai beban kerja mengakibatkan beban yang tidak konsisten dan menyebabkan ketidakseimbangan beban.

Routing layanan inferensi

Status internal server inferensi dievaluasi menggunakan metrik dari berbagai dimensi. Penyeimbangan beban kemudian dilakukan di berbagai beban kerja server inferensi berdasarkan status internal tersebut. Metrik utama meliputi hal-hal berikut:

  • Panjang antrian permintaan (vllm: num_requests_waiting): Menunjukkan jumlah permintaan yang sedang dalam antrian dan menunggu pemrosesan oleh model server. Semakin pendek antriannya, semakin besar kemungkinan permintaan baru diproses segera.

  • Pemanfaatan cache GPU (vllm: gpu_cache_usage_perc): Menunjukkan persentase pemanfaatan KV Cache yang digunakan model server untuk menyimpan hasil inferensi antara. Tingkat pemanfaatan yang lebih rendah menunjukkan bahwa GPU memiliki ruang yang cukup untuk mengalokasikan sumber daya bagi permintaan baru.

Dibandingkan dengan algoritma penyeimbangan beban tradisional, metode ini memastikan beban GPU yang lebih konsisten di berbagai beban kerja layanan inferensi, secara signifikan mengurangi waktu hingga token pertama (TTFT) untuk permintaan inferensi LLM, serta meningkatkan throughput permintaan inferensi LLM.