Ikhtisar Gateway dengan Ekstensi Inferensi - Container Service for Kubernetes

Tema ini menjelaskan fitur utama, prinsip implementasi, dan keunggulan komponen Gateway dengan Ekstensi Inferensi.

Fitur

Komponen Gateway dengan Ekstensi Inferensi adalah peningkatan dari Gateway API komunitas Kubernetes dan Ekstensi Inferensinya. ACK Gateway dengan Ekstensi Inferensi mendukung layanan perutean Lapisan 4 dan Lapisan 7 di Kubernetes serta menyediakan kemampuan tambahan untuk skenario inferensi AI generatif. Komponen ini menyederhanakan pengelolaan layanan inferensi AI generatif dan mengoptimalkan penyeimbangan beban di berbagai beban kerja layanan inferensi.

Fitur komponen

Penyeimbangan beban dioptimalkan untuk layanan inferensi model.
Perutean berbasis kesadaran model: Memproses permintaan inferensi berdasarkan nama model yang didefinisikan dalam spesifikasi API OpenAI. Anda dapat melakukan operasi skala abu-abu lalu lintas pada model LoRA yang berbeda dari model dasar yang sama berdasarkan nama.
Konfigurasi tingkat kritis model: Memrioritaskan permintaan untuk model yang berbeda dengan menentukan tingkat kritis yang berbeda untuk setiap model.

Deskripsi sumber daya

Gateway dengan Ekstensi Inferensi mendeklarasikan dan mengelola layanan inferensi AI generatif melalui sumber daya kustom InferencePool dan InferenceModel yang diperluas dari Gateway API:

InferencePool: Menentukan sekelompok pod yang berbagi konfigurasi komputasi yang sama, tipe akselerator, model dasar, dan server model. Ini mengelompokkan dan mengelola sumber daya layanan model AI secara logis. Objek InferencePool tunggal dapat mencakup beberapa pod di beberapa node ACK, memberikan skalabilitas dan ketersediaan tinggi.
InferenceModel: Menentukan nama model yang disajikan oleh pod server model dari InferencePool. Sumber daya InferenceModel juga mendefinisikan properti layanan model, seperti tingkat kritis. Beban kerja yang diklasifikasikan sebagai Critical akan diproses dengan prioritas.

Gambar berikut menunjukkan hubungan antara sumber daya kustom InferencePool, InferenceModel, dan sumber daya Gateway API.

Gambar berikut mengilustrasikan bagaimana definisi sumber daya InferencePool dan InferenceModel dari komponen Gateway dengan Ekstensi Inferensi memproses permintaan inferensi.

Keunggulan penyeimbangan beban untuk layanan inferensi model

Perutean HTTP tradisional

Untuk permintaan HTTP tradisional, algoritma penyeimbangan beban klasik dapat mendistribusikan permintaan secara merata di antara beban kerja yang berbeda. Namun, untuk layanan inferensi model bahasa besar (LLM), beban yang dibawa setiap permintaan ke backend sulit diprediksi. Selama proses inferensi, pemrosesan permintaan mencakup dua fase berikut:

Fase Prefill: Mengkodekan input.
Fase Decoding: Fase ini dapat dibagi menjadi beberapa langkah, setiap langkah mendekode input sebelumnya dan mengeluarkan token baru (unit dasar pemrosesan data LLM, kira-kira sesuai dengan setiap kata yang dihasilkan oleh inferensi LLM).

Karena tidak dapat menentukan terlebih dahulu berapa banyak token yang akan dihasilkan setiap permintaan, mendistribusikan permintaan secara merata di berbagai beban kerja akan mengakibatkan beban kerja aktual yang tidak konsisten untuk setiap beban kerja, sehingga menyebabkan ketidakseimbangan beban.

Perutean layanan inferensi

Evaluasi status internal server inferensi melalui berbagai dimensi metrik dan lakukan penyeimbangan beban di beberapa beban kerja server inferensi berdasarkan status internal mereka. Metrik berikut termasuk:

Panjang Antrian Permintaan (vllm: num_requests_waiting): Menentukan jumlah permintaan yang menunggu untuk diproses oleh server model. Semakin sedikit permintaan dalam antrian, semakin besar kemungkinan permintaan baru akan diproses dengan cepat.
Penggunaan Cache GPU (vllm: gpu_cache_usage_perc): Menentukan persentase penggunaan KV Cache yang digunakan oleh server model untuk menyimpan hasil inferensi perantara. Penggunaan yang lebih rendah menunjukkan bahwa GPU memiliki ruang yang cukup untuk mengalokasikan sumber daya ke permintaan baru.

Dibandingkan dengan algoritma penyeimbangan beban tradisional, pendekatan ini lebih baik memastikan konsistensi beban GPU di berbagai beban kerja layanan inferensi, secara signifikan mengurangi latensi respons waktu hingga token pertama (TTFT) untuk permintaan inferensi LLM, dan meningkatkan throughput permintaan inferensi LLM.