Topik ini menjelaskan fitur, prinsip implementasi, dan keunggulan komponen Gateway with Inference Extension.
Fitur
Komponen Gateway with Inference Extension merupakan komponen yang dikembangkan berdasarkan Gateway API dari komunitas Kubernetes dan spesifikasi Inference Extension-nya. Komponen ini mendukung perutean Lapisan 4 dan Lapisan 7 di Kubernetes serta menyediakan kemampuan yang ditingkatkan untuk skenario inferensi AI generatif. Selain itu, komponen ini menyederhanakan manajemen layanan inferensi AI generatif dan mengoptimalkan kinerja penyeimbangan beban di berbagai beban kerja layanan inferensi.
Fitur komponen
Penyeimbangan beban yang dioptimalkan untuk layanan inferensi model.
Perutean berbasis model: Merutekan permintaan inferensi berdasarkan nama model yang ditentukan dalam spesifikasi OpenAI API. Anda dapat menerapkan operasi trafik grayscale pada berbagai model LoRA dari model dasar yang sama berdasarkan nama model tersebut.
Konfigurasi tingkat kritisitas model: Memberikan prioritas permintaan untuk model yang berbeda dengan menetapkan tingkat kritisitas yang berbeda untuk setiap model.
Deskripsi resource
Komponen Gateway with Inference Extension mendeklarasikan dan mengelola layanan inferensi AI generatif menggunakan resource kustom InferencePool dan InferenceModel, yang merupakan ekstensi dari Gateway API:
InferencePool: Mewakili kelompok Pod yang memiliki konfigurasi komputasi, tipe akselerator, model dasar, dan server model yang sama. Resource ini mengelompokkan dan mengelola sumber daya layanan model AI secara logis. Satu objek InferencePool dapat mencakup beberapa Pod di berbagai node ACK, sehingga memberikan skalabilitas dan ketersediaan tinggi.
InferenceModel: Menentukan nama model yang dilayani oleh Pod server model dalam suatu InferencePool. Resource InferenceModel juga mendefinisikan properti layanan model tersebut, seperti tingkat kritisitasnya. Beban kerja yang diklasifikasikan sebagai
Criticaldiproses dengan prioritas lebih tinggi.
Gambar berikut menunjukkan hubungan antara resource kustom InferencePool dan InferenceModel dengan resource Gateway API.
Gambar berikut menunjukkan bagaimana definisi resource InferencePool dan InferenceModel dari komponen Gateway with Inference Extension memproses permintaan inferensi.
Keunggulan penyeimbangan beban berbasis inferensi
Perutean HTTP tradisionalUntuk permintaan HTTP tradisional, algoritma penyeimbangan beban klasik dapat mendistribusikan permintaan secara merata di antara beban kerja yang berbeda. Namun, untuk layanan inferensi model bahasa besar (LLM), beban yang ditimbulkan setiap permintaan pada backend sulit diprediksi. Selama inferensi, pemrosesan permintaan mencakup dua fase:
Karena jumlah token yang akan dihasilkan oleh setiap permintaan tidak dapat ditentukan sebelumnya, distribusi permintaan secara merata di berbagai beban kerja menyebabkan beban yang tidak konsisten dan menimbulkan ketidakseimbangan beban. | Perutean layanan inferensiStatus internal server inferensi dievaluasi menggunakan metrik dari berbagai dimensi. Beban kemudian diseimbangkan di berbagai beban kerja server inferensi berdasarkan status internal mereka. Metrik utama meliputi:
Dibandingkan dengan algoritma penyeimbangan beban tradisional, pendekatan ini memberikan konsistensi beban GPU yang lebih baik di berbagai beban kerja layanan inferensi, secara signifikan mengurangi waktu hingga token pertama (TTFT) untuk permintaan inferensi LLM, serta meningkatkan throughput. |