Topik ini menjelaskan fitur, implementasi, dan manfaat komponen Gateway with Inference Extension .
Kemampuan
Komponen Gateway with Inference Extension memperluas Kubernetes Gateway API dengan dukungan terhadap spesifikasi Inference Extension. Komponen ini mendukung routing Lapisan 4 dan Lapisan 7 serta menyediakan kemampuan lanjutan untuk inferensi AI generatif, menyederhanakan pengelolaan layanan inferensi dan mengoptimalkan penyeimbangan beban di berbagai beban kerja layanan inferensi.
Fitur komponen
Penyeimbangan beban yang dioptimalkan untuk layanan inferensi model.
Routing berbasis model: Anda dapat mengarahkan permintaan inferensi berdasarkan nama model yang ditentukan dalam spesifikasi OpenAI API, memungkinkan operasi traffic grayscale pada berbagai model LoRA dari model dasar yang sama berdasarkan nama.
Konfigurasi tingkat kritis model: Anda dapat menentukan tingkat kritis berbagai model untuk memprioritaskan permintaan.
Deskripsi resource
Gateway with Inference Extension mendeklarasikan dan mengelola layanan inferensi AI generatif menggunakan CustomResourceDefinitions (CRD) InferencePool dan InferenceModel, yang memperluas Gateway API.
InferencePool: Mewakili kelompok Pod yang memiliki konfigurasi komputasi, tipe akselerator, model dasar, dan model server yang sama. Resource ini mengelompokkan dan mengelola sumber daya layanan model AI secara logis. Satu objek InferencePool dapat mencakup beberapa Pod di berbagai node ACK, sehingga menyediakan skalabilitas dan ketersediaan tinggi.
InferenceModel: Menentukan nama model yang disajikan oleh Pod model server dalam suatu InferencePool. Resource InferenceModel juga mendefinisikan properti layanan model tersebut, seperti tingkat kritisnya. Beban kerja yang diklasifikasikan sebagai
Criticalakan diprioritaskan.
Gambar berikut menunjukkan hubungan antara CRD InferencePool dan InferenceModel dengan resource Gateway API.
Gambar berikut menunjukkan cara komponen Gateway with Inference Extension memproses permintaan inferensi menggunakan definisi resource InferencePool dan InferenceModel.
Manfaat penyeimbangan beban ekstensi inferensi
Routing HTTP tradisionalUntuk permintaan HTTP tradisional, algoritma penyeimbangan beban klasik dapat mendistribusikan permintaan secara merata ke berbagai beban kerja. Namun, untuk layanan inferensi Large Language Model (LLM), beban yang diberikan setiap permintaan pada Backend sulit diprediksi. Proses inferensi mencakup dua fase berikut:
Karena jumlah token yang dihasilkan setiap permintaan tidak dapat ditentukan sebelumnya, distribusi permintaan yang merata di berbagai beban kerja mengakibatkan beban yang tidak konsisten dan menyebabkan ketidakseimbangan beban. | Routing layanan inferensiStatus internal server inferensi dievaluasi menggunakan metrik dari berbagai dimensi. Penyeimbangan beban kemudian dilakukan di berbagai beban kerja server inferensi berdasarkan status internal tersebut. Metrik utama meliputi hal-hal berikut:
Dibandingkan dengan algoritma penyeimbangan beban tradisional, metode ini memastikan beban GPU yang lebih konsisten di berbagai beban kerja layanan inferensi, secara signifikan mengurangi waktu hingga token pertama (TTFT) untuk permintaan inferensi LLM, serta meningkatkan throughput permintaan inferensi LLM. |