Tema ini menjelaskan fitur utama, prinsip implementasi, dan keunggulan komponen Gateway dengan Ekstensi Inferensi.
Fitur
Komponen Gateway dengan Ekstensi Inferensi adalah peningkatan dari Gateway API komunitas Kubernetes dan Ekstensi Inferensinya. ACK Gateway dengan Ekstensi Inferensi mendukung layanan perutean Lapisan 4 dan Lapisan 7 di Kubernetes serta menyediakan kemampuan tambahan untuk skenario inferensi AI generatif. Komponen ini menyederhanakan pengelolaan layanan inferensi AI generatif dan mengoptimalkan penyeimbangan beban di berbagai beban kerja layanan inferensi.
Fitur komponen
Penyeimbangan beban dioptimalkan untuk layanan inferensi model.
Perutean berbasis kesadaran model: Memproses permintaan inferensi berdasarkan nama model yang didefinisikan dalam spesifikasi API OpenAI. Anda dapat melakukan operasi skala abu-abu lalu lintas pada model LoRA yang berbeda dari model dasar yang sama berdasarkan nama.
Konfigurasi tingkat kritis model: Memrioritaskan permintaan untuk model yang berbeda dengan menentukan tingkat kritis yang berbeda untuk setiap model.
Deskripsi sumber daya
Gateway dengan Ekstensi Inferensi mendeklarasikan dan mengelola layanan inferensi AI generatif melalui sumber daya kustom InferencePool dan InferenceModel yang diperluas dari Gateway API:
InferencePool: Menentukan sekelompok pod yang berbagi konfigurasi komputasi yang sama, tipe akselerator, model dasar, dan server model. Ini mengelompokkan dan mengelola sumber daya layanan model AI secara logis. Objek InferencePool tunggal dapat mencakup beberapa pod di beberapa node ACK, memberikan skalabilitas dan ketersediaan tinggi.
InferenceModel: Menentukan nama model yang disajikan oleh pod server model dari InferencePool. Sumber daya InferenceModel juga mendefinisikan properti layanan model, seperti tingkat kritis. Beban kerja yang diklasifikasikan sebagai
Criticalakan diproses dengan prioritas.
Gambar berikut menunjukkan hubungan antara sumber daya kustom InferencePool, InferenceModel, dan sumber daya Gateway API.
Gambar berikut mengilustrasikan bagaimana definisi sumber daya InferencePool dan InferenceModel dari komponen Gateway dengan Ekstensi Inferensi memproses permintaan inferensi.
Keunggulan penyeimbangan beban untuk layanan inferensi model
Perutean HTTP tradisionalUntuk permintaan HTTP tradisional, algoritma penyeimbangan beban klasik dapat mendistribusikan permintaan secara merata di antara beban kerja yang berbeda. Namun, untuk layanan inferensi model bahasa besar (LLM), beban yang dibawa setiap permintaan ke backend sulit diprediksi. Selama proses inferensi, pemrosesan permintaan mencakup dua fase berikut:
Karena tidak dapat menentukan terlebih dahulu berapa banyak token yang akan dihasilkan setiap permintaan, mendistribusikan permintaan secara merata di berbagai beban kerja akan mengakibatkan beban kerja aktual yang tidak konsisten untuk setiap beban kerja, sehingga menyebabkan ketidakseimbangan beban. | Perutean layanan inferensiEvaluasi status internal server inferensi melalui berbagai dimensi metrik dan lakukan penyeimbangan beban di beberapa beban kerja server inferensi berdasarkan status internal mereka. Metrik berikut termasuk:
Dibandingkan dengan algoritma penyeimbangan beban tradisional, pendekatan ini lebih baik memastikan konsistensi beban GPU di berbagai beban kerja layanan inferensi, secara signifikan mengurangi latensi respons waktu hingga token pertama (TTFT) untuk permintaan inferensi LLM, dan meningkatkan throughput permintaan inferensi LLM. |