AI Serving Stack - Container Service for Kubernetes

Seiring semakin meluasnya penggunaan model bahasa besar (LLM), tantangan utama bagi bisnis adalah menerapkan dan mengelolanya secara efisien, andal, dan dalam skala besar di lingkungan produksi. Cloud-native AI Serving Stack merupakan solusi end-to-end yang dibangun di atas Container Service for Kubernetes dan dirancang khusus untuk inferensi AI berbasis cloud-native. Stack ini mencakup seluruh siklus hidup inferensi LLM serta menyediakan fitur terintegrasi seperti manajemen penerapan, perutean pintar, penskalaan otomatis, dan observabilitas mendalam. Cloud-native AI Serving Stack membantu Anda mengelola skenario inferensi AI berbasis cloud-native yang kompleks, baik saat memulai maupun menjalankan operasi AI berskala besar.

Fitur inti

Cloud-native AI Serving Stack menyederhanakan dan meningkatkan efisiensi layanan inferensi LLM di Kubernetes melalui desain beban kerja inovatif, skalabilitas detail halus, observabilitas mendalam, serta mekanisme ekstensi yang kuat. Berikut fitur-fitur inti AI Serving Stack.

Fitur	Deskripsi	Referensi
Mendukung inferensi LLM single-node	Anda dapat menggunakan StatefulSet untuk menerapkan layanan inferensi LLM, baik dalam konfigurasi single-node dengan satu GPU maupun single-node dengan multi-GPU.	Terapkan layanan inferensi LLM single-node
Mendukung inferensi LLM terdistribusi multi-node	Anda dapat menggunakan LeaderWorkerSet untuk menerapkan layanan inferensi terdistribusi multi-node dan multi-GPU.	Terapkan layanan inferensi terdistribusi multi-node Praktik terbaik untuk menerapkan layanan inferensi DeepSeek berkinerja penuh pada kluster ACK terdistribusi multi-node
Mendukung penerapan pemisahan PD untuk berbagai mesin inferensi	Mesin inferensi yang berbeda menerapkan pemisahan PD menggunakan berbagai arsitektur dan metode penerapan. AI Serving Stack menggunakan RoleBasedGroup sebagai beban kerja terpadu untuk menerapkan arsitektur pemisahan PD tersebut.	Terapkan layanan inferensi pemisahan PD SGLang Terapkan layanan inferensi pemisahan PD Dynamo
Skalabilitas elastis	Menyeimbangkan biaya dan kinerja sangat penting untuk layanan LLM. AI Serving Stack menyediakan kemampuan penskalaan otomatis multi-dimensi dan multi-lapis yang terdepan di industri. Dukungan elastis umum: Stack ini mengintegrasikan dan mengoptimalkan secara mendalam mekanisme penskalaan standar, seperti Horizontal Pod Autoscaler (HPA), Kubernetes Event-driven Autoscaling (KEDA), dan Knative (KPA), untuk memenuhi kebutuhan berbagai skenario. Penskalaan pintar untuk pemisahan PD: Stack ini secara eksklusif mendukung penskalaan independen untuk peran tertentu dalam RoleBasedGroup (RBG). Misalnya, Anda dapat melakukan penskalaan dinamis pada peran "Prefill" berdasarkan metrik mesin inferensi, seperti panjang antrian permintaan, sementara peran "Scheduler" tetap stabil. Hal ini mencapai konfigurasi sumber daya yang detail halus.	Konfigurasikan skalabilitas elastis untuk inferensi single-node atau multi-node Konfigurasikan kebijakan penskalaan otomatis untuk layanan inferensi pemisahan PD
Observabilitas	Sifat kotak hitam dari proses inferensi menjadi hambatan utama dalam optimasi kinerja. AI Serving Stack menyediakan solusi observabilitas siap pakai dan mendalam. Pemantauan mesin inti: Untuk mesin inferensi utama, seperti vLLM dan SGLang, stack ini menyediakan dasbor metrik yang telah dibuat sebelumnya. Dasbor tersebut mencakup metrik kunci seperti throughput token, latensi permintaan, pemanfaatan GPU, dan tingkat hit KV Cache. Identifikasi masalah cepat: Tampilan pemantauan yang intuitif membantu pengembang dengan cepat menemukan bottleneck kinerja dan membuat keputusan optimasi yang tepat.	Konfigurasikan pemantauan untuk layanan inferensi LLM
Gerbang inferensi	Komponen ACK Gateway with Inference Extension merupakan komponen yang ditingkatkan berdasarkan Kubernetes Gateway API dan spesifikasi Inference Extension-nya. Komponen ini mendukung layanan perutean Lapisan 4 dan Lapisan 7 Kubernetes serta menyediakan serangkaian kemampuan tambahan untuk skenario inferensi AI generatif. Komponen ini menyederhanakan manajemen layanan inferensi AI generatif dan mengoptimalkan kinerja penyeimbangan beban di berbagai beban kerja layanan inferensi.	Konfigurasikan perutean pintar dengan gerbang inferensi untuk layanan inferensi LLM
Akselerasi model	Dalam skenario inferensi AI, pemuatan model LLM yang lambat menyebabkan berbagai masalah, seperti waktu cold-start aplikasi yang tinggi dan terhambatnya skalabilitas elastis. Fluid membangun cache terdistribusi untuk menyimpan file model jarak jauh pada node lokal. Hal ini memungkinkan startup cepat, tanpa redundansi, dan elastisitas ekstrem.	Praktik terbaik untuk kebijakan optimasi cache data Fluid
Profil kinerja	Untuk analisis kinerja yang lebih mendalam, Anda dapat menggunakan alat AI Profiling. Alat ini memungkinkan pengembang mengumpulkan data dari proses kontainer GPU untuk mengamati dan menganalisis kinerja layanan pelatihan dan inferensi online tanpa mengganggu layanan atau memodifikasi kode. Desain non-intrusif: Anda dapat mengaktifkannya dengan satu klik. Alat ini aman, andal, dan tidak memengaruhi layanan online. Wawasan bottleneck kode: Fitur ini membantu menemukan hotspot kinerja pada level CUDA Kernel atau fungsi Python tertentu, sehingga memberikan data untuk mendukung optimasi ekstrem.	AI Profiling

Penafian

AI Serving Stack menyediakan kemampuan penerapan dan manajemen untuk mesin inferensi open-source dan kerangka kerja pemisahan PD-nya. Alibaba Cloud menyediakan dukungan teknis untuk AI Serving Stack. Namun, Alibaba Cloud tidak memberikan kompensasi atau layanan komersial lainnya atas kerugian bisnis yang disebabkan oleh cacat pada mesin open-source atau kerangka kerja pemisahan PD open-source.