全部产品
Search
文档中心

Container Service for Kubernetes:AI Serving Stack

更新时间:Nov 12, 2025

Seiring semakin meluasnya penggunaan model bahasa besar (LLM), tantangan utama bagi bisnis adalah menerapkan dan mengelolanya secara efisien, andal, dan dalam skala besar di lingkungan produksi. Cloud-native AI Serving Stack merupakan solusi end-to-end yang dibangun di atas Container Service for Kubernetes dan dirancang khusus untuk inferensi AI berbasis cloud-native. Stack ini mencakup seluruh siklus hidup inferensi LLM serta menyediakan fitur terintegrasi seperti manajemen penerapan, perutean pintar, penskalaan otomatis, dan observabilitas mendalam. Cloud-native AI Serving Stack membantu Anda mengelola skenario inferensi AI berbasis cloud-native yang kompleks, baik saat memulai maupun menjalankan operasi AI berskala besar.

image.png

Fitur inti

Cloud-native AI Serving Stack menyederhanakan dan meningkatkan efisiensi layanan inferensi LLM di Kubernetes melalui desain beban kerja inovatif, skalabilitas detail halus, observabilitas mendalam, serta mekanisme ekstensi yang kuat. Berikut fitur-fitur inti AI Serving Stack.

Fitur

Deskripsi

Referensi

Mendukung inferensi LLM single-node

Anda dapat menggunakan StatefulSet untuk menerapkan layanan inferensi LLM, baik dalam konfigurasi single-node dengan satu GPU maupun single-node dengan multi-GPU.

Terapkan layanan inferensi LLM single-node

Mendukung inferensi LLM terdistribusi multi-node

Anda dapat menggunakan LeaderWorkerSet untuk menerapkan layanan inferensi terdistribusi multi-node dan multi-GPU.

Mendukung penerapan pemisahan PD untuk berbagai mesin inferensi

Mesin inferensi yang berbeda menerapkan pemisahan PD menggunakan berbagai arsitektur dan metode penerapan. AI Serving Stack menggunakan RoleBasedGroup sebagai beban kerja terpadu untuk menerapkan arsitektur pemisahan PD tersebut.

Skalabilitas elastis

Menyeimbangkan biaya dan kinerja sangat penting untuk layanan LLM. AI Serving Stack menyediakan kemampuan penskalaan otomatis multi-dimensi dan multi-lapis yang terdepan di industri.

  • Dukungan elastis umum: Stack ini mengintegrasikan dan mengoptimalkan secara mendalam mekanisme penskalaan standar, seperti Horizontal Pod Autoscaler (HPA), Kubernetes Event-driven Autoscaling (KEDA), dan Knative (KPA), untuk memenuhi kebutuhan berbagai skenario.

  • Penskalaan pintar untuk pemisahan PD: Stack ini secara eksklusif mendukung penskalaan independen untuk peran tertentu dalam RoleBasedGroup (RBG). Misalnya, Anda dapat melakukan penskalaan dinamis pada peran "Prefill" berdasarkan metrik mesin inferensi, seperti panjang antrian permintaan, sementara peran "Scheduler" tetap stabil. Hal ini mencapai konfigurasi sumber daya yang detail halus.

Observabilitas

Sifat kotak hitam dari proses inferensi menjadi hambatan utama dalam optimasi kinerja. AI Serving Stack menyediakan solusi observabilitas siap pakai dan mendalam.

  • Pemantauan mesin inti: Untuk mesin inferensi utama, seperti vLLM dan SGLang, stack ini menyediakan dasbor metrik yang telah dibuat sebelumnya. Dasbor tersebut mencakup metrik kunci seperti throughput token, latensi permintaan, pemanfaatan GPU, dan tingkat hit KV Cache.

  • Identifikasi masalah cepat: Tampilan pemantauan yang intuitif membantu pengembang dengan cepat menemukan bottleneck kinerja dan membuat keputusan optimasi yang tepat.

Konfigurasikan pemantauan untuk layanan inferensi LLM

Gerbang inferensi

Komponen ACK Gateway with Inference Extension merupakan komponen yang ditingkatkan berdasarkan Kubernetes Gateway API dan spesifikasi Inference Extension-nya. Komponen ini mendukung layanan perutean Lapisan 4 dan Lapisan 7 Kubernetes serta menyediakan serangkaian kemampuan tambahan untuk skenario inferensi AI generatif. Komponen ini menyederhanakan manajemen layanan inferensi AI generatif dan mengoptimalkan kinerja penyeimbangan beban di berbagai beban kerja layanan inferensi.

Konfigurasikan perutean pintar dengan gerbang inferensi untuk layanan inferensi LLM

Akselerasi model

Dalam skenario inferensi AI, pemuatan model LLM yang lambat menyebabkan berbagai masalah, seperti waktu cold-start aplikasi yang tinggi dan terhambatnya skalabilitas elastis. Fluid membangun cache terdistribusi untuk menyimpan file model jarak jauh pada node lokal. Hal ini memungkinkan startup cepat, tanpa redundansi, dan elastisitas ekstrem.

Praktik terbaik untuk kebijakan optimasi cache data Fluid

Profil kinerja

Untuk analisis kinerja yang lebih mendalam, Anda dapat menggunakan alat AI Profiling. Alat ini memungkinkan pengembang mengumpulkan data dari proses kontainer GPU untuk mengamati dan menganalisis kinerja layanan pelatihan dan inferensi online tanpa mengganggu layanan atau memodifikasi kode.

  • Desain non-intrusif: Anda dapat mengaktifkannya dengan satu klik. Alat ini aman, andal, dan tidak memengaruhi layanan online.

  • Wawasan bottleneck kode: Fitur ini membantu menemukan hotspot kinerja pada level CUDA Kernel atau fungsi Python tertentu, sehingga memberikan data untuk mendukung optimasi ekstrem.

AI Profiling

Penafian

AI Serving Stack menyediakan kemampuan penerapan dan manajemen untuk mesin inferensi open-source dan kerangka kerja pemisahan PD-nya. Alibaba Cloud menyediakan dukungan teknis untuk AI Serving Stack. Namun, Alibaba Cloud tidak memberikan kompensasi atau layanan komersial lainnya atas kerugian bisnis yang disebabkan oleh cacat pada mesin open-source atau kerangka kerja pemisahan PD open-source.