Model Mixture-of-Experts (MoE) memanfaatkan mekanisme aktivasi sparse untuk mencapai skala triliunan parameter sekaligus mengurangi biaya komputasi. Namun, pendekatan ini menimbulkan tantangan dalam inferensi tradisional. Expert parallelism (EP) merupakan strategi terdistribusi yang dirancang khusus untuk model MoE, dengan menempatkan expert berbeda pada GPU terpisah dan menerapkan perutean dinamis untuk permintaan. Strategi ini mengatasi bottleneck memori GPU, meningkatkan kinerja komputasi paralel, serta secara signifikan menurunkan biaya penyebaran. Topik ini menjelaskan cara mengaktifkan expert parallelism (EP) dan pemisahan Prefill-Decode (PD) untuk model MoE di Platform for AI (PAI) Elastic Algorithm Service (EAS) guna mencapai throughput inferensi yang lebih tinggi dan efisiensi biaya.
Arsitektur solusi
Platform for AI (PAI) Alibaba Cloud menyediakan Elastic Algorithm Service (EAS) yang mendukung penyebaran EP tingkat produksi. EAS mengintegrasikan teknologi seperti pemisahan PD, EP skala besar, co-optimization komputasi-komunikasi, dan MTP untuk menciptakan paradigma baru optimisasi bersama multidimensi.

Manfaat:
Penyebaran satu klik: EAS menyediakan template penyebaran EP dengan citra bawaan, sumber daya opsional, dan perintah run. Hal ini menyederhanakan penyebaran terdistribusi yang kompleks menjadi proses berbasis wizard dan menghilangkan kebutuhan untuk mengelola implementasi tingkat dasar.
Manajemen layanan teragregasi: Anda dapat memantau, menskalakan, dan mengelola siklus hidup layanan sub—seperti Prefill, Decode, dan LLM intelligent router—secara independen dari tampilan terpadu.
Menyebarluaskan layanan EP
Bagian ini menggunakan model DeepSeek-R1-0528-PAI-optimized sebagai contoh. Model yang telah dioptimalkan oleh PAI ini mendukung throughput lebih tinggi dan latensi lebih rendah. Ikuti langkah-langkah berikut:
Masuk ke Konsol PAI. Pilih wilayah di bagian atas halaman, lalu pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).
Pada tab Inference Service, klik Deploy Service. Di bagian Scenario-based Model Deployment, klik LLM Deployment.
Pada bagian Konfigurasi Model, pilih model publik DeepSeek-R1-0528-PAI-optimized.

Tetapkan Inference Engine ke vLLM dan Template Penyebaran ke EP+PD Separation-PAI Optimized.

Konfigurasikan sumber daya penyebaran untuk layanan Prefill dan Decode. Anda dapat memilih Sumber daya publik atau Kuota sumber daya.
Sumber daya publik: Cocok untuk uji coba cepat dan pengujian pengembangan. Spesifikasi yang tersedia adalah
ml.gu8tea.8.48xlargeatauml.gu8tef.8.46xlarge.
Kuota sumber daya: Direkomendasikan untuk lingkungan produksi guna memastikan stabilitas dan isolasi sumber daya. Anda tidak dapat memilih jenis ini jika tidak tersedia konfigurasi sumber daya.

(Opsional) Sesuaikan parameter penyebaran untuk mengoptimalkan kinerja.
Jumlah Instans: Sesuaikan jumlah instans untuk Prefill dan Decode guna mengubah rasio PD. Jumlah instans default dalam template penyebaran adalah 1.
Parameter paralelisme: Anda dapat menyesuaikan parameter paralelisme untuk layanan Prefill dan Decode, seperti
EP_SIZE,DP_SIZE, danTP_SIZE, melalui variabel lingkungan. Template penyebaran menetapkan nilai defaultTP_SIZEuntuk Prefill sebesar 8, serta nilai defaultEP_SIZEdanDP_SIZEuntuk Decode masing-masing sebesar 8.CatatanUntuk melindungi bobot model DeepSeek-R1-0528-PAI-optimized, platform tidak mengekspos perintah run untuk inference engine. Anda dapat memodifikasi parameter penting melalui variabel lingkungan.

Klik Deploy dan tunggu hingga layanan mulai. Proses ini memerlukan waktu sekitar 40 menit.
Verifikasi status layanan. Setelah penyebaran selesai, buka tab Online Debugging pada halaman detail layanan untuk menguji apakah layanan berjalan dengan benar.
CatatanUntuk informasi lebih lanjut mengenai panggilan API dan integrasi aplikasi pihak ketiga, lihat Call an LLM service.
Buat permintaan yang mengikuti format OpenAI. Tambahkan
/v1/chat/completionske path URL. Badan permintaan adalah sebagai berikut:{ "model": "", "messages": [ { "role": "user", "content": "Hello!" } ], "max_tokens": 1024 }Klik Send Request. Status respons 200 dan jawaban sukses dari model menunjukkan bahwa layanan berjalan dengan benar.

Mengelola layanan EP
Pada halaman daftar layanan, klik nama layanan untuk membuka halaman detailnya guna manajemen detail halus. Halaman ini menyediakan tampilan untuk layanan agregat secara keseluruhan maupun untuk layanan sub, seperti Prefill, Decode, dan LLM intelligent router.

Anda dapat melihat data pemantauan layanan dan log, serta mengonfigurasi kebijakan auto-scaling.
