全部产品
Search
文档中心

Platform For AI:Menyebarluaskan model MoE menggunakan expert parallelism dan pemisahan Prefill-Decode

更新时间:Nov 28, 2025

Model Mixture-of-Experts (MoE) memanfaatkan mekanisme aktivasi sparse untuk mencapai skala triliunan parameter sekaligus mengurangi biaya komputasi. Namun, pendekatan ini menimbulkan tantangan dalam inferensi tradisional. Expert parallelism (EP) merupakan strategi terdistribusi yang dirancang khusus untuk model MoE, dengan menempatkan expert berbeda pada GPU terpisah dan menerapkan perutean dinamis untuk permintaan. Strategi ini mengatasi bottleneck memori GPU, meningkatkan kinerja komputasi paralel, serta secara signifikan menurunkan biaya penyebaran. Topik ini menjelaskan cara mengaktifkan expert parallelism (EP) dan pemisahan Prefill-Decode (PD) untuk model MoE di Platform for AI (PAI) Elastic Algorithm Service (EAS) guna mencapai throughput inferensi yang lebih tinggi dan efisiensi biaya.

Arsitektur solusi

Platform for AI (PAI) Alibaba Cloud menyediakan Elastic Algorithm Service (EAS) yang mendukung penyebaran EP tingkat produksi. EAS mengintegrasikan teknologi seperti pemisahan PD, EP skala besar, co-optimization komputasi-komunikasi, dan MTP untuk menciptakan paradigma baru optimisasi bersama multidimensi.

image.png

Manfaat:

  • Penyebaran satu klik: EAS menyediakan template penyebaran EP dengan citra bawaan, sumber daya opsional, dan perintah run. Hal ini menyederhanakan penyebaran terdistribusi yang kompleks menjadi proses berbasis wizard dan menghilangkan kebutuhan untuk mengelola implementasi tingkat dasar.

  • Manajemen layanan teragregasi: Anda dapat memantau, menskalakan, dan mengelola siklus hidup layanan sub—seperti Prefill, Decode, dan LLM intelligent router—secara independen dari tampilan terpadu.

Menyebarluaskan layanan EP

Bagian ini menggunakan model DeepSeek-R1-0528-PAI-optimized sebagai contoh. Model yang telah dioptimalkan oleh PAI ini mendukung throughput lebih tinggi dan latensi lebih rendah. Ikuti langkah-langkah berikut:

  1. Masuk ke Konsol PAI. Pilih wilayah di bagian atas halaman, lalu pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).

  2. Pada tab Inference Service, klik Deploy Service. Di bagian Scenario-based Model Deployment, klik LLM Deployment.

  3. Pada bagian Konfigurasi Model, pilih model publik DeepSeek-R1-0528-PAI-optimized.

    image.png

  1. Tetapkan Inference Engine ke vLLM dan Template Penyebaran ke EP+PD Separation-PAI Optimized.

    image.png

  2. Konfigurasikan sumber daya penyebaran untuk layanan Prefill dan Decode. Anda dapat memilih Sumber daya publik atau Kuota sumber daya.

    • Sumber daya publik: Cocok untuk uji coba cepat dan pengujian pengembangan. Spesifikasi yang tersedia adalah ml.gu8tea.8.48xlarge atau ml.gu8tef.8.46xlarge.image.png

    • Kuota sumber daya: Direkomendasikan untuk lingkungan produksi guna memastikan stabilitas dan isolasi sumber daya. Anda tidak dapat memilih jenis ini jika tidak tersedia konfigurasi sumber daya.

      image.png

  3. (Opsional) Sesuaikan parameter penyebaran untuk mengoptimalkan kinerja.

    • Jumlah Instans: Sesuaikan jumlah instans untuk Prefill dan Decode guna mengubah rasio PD. Jumlah instans default dalam template penyebaran adalah 1.

    • Parameter paralelisme: Anda dapat menyesuaikan parameter paralelisme untuk layanan Prefill dan Decode, seperti EP_SIZE, DP_SIZE, dan TP_SIZE, melalui variabel lingkungan. Template penyebaran menetapkan nilai default TP_SIZE untuk Prefill sebesar 8, serta nilai default EP_SIZE dan DP_SIZE untuk Decode masing-masing sebesar 8.

      Catatan

      Untuk melindungi bobot model DeepSeek-R1-0528-PAI-optimized, platform tidak mengekspos perintah run untuk inference engine. Anda dapat memodifikasi parameter penting melalui variabel lingkungan.

      image.png

  4. Klik Deploy dan tunggu hingga layanan mulai. Proses ini memerlukan waktu sekitar 40 menit.

  5. Verifikasi status layanan. Setelah penyebaran selesai, buka tab Online Debugging pada halaman detail layanan untuk menguji apakah layanan berjalan dengan benar.

    Catatan

    Untuk informasi lebih lanjut mengenai panggilan API dan integrasi aplikasi pihak ketiga, lihat Call an LLM service.

    Buat permintaan yang mengikuti format OpenAI. Tambahkan /v1/chat/completions ke path URL. Badan permintaan adalah sebagai berikut:

    {
        "model": "",
        "messages": [
            {
                "role": "user",
                "content": "Hello!"
            }
        ],
        "max_tokens": 1024
    }

    Klik Send Request. Status respons 200 dan jawaban sukses dari model menunjukkan bahwa layanan berjalan dengan benar.

    image.png

Mengelola layanan EP

  1. Pada halaman daftar layanan, klik nama layanan untuk membuka halaman detailnya guna manajemen detail halus. Halaman ini menyediakan tampilan untuk layanan agregat secara keseluruhan maupun untuk layanan sub, seperti Prefill, Decode, dan LLM intelligent router.

    image.png

  2. Anda dapat melihat data pemantauan layanan dan log, serta mengonfigurasi kebijakan auto-scaling.

    image.png