全部產品
Search
文件中心

Platform For AI:基於專家並行和PD分離部署MoE模型

更新時間:Nov 27, 2025

混合專家模型(MoE)通過“稀疏啟用”機制,在實現萬億級參數規模的同時降低計算成本,但也給傳統推理部署帶來挑戰。專家並行(EP)是一種專為MoE設計的分布式策略,它將不同專家部署在不同GPU上,通過動態路由請求,有效解決顯存瓶頸、提升並行計算效能,並顯著降低部署成本。本文介紹在PAI-EAS上,為MoE模型啟用專家並行(EP)和Prefill-Decode(PD)分離部署,以實現更高的推理吞吐和成本效益。

方案架構

阿里雲人工智慧平台PAI的模型線上服務(EAS) 提供生產級EP的部署支援,將PD分離、大規模EP、計算-通訊協同最佳化、MTP等技術融為一體,形成多維度聯合最佳化的新範式。

image.png

方案優勢

  • 一鍵式部署:提供內建鏡像、可選資源、運行命令等的EP部署模板,將複雜的分布式部署簡化為嚮導式操作,無需關注底層實現。

  • 彙總服務管理:在統一視圖下對Prefill、Decode和智能路由等子服務進行獨立監控、擴縮容和生命週期管理。

部署EP服務

以部署模型DeepSeek-R1-0528-PAI-optimized(PAI最佳化版模型,能夠支援更高的吞吐和更低的時延)為例,操作步驟如下:

  1. 登入PAI控制台,在頁面上方選擇目標地區,並在右側選擇目標工作空間,然後單擊進入EAS

  2. 推理服務頁簽,單擊部署服務,然後在情境化模型部署地區,單擊LLM大語言模型部署

  3. 模型配置選擇公用模型DeepSeek-R1-0528-PAI-optimized

    image.png

  4. 推理引擎選擇vLLM,部署模板選擇EP+PD分離-PAI最佳化版

    image.png

  5. 為Prefill和Decode服務配置部署資源。可以選擇公用資源或者資源配額。

    • 公用資源:適用於快速體驗和開發測試。可用規格有ml.gu8tea.8.48xlargeml.gu8tef.8.46xlargeimage.png

    • 資源配額:推薦用於生產環境,以保證資源穩定性和隔離性。如果沒有可用的資源配置,無法選擇該類型。

      image.png

  6. (可選)調整部署參數以最佳化效能。

    • 執行個體數:調整Prefill和Decode的執行個體數量,以改變PD配比。部署模板中執行個體數的預設設定為1。

    • 並行參數:在環境變數中調整Prefill和Decode服務的並行策略參數,如EP_SIZEDP_SIZETP_SIZE。部署模板中的預設值為:Prefill的TP_SIZE為8,Decode的EP_SIZEDP_SIZE為8。

      說明

      為保護DeepSeek-R1-0528-PAI-optimized的模型權重,平台未透出推理引擎的運行命令,使用者可以通過環境變數修改重要參數。

      image.png

  7. 單擊部署,等待服務啟動。此過程約需要40分鐘。

  8. 驗證服務狀態。部署完成後,在服務詳情頁的線上調試頁簽中測試服務是否正常運行。

    說明

    API調用及第三方應用整合,可參見調用LLM服務

    構造一個符合OpenAI格式的請求,在URL路徑後附加 /v1/chat/completions,請求體為:

    {
        "model": "",
        "messages": [
            {
                "role": "user",
                "content": "Hello!"
            }
        ],
        "max_tokens": 1024
    }

    單擊發送請求,可以看到響應結果為200,模型成功輸出回答,表示服務正常運行。

    image.png

管理EP服務

  1. 在服務列表頁,點擊服務名稱進入詳情頁,可以對服務進行精細化管理。查看維度既包含整體服務(即彙總服務),也包含Prefill、Decode和LLM智能路由等子服務。

    image.png

  2. 使用者可以查看服務的監控和日誌,以及配置自動調整策略。

    image.png