使用專家並行與PD分離部署MoE大語言模型-人工智慧平台PAI-阿里雲

混合專家模型（MoE）通過“稀疏啟用”機制，在實現萬億級參數規模的同時降低計算成本，但也給傳統推理部署帶來挑戰。專家並行（EP）是一種專為MoE設計的分布式策略，它將不同專家部署在不同GPU上，通過動態路由請求，有效解決顯存瓶頸、提升並行計算效能，並顯著降低部署成本。本文介紹在PAI-EAS上，為MoE模型啟用專家並行（EP）和Prefill-Decode（PD）分離部署，以實現更高的推理吞吐和成本效益。

方案架構

阿里雲人工智慧平台PAI的模型線上服務（EAS）提供生產級EP的部署支援，將PD分離、大規模EP、計算-通訊協同最佳化、MTP等技術融為一體，形成多維度聯合最佳化的新範式。

方案優勢：

一鍵式部署：提供內建鏡像、可選資源、運行命令等的EP部署模板，將複雜的分布式部署簡化為嚮導式操作，無需關注底層實現。
彙總服務管理：在統一視圖下對Prefill、Decode和智能路由等子服務進行獨立監控、擴縮容和生命週期管理。

部署EP服務

以部署模型DeepSeek-R1-0528-PAI-optimized（PAI最佳化版模型，能夠支援更高的吞吐和更低的時延）為例，操作步驟如下：

登入PAI控制台，在頁面上方選擇目標地區，並在右側選擇目標工作空間，然後單擊進入EAS。
在推理服務頁簽，單擊部署服務，然後在情境化模型部署地區，單擊LLM大語言模型部署。
模型配置選擇公用模型DeepSeek-R1-0528-PAI-optimized。
推理引擎選擇vLLM，部署模板選擇EP+PD分離-PAI最佳化版。
為Prefill和Decode服務配置部署資源。可以選擇公用資源或者資源配額。
- 公用資源：適用於快速體驗和開發測試。可用規格有ml.gu8tea.8.48xlarge或ml.gu8tef.8.46xlarge。
- 資源配額：推薦用於生產環境，以保證資源穩定性和隔離性。如果沒有可用的資源配置，無法選擇該類型。
（可選）調整部署參數以最佳化效能。
- 執行個體數：調整Prefill和Decode的執行個體數量，以改變PD配比。部署模板中執行個體數的預設設定為1。
- 並行參數：在環境變數中調整Prefill和Decode服務的並行策略參數，如EP_SIZE，DP_SIZE和TP_SIZE。部署模板中的預設值為：Prefill的TP_SIZE為8，Decode的EP_SIZE和DP_SIZE為8。
  說明
  為保護DeepSeek-R1-0528-PAI-optimized的模型權重，平台未透出推理引擎的運行命令，使用者可以通過環境變數修改重要參數。
單擊部署，等待服務啟動。此過程約需要40分鐘。
驗證服務狀態。部署完成後，在服務詳情頁的線上調試頁簽中測試服務是否正常運行。
說明
API調用及第三方應用整合，可參見調用LLM服務。
構造一個符合OpenAI格式的請求，在URL路徑後附加 /v1/chat/completions，請求體為：
```
{
    "model": "",
    "messages": [
        {
            "role": "user",
            "content": "Hello!"
        }
    ],
    "max_tokens": 1024
}
```
單擊發送請求，可以看到響應結果為200，模型成功輸出回答，表示服務正常運行。

管理EP服務

在服務列表頁，點擊服務名稱進入詳情頁，可以對服務進行精細化管理。查看維度既包含整體服務（即彙總服務），也包含Prefill、Decode和LLM智能路由等子服務。
使用者可以查看服務的監控和日誌，以及配置自動調整策略。