全部產品
Search
文件中心

Platform For AI:一鍵微調DeepSeek-R1蒸餾模型

更新時間:Mar 27, 2026

DeepSeek-R1是由深度求索公司推出的模型,其在數學、代碼和推理任務上的表現優異。本文以蒸餾模型DeepSeek-R1-Distill-Qwen-7B為例,為您介紹如何微調該系列模型。

支援的模型列表

PAI-Model Gallery支援對六個蒸餾模型進行LoRA監督微調(SFT)。下表展示了使用預設超參數和提供的資料集時推薦的最低計算配置:

蒸餾模型

基本模型

支援的訓練方式

最低配置

DeepSeek-R1-Distill-Qwen-1.5B

Qwen2.5-Math-1.5B

LoRA 監督微調

1卡A10(24 GB顯存)

DeepSeek-R1-Distill-Qwen-7B

Qwen2.5-Math-7B

1卡A10(24 GB顯存)

DeepSeek-R1-Distill-Llama-8B

Llama-3.1-8B

1卡A10(24 GB顯存)

DeepSeek-R1-Distill-Qwen-14B

Qwen2.5-14B

1卡GU8IS(48 GB顯存)

DeepSeek-R1-Distill-Qwen-32B

Qwen2.5-32B

2卡GU8IS(48 GB顯存)

DeepSeek-R1-Distill-Llama-70B

Llama-3.3-70B-Instruct

8卡GU100(80 GB顯存)

快速開始

  1. 進入Model Gallery頁面。

    1. 登入PAI控制台,左側導覽列選擇並進入目標工作空间

    2. 在左側導覽列選擇快速开始 > Model Gallery

      image

  2. 在Model Gallery頁面,搜尋並單擊DeepSeek-R1-Distill-Qwen-7B模型卡片,進入模型詳情頁面。該頁麵包含模型訓練、部署的詳細資料,比如SFT監督微調資料格式的說明以及模型調用方式。

    image

  3. 單擊右上方训练。關鍵配置如下:

    • 数据集配置:本例使用預設資料集。您也可以按照模型卡片詳情頁的資料格式要求準備自訂資料集,並上傳到Object Storage Service Bucket中。

    • 模型输出路径:用於儲存微調訓練後的模型,按需選擇OSS路徑。

    • 计算资源配置资源来源選擇公用資源,資源規格選擇ecs.gn7i-c16g1.4xlarge

    • :LoRA監督微調支援的超參資訊如下,可按需調整。具體操作,請參見大語言模型微調指引

      超參數列表

      超參數

      類型

      預設值(以7B為例)

      描述

      learning_rate

      float

      5e-6

      學習率,用於控制模型權重的調整幅度。

      num_train_epochs

      int

      6

      訓練資料集被重複使用的次數。

      per_device_train_batch_size

      int

      2

      每個GPU在一次訓練迭代中處理的樣本數量。較大的批次大小可以提高效率,也會增加顯存的需求。

      gradient_accumulation_steps

      int

      2

      梯度累積步驟數。

      max_length

      int

      1024

      模型在一次訓練中處理的輸入資料的最大token長度。

      lora_rank

      int

      8

      LoRA維度。

      lora_alpha

      int

      16

      LoRA權重。

      lora_dropout

      float

      0

      LoRA訓練的丟棄率。通過在訓練過程中隨機丟棄神經元,來防止神經網路過擬合。

      lorap_lr_ratio

      float

      16

      LoRA+ 學習率比例(λ = ηB/ηA)。ηA, ηB分別是adapter matrices A與B的學習率。相比於 LoRA,LoRA+可以為過程中的關鍵區段使用不同的學習率來實現更好的效能和更快的微調,而無需增加計算需求。當lorap_lr_ratio設為0時,表示使用普通的LoRA而非LoRA+。

  4. 單擊训练,Model Gallery自動跳轉到模型訓練頁面,並開始進行訓練。您可以查看訓練任務狀態和訓練日誌。

    image

    訓練任務成功,訓練好的模型會自動註冊到AI資產-模型管理中,您可以查看或部署對應的模型,詳情請參見註冊及管理模型

  5. 待訓練成功後,單擊右上方部署,即可將訓練好的模型部署為EAS服務。部署完畢的模型的調用方式與原來的蒸餾模型一致,可參考模型詳情頁或一鍵部署DeepSeek-V3、DeepSeek-R1模型

    image

計費說明

在Model Gallery中進行模型訓練,是使用的DLC的訓練能力。DLC按照任務訓練時間長度來收費,計費詳情請參見分布式訓練(DLC)計費說明

常見問題

Q:訓練任務失敗如何排查?

  • 訓練時請設定合適的 max_length(訓練配置中的超參),訓練演算法中會對超過 max_length 的資料直接進行刪除,並在任務日誌中列印如下內容:

    image有可能會出現刪除資料過多導致訓練/驗證資料集為空白,導致訓練任務失敗的情況:

    image

  • 出現以下錯誤記錄檔:failed to compose dlc job specs, resource limiting triggered, you are trying to use more GPU resources than the threshold,是因為訓練任務當前限制最多同時運行2*GPU,超過會觸發資源限制。請等待正在運行中的訓練任務完成再啟動,或提交工單申請增加配額。

  • 出現以下錯誤記錄檔:the specified vswitch vsw-**** cannot create the required resource ecs.gn7i-c32g1.8xlarge, zone not match。這是因為部分規格在交換器所在可用性區域沒有資源了。您可以嘗試以下方式解決:1. 不選擇交換器(DLC後端會自己根據庫存選擇對應可用性區域的交換器)2. 切換其他資源規格。

Q:訓練後模型可以下載嗎?

建立訓練任務時,支援設定模型輸出路徑到OSS目錄,然後您可以從OSS下載到本地。

image

Q:模型效果不好怎麼辦?

可以考慮以下方案:

  1. 更換效果較好的模型,如deepseek或qwen3系列參數量較大的模型。

  2. 調整提示詞。

  3. 增大max_tokens值。

  4. 拆分問題讓模型分別完成。

相關文檔