DeepSeek-R1是由深度求索公司推出的模型,其在數學、代碼和推理任務上的表現優異。本文以蒸餾模型DeepSeek-R1-Distill-Qwen-7B為例,為您介紹如何微調該系列模型。
支援的模型列表
PAI-Model Gallery支援對六個蒸餾模型進行LoRA監督微調(SFT)。下表展示了使用預設超參數和提供的資料集時推薦的最低計算配置:
蒸餾模型 | 基本模型 | 支援的訓練方式 | 最低配置 |
DeepSeek-R1-Distill-Qwen-1.5B | LoRA 監督微調 | 1卡A10(24 GB顯存) | |
DeepSeek-R1-Distill-Qwen-7B | 1卡A10(24 GB顯存) | ||
DeepSeek-R1-Distill-Llama-8B | 1卡A10(24 GB顯存) | ||
DeepSeek-R1-Distill-Qwen-14B | 1卡GU8IS(48 GB顯存) | ||
DeepSeek-R1-Distill-Qwen-32B | 2卡GU8IS(48 GB顯存) | ||
DeepSeek-R1-Distill-Llama-70B | 8卡GU100(80 GB顯存) |
快速開始
進入Model Gallery頁面。
登入PAI控制台,左側導覽列選擇並進入目標工作空间。
在左側導覽列選擇快速开始 > Model Gallery。

在Model Gallery頁面,搜尋並單擊DeepSeek-R1-Distill-Qwen-7B模型卡片,進入模型詳情頁面。該頁麵包含模型訓練、部署的詳細資料,比如SFT監督微調資料格式的說明以及模型調用方式。

單擊右上方训练。關鍵配置如下:
数据集配置:本例使用預設資料集。您也可以按照模型卡片詳情頁的資料格式要求準備自訂資料集,並上傳到Object Storage Service Bucket中。
模型输出路径:用於儲存微調訓練後的模型,按需選擇OSS路徑。
计算资源配置:资源来源選擇公用資源,資源規格選擇
ecs.gn7i-c16g1.4xlarge。:LoRA監督微調支援的超參資訊如下,可按需調整。具體操作,請參見大語言模型微調指引。
單擊训练,Model Gallery自動跳轉到模型訓練頁面,並開始進行訓練。您可以查看訓練任務狀態和訓練日誌。

訓練任務成功,訓練好的模型會自動註冊到AI資產-模型管理中,您可以查看或部署對應的模型,詳情請參見註冊及管理模型。
待訓練成功後,單擊右上方部署,即可將訓練好的模型部署為EAS服務。部署完畢的模型的調用方式與原來的蒸餾模型一致,可參考模型詳情頁或一鍵部署DeepSeek-V3、DeepSeek-R1模型。

計費說明
在Model Gallery中進行模型訓練,是使用的DLC的訓練能力。DLC按照任務訓練時間長度來收費,計費詳情請參見分布式訓練(DLC)計費說明。
常見問題
Q:訓練任務失敗如何排查?
訓練時請設定合適的 max_length(訓練配置中的超參),訓練演算法中會對超過 max_length 的資料直接進行刪除,並在任務日誌中列印如下內容:
有可能會出現刪除資料過多導致訓練/驗證資料集為空白,導致訓練任務失敗的情況:
出現以下錯誤記錄檔:
failed to compose dlc job specs, resource limiting triggered, you are trying to use more GPU resources than the threshold,是因為訓練任務當前限制最多同時運行2*GPU,超過會觸發資源限制。請等待正在運行中的訓練任務完成再啟動,或提交工單申請增加配額。出現以下錯誤記錄檔:
the specified vswitch vsw-**** cannot create the required resource ecs.gn7i-c32g1.8xlarge, zone not match。這是因為部分規格在交換器所在可用性區域沒有資源了。您可以嘗試以下方式解決:1. 不選擇交換器(DLC後端會自己根據庫存選擇對應可用性區域的交換器)2. 切換其他資源規格。
Q:訓練後模型可以下載嗎?
建立訓練任務時,支援設定模型輸出路徑到OSS目錄,然後您可以從OSS下載到本地。

Q:模型效果不好怎麼辦?
可以考慮以下方案:
更換效果較好的模型,如deepseek或qwen3系列參數量較大的模型。
調整提示詞。
增大max_tokens值。
拆分問題讓模型分別完成。