在Model Gallery一鍵微調DeepSeek-R1-人工智慧平台 PAI-阿里雲

DeepSeek-R1是由深度求索公司推出的模型，其在數學、代碼和推理任務上的表現優異。本文以蒸餾模型DeepSeek-R1-Distill-Qwen-7B為例，為您介紹如何微調該系列模型。

支援的模型列表

PAI-Model Gallery支援對六個蒸餾模型進行LoRA監督微調（SFT）。下表展示了使用預設超參數和提供的資料集時推薦的最低計算配置:

進入Model Gallery頁面。
1. 登入PAI控制台，左側導覽列選擇並進入目標工作空间。
2. 在左側導覽列選擇快速开始 > Model Gallery。
在Model Gallery頁面，搜尋並單擊DeepSeek-R1-Distill-Qwen-7B模型卡片，進入模型詳情頁面。該頁麵包含模型訓練、部署的詳細資料，比如SFT監督微調資料格式的說明以及模型調用方式。

單擊右上方训练。關鍵配置如下：

数据集配置：本例使用預設資料集。您也可以按照模型卡片詳情頁的資料格式要求準備自訂資料集，並上傳到Object Storage Service Bucket中。
模型输出路径：用於儲存微調訓練後的模型，按需選擇OSS路徑。
计算资源配置：资源来源選擇公用資源，資源規格選擇ecs.gn7i-c16g1.4xlarge。

：LoRA監督微調支援的超參資訊如下，可按需調整。具體操作，請參見大語言模型微調指引。

超參數列表

超參數	類型	預設值（以7B為例）	描述
learning_rate	float	5e-6	學習率，用於控制模型權重的調整幅度。
num_train_epochs	int	6	訓練資料集被重複使用的次數。
per_device_train_batch_size	int	2	每個GPU在一次訓練迭代中處理的樣本數量。較大的批次大小可以提高效率，也會增加顯存的需求。
gradient_accumulation_steps	int	2	梯度累積步驟數。
max_length	int	1024	模型在一次訓練中處理的輸入資料的最大token長度。
lora_rank	int	8	LoRA維度。
lora_alpha	int	16	LoRA權重。
lora_dropout	float	0	LoRA訓練的丟棄率。通過在訓練過程中隨機丟棄神經元，來防止神經網路過擬合。
lorap_lr_ratio	float	16	LoRA+ 學習率比例（λ = ηB/ηA）。ηA, ηB分別是adapter matrices A與B的學習率。相比於 LoRA，LoRA+可以為過程中的關鍵區段使用不同的學習率來實現更好的效能和更快的微調，而無需增加計算需求。當lorap_lr_ratio設為0時，表示使用普通的LoRA而非LoRA+。

單擊训练，Model Gallery自動跳轉到模型訓練頁面，並開始進行訓練。您可以查看訓練任務狀態和訓練日誌。
訓練任務成功，訓練好的模型會自動註冊到AI資產-模型管理中，您可以查看或部署對應的模型，詳情請參見註冊及管理模型。
待訓練成功後，單擊右上方部署，即可將訓練好的模型部署為EAS服務。部署完畢的模型的調用方式與原來的蒸餾模型一致，可參考模型詳情頁或一鍵部署DeepSeek-V3、DeepSeek-R1模型。

在Model Gallery中進行模型訓練，是使用的DLC的訓練能力。DLC按照任務訓練時間長度來收費，計費詳情請參見分布式訓練（DLC）計費說明。

訓練時請設定合適的 max_length（訓練配置中的超參），訓練演算法中會對超過 max_length 的資料直接進行刪除，並在任務日誌中列印如下內容：
有可能會出現刪除資料過多導致訓練/驗證資料集為空白，導致訓練任務失敗的情況：
出現以下錯誤記錄檔：failed to compose dlc job specs, resource limiting triggered, you are trying to use more GPU resources than the threshold，是因為訓練任務當前限制最多同時運行2*GPU，超過會觸發資源限制。請等待正在運行中的訓練任務完成再啟動，或提交工單申請增加配額。
出現以下錯誤記錄檔：the specified vswitch vsw-**** cannot create the required resource ecs.gn7i-c32g1.8xlarge, zone not match。這是因為部分規格在交換器所在可用性區域沒有資源了。您可以嘗試以下方式解決：1. 不選擇交換器（DLC後端會自己根據庫存選擇對應可用性區域的交換器）2. 切換其他資源規格。

建立訓練任務時，支援設定模型輸出路徑到OSS目錄，然後您可以從OSS下載到本地。

可以考慮以下方案：