模型調優簡介 - Alibaba Cloud Model Studio

當您在嘗試如 Prompt 工程、外掛程式調用等最佳化方法後，模型表現仍然不及預期時，請使用阿里雲百鍊的模型調優。模型調優作為改進模型表現的核心策略，可以很好地提升模型在特定行業/業務的表現，對齊人類偏好，降低輸出延遲。模型調優包含模型微調（SFT）、繼續預訓練（CPT）、模型偏好訓練（DPO）三種模型訓練方式。

模型調優介紹

模型調優作為重要的模型效果最佳化方式，可以：

提升模型在特定行業/業務表現
降低模型輸出延遲
抑制模型幻覺
對齊人類的價值觀或偏好
使用調優後的輕量級模型替代規模更大的模型

模型在調優過程中，會學習訓練資料中的知識、語氣、表達習慣、自我認知等業務/情境特徵。也由於已經在訓練過程中學習到了大量特定行業/情境的範例，訓練後模型 One-Shot 或者 Zero-Shot 的 Prompt 效果會比訓練前 Few-Shot 效果更好，這樣可以節省大量輸入 token，從而降低模型輸出延遲。

模型調優流程

詳情參見：

支援的模型

新加坡

文本產生

模型名稱	模型代碼	SFT全參訓練（sft）	SFT高效訓練（efficient_sft）
Qwen3-14B	qwen3-14b	×	支援

視覺理解（千問VL）

模型名稱	模型代碼	SFT全參訓練（sft）	SFT高效訓練（efficient_sft）
-	-	-	-

華北二（北京）

文本產生

模型服務	模型代碼	CPT全參訓練（cpt）	SFT全參訓練（sft）	SFT高效訓練（sft_efficient）	DPO全參訓練（dpo_full）	DPO高效訓練（dpo_lora）
Qwen3.6-Flash-2026-04-16	qwen3.6-flash-2026-04-16	×	支援	×	×	×

Qwen3.5-27B	qwen3.5-27b	×	支援	支援	×	×
Qwen3.5-9B	qwen3.5-9b	×	支援	支援	×	×
Qwen3.5-Flash-2026-02-23	qwen3.5-flash-2026-02-23	×	支援	×	×	×

Qwen3-32B	qwen3-32b	支援	支援	支援	支援	支援
Qwen3-30B-A3B-Instruct-2507	qwen3-30b-a3b-instruct-2507	支援	支援	支援	×	×
Qwen3-14B	qwen3-14b	×	支援	支援	支援	支援
Qwen3-8B	qwen3-8b	×	支援	支援	支援	支援
Qwen3-1.7B	qwen3-1.7b	支援	支援	支援	支援	支援
Qwen3-0.6B	qwen3-0.6b	支援	支援	支援	支援	支援

Qwen2.5-72B-Instruct	qwen2.5-72b-instruct	支援	支援	支援	支援	支援
Qwen2.5-32B-Instruct	qwen2.5-32b-instruct	支援	支援	支援	支援	支援
Qwen2.5-14B-Instruct	qwen2.5-14b-instruct	支援	支援	支援	支援	支援
Qwen2.5-7B-Instruct	qwen2.5-7b-instruct	支援	支援	支援	支援	支援

千問-Plus-Character-2025-11-06	qwen-plus-character-2025-11-06	×	支援	支援	支援	支援

視覺理解（千問VL）

模型服務	模型代碼	CPT全參訓練（cpt）	SFT全參訓練（sft）	SFT高效訓練（sft_efficient）	DPO全參訓練（dpo_full）	DPO高效訓練（dpo_lora）
Qwen3-VL-8B-Instruct	qwen3-vl-8b-instruct	×	支援	支援	×	×
Qwen3-VL-8B-Thinking	qwen3-vl-8b-thinking	×	支援	支援	×	×
Qwen3-VL-4B-Instruct	qwen3-vl-4b-instruct	×	支援	支援	×	×

Qwen2.5-VL-72B-Instruct	qwen2.5-vl-72b-instruct	×	支援	支援	×	×
Qwen2.5-VL-32B-Instruct	qwen2.5-vl-32b-instruct	×	支援	支援	×	×
Qwen2.5-VL-7B-Instruct	qwen2.5-vl-7b-instruct	×	支援	支援	×	×

調優方法對比

特性	CPT（持續預訓練）	SFT （監督微調）	DPO （直接偏好最佳化）
一句話總結	補知識（注入領域知識）	學做事（學會遵循指令）	做得更好（對齊人類偏好）
輸入資料	1000萬+ Token 無標籤的領域文本	1000+ 條高品質的“問-答”對	100+ 組同一指令下的“更好-更差”回答對
核心目標	領域適應，學習專業詞彙和事實	教會模型對話格式和任務執行能力	使模型輸出更符合人類價值觀和偏好
學習方式	自監督學習（預測下一個詞）	監督學習（模仿標準答案）	直接偏好學習（增大好答案機率，降低壞答案機率）
模型階段	通常在 SFT 之前	CPT 之後，DPO 之前	通常在 SFT 之後，作為對齊的最後一步

訓練模式對比

全參訓練

高效訓練（LoRA，推薦）

適用情境

• 需要模型學習新能力

• 追求全域效果最優

• 最佳化模型特定情境下的效果

• 對訓練時間和成本敏感的情境

訓練時間

較長，收斂速度較慢。

較短，收斂速度快。

計費說明

計費方式

按訓練的資料量計費

計費公式

模型訓練費用 = （訓練資料 Token 總數 + 混合訓練資料 Token 總數）× 迴圈次數 × 訓練單價（最小計費單位：1 token）

您可以查看模型調優控制台底部的預估訓練費用，並單擊计算详情，查看訓練 Token 總數、迴圈次數和訓練單價。

訓練單價

以下為預置模型的訓練單價，自訂模型的訓練單價與對應的預置模型單價相同。

新加坡

千問

模型服務	模型代碼	價格
Qwen3-14B	qwen3-14b	$0.0016/千Token

千問VL

模型服務	模型代碼	價格
-	-	-

華北二（北京）

千問

模型服務	模型代碼	價格
Qwen3.5-27B	qwen3.5-27b	$0.006876/千Token
Qwen3.5-9B	qwen3.5-9b	$0.00275/千Token

Qwen3-32B	qwen3-32b	$0.005501/千Token
Qwen3-30B-A3B-Instruct-2507	qwen3-30b-a3b-instruct-2507	$0.004126/千Token
Qwen3-14B	qwen3-14b	$0.004126/千Token
Qwen3-8B	qwen3-8b	$0.000825/千Token
Qwen3-1.7B	qwen3-1.7b	$0.000619/千Token
Qwen3-0.6B	qwen3-0.6b	$0.000413/千Token

Qwen2.5-72B-Instruct	qwen2.5-72b-instruct	$0.020628/千Token
Qwen2.5-32B-Instruct	qwen2.5-32b-instruct	$0.004126/千Token
Qwen2.5-14B-Instruct	qwen2.5-14b-instruct	$0.004126/千Token
Qwen2.5-7B-Instruct	qwen2.5-7b-instruct	$0.000825/千Token

千問-Plus-Character-2025-11-06	qwen-plus-character-2025-11-06	$0.020628/千Token

千問VL

模型服務	模型代碼	價格
Qwen3-VL-8B-Instruct	qwen3-vl-8b-instruct	$0.00165/千Token
Qwen3-VL-8B-Thinking	qwen3-vl-8b-thinking	$0.00165/千Token
Qwen3-VL-4B-Instruct	qwen3-vl-4b-instruct	$0.000825/千Token

Qwen2.5-VL-72B-Instruct	qwen2.5-vl-72b-instruct	$0.006876/千Token
Qwen2.5-VL-32B-Instruct	qwen2.5-vl-32b-instruct	$0.00275/千Token
Qwen2.5-VL-7B-Instruct	qwen2.5-vl-7b-instruct	$0.001375/千Token

模型調優前必讀

文本產生模型調優雖然能在特定業務/情境取得非常好的效果，但有以下限制：
- 耗時較長，包括：擁有一個大規模（最少 0.5億 token）CPT 資料集、構建一個有效（1000+）SFT 資料集、收集足夠的（100+）Bad Case 構建模型部署計費有效 DPO 資料集、模型最佳化迭代速度慢等。
- 費用較高，調優後的模型部署後才能使用，模型部署計費較高。
阿里雲百鍊推薦您在考慮使用文本產生模型調優前先嘗試使用的 Prompt 工程（Prompt Engineering）或外掛程式調用（Function Calling）定製化您的應用，模型調優也通常作為改進模型表現“最後的手段”。因為：
1. 在許多任務中，模型最初可能表現不佳，但通過應用正確的 Prompt 技巧可以改進結果，不一定需要使用模型調優。
2. 迭代最佳化 Prompt、外掛程式，比模型調優的迭代更敏捷、成本更低，因為模型調優的迭代可能需要重新收集資料、清洗最佳化資料、收集 bad case、發起客戶調研等。
3. 即使最後一定要進行模型調優，最初的 Prompt 工程、外掛程式迭代最佳化相關工作也不會浪費。您的這些前期工作可以充分地在構建調優資料集時複用（用於構建資料集的輸入）。

快速開始

使用控制台進行模型調優

調優步驟	控制台截圖
步驟一：在模型調優頁面點擊创建训练任务。
步驟二：訓練配置训练方式：SFT微调训练选择模型：千問3-8B 训练方式：高效训练参数配置：保持預設即可，百鍊對微調超參提供了推薦配置。這個組合訓練時間短，資料要求低。
步驟三：資料配置训练集：在平台上選擇構建模型所需的已上傳調優資料集。資料範例：SFT-ChatML格式樣本.jsonl；混合训练：不開啟验证集：設定為自动切分，分割 10% 作為驗證集
步驟四：配置模型參數快照（Checkpoint）儲存參數模型名称：保持預設即可匯出數量上限：保持預設即可 Checkpoint保存间隔：保持預設即可說明在百鍊平台上，模型調優完成後可以匯出參數快照，匯出後才能基於此版本的參數快照在百鍊上進行模型部署。匯出的參數快照儲存在雲端儲存中，暫不支援訪問或下載。
步驟五：點擊“開始訓練”後，等待模型訓練完畢。
步驟六：使用阿里雲百鍊的模型部署功能部署訓練好的自訂模型，部署好後就可以對調優好的模型進行評測。模型部署相關資訊請參見模型部署簡介。

典型的調優流程

百鍊提供的三種調優方式並不互斥，而是遞進的、相輔相成的。

CPT（可選）→ SFT → DPO（可選）

CPT (持續預訓練）- 補知識（通用模型知識的“廣度”和“淺度”，無法滿足專業領域的“深度”和“精度”要求）
- 金融模型： 學金融術語
- 醫學模型： 記藥品病理
- 法律模型： 懂法條判例
SFT (監督微調）- 學做事
- 客服機器人： 學客服流程
- 代碼助手： 學編程範式
- 工具調用 (Agent)： 學使用 MCP
DPO (直接偏好最佳化）- 做得更好
- 安全與責任感： 拒有害建議
- 簡潔與有效性： 答乾脆利落
- 客觀與中立： 評公正客觀

調優資料格式

SFT 訓練集

SFT ChatML（Chat Markup Language）格式訓練資料，支援多輪對話和多種角色設定。

不支援OpenAI 的name、weight參數，所有的 assistant 輸出都會被訓練。

# 一行訓練資料（json 格式），展開後典型結構如下:
{"messages": [
  {"role": "system", "content": "系統輸入1"}, 
  {"role": "user", "content": "使用者輸入1"}, 
  {"role": "assistant", "content": "期望的模型輸出1"}, 
  {"role": "user", "content": "使用者輸入2"}, 
  {"role": "assistant", "content": "期望的模型輸出2"}
  ...
]}

system/user/assistant 區別請參見概述，訓練資料集範例：SFT-ChatML格式樣本.jsonl、SFT-ChatML格式樣本.xlsx（xls、xlsx 格式只支援單輪對話）。

單條訓練資料的所有 assistant 行都支援"loss_weight"參數，用於設定該行在訓練時的相對重要性。（設定範圍0.0 ~ 1.0，數值越大，重要性越高）

該參數屬於邀測參數，如需使用，請聯絡您的商務經理。

 {"role": "assistant", "content": "期望的模型輸出1", "loss_weight": 1.0}, 
 {"role": "assistant", "content": "期望的模型輸出2", "loss_weight": 0.5}

資料集構建技巧

資料集的規模要求

對於CPT來說，資料集最少需要五千萬Token優質預訓練資料；對於 SFT 來說，資料集最少需要上千條優質調優資料；對於 DPO 來說，資料集一般需要上百條人類偏好資料。如果資料調優後的模型評測結果不佳，最簡單的改進方法是收集更多資料進行訓練。

如果您缺乏資料，建議構建智能體應用，使用知識庫索引來增強模型能力。當然在很多複雜的業務情境，可以綜合採用模型調優和知識庫檢索結合的技術方案。

以客服情境為例，可以藉助模型調優解決客服回答的語氣、表達習慣、自我認知等問題，情境涉及的專業知識可以結合知識庫，動態引入到模型上下文中。

阿里雲百鍊推薦您可以先構建 RAG 應用試運行，在收集到足夠的應用資料後再通過模型調優繼續提升模型表現。

您也可以採用以下策略擴充資料集：

讓大模型類比產生特定業務/情境的相關內容，輔助您產生更多用於調優資料。（產生模型建議選取表現優異、規模更大的模型）
通過應用情境收集、網路爬蟲、社交媒體和線上論壇、公開資料集、夥伴與行業資源、使用者貢獻等各種方式，人工擷取更多資料。

資料的多樣性與均衡性

模型調優有不同情境，針對具體業務情境時，專業性更重要；而針對問答情境時通用性更重要。您需要根據模型負責的業務模組或使用情境進行資料用例設計。因此訓練效果好壞並不是僅取決於資料量，更需要考慮針對情境的專業性和多樣性。

這裡以智能 AI 對話情境為例，介紹一個專業、多樣的資料集應該包含的各種業務情境：

具體業務	多樣化情境/業務
電商客服	活動推送、售前諮詢、售中引導、售後服務、售後回訪、投訴處理等。
金融服務	貸款諮詢、投資理財顧問、信用卡服務、銀行賬戶管理等。
線上醫學	病症諮詢、挂號預約、就診須知、藥品資訊查詢、健康小建議等。
AI 秘書	IT 資訊、行政資訊、HR 資訊、員工福利解答、公司日曆查詢等。
旅遊出行助手	旅行規劃、出入境指南、旅行保險諮詢、目的地風土人情介紹等。
企業法律顧問	合約審核、智慧財產權保護、合規性檢查、勞動法律答疑、跨境交易諮詢、個案法律分析等。

還請特別注意的是各個情境/業務的資料數量應相對均衡，資料比例符合實際情境比例，避免某一類資料過多導致模型偏向於學習該類特徵，影響模型的泛化能力。

訓練集與驗證集拆分

當您使用控制台進行模型調優時，支援

自動將一個完整訓練資料集拆分，隨機抽取少量資料群組成驗證集。
選擇獨立上傳資料集。

控制台可以在訓練時及時方便地顯示驗證集 Loss 和 Token Accuracy。

常見問題

是否支援調優自己的模型呢？

百鍊不支援調優和上傳自己的模型，也不支援匯出下載後的模型。