基於資料集對模型進行多維度評測有助於您全面瞭解其表現,從而確保模型在未來實際應用中能夠提供有效結果。
快速開始
什麼是模型評測
模型評測是Model Studio平台提供的模型品質驗證工具,協助您客觀、量化地評估大語言模型的表現。
一句話總結:給模型出一套測試題,自動或人工打分,最後產生評測報告。
為什麼要做模型評測
情境1:模型選型決策
問題:面對十幾個大模型(千問、GPT、Claude、文心一言等),不知道哪個更適合我的業務。
解決方案:
-
準備100條業務情境的測試資料
-
用相同資料評測所有候選模型
-
對比評測報告(得分、通過率、典型樣本表現)
-
選擇最符合業務需求的模型
價值:
-
避免主觀判斷,用資料說話
-
節省人工逐個測試的時間
-
降低選型錯誤的風險
情境2:模型調優效果驗證
問題:對千問進行了模型調優(提供了1000條訓練資料),不確定調優是否真的有效。
解決方案:
-
準備評測資料集(與訓練集不重疊)
-
分別評測調優前和調優後的模型
-
對比兩次評測結果:
-
調優前得分:75分
-
調優後得分:85分
-
結論:調優有效,提升了10分
-
價值:
-
量化調優效果,驗證投入是否值得
-
識別調優方向是否正確
-
為持續最佳化提供資料支援
情境3:模型能力量化評估
問題:需要向團隊或管理層彙報模型在特定任務上的表現,但缺少客觀資料。
解決方案:
-
使用評測功能產生評測報告
-
報告包含:
-
綜合得分:85/100
-
通過率:90%(達到3分閾值的樣本佔比)
-
分數分布:5分30條、4分40條、3分20條、2分10條
-
典型案例:高分樣本、低分樣本
-
-
用報告資料支撐決策和彙報
價值:
-
用資料替代主觀描述("還不錯" → "得分85分,通過率90%")
-
便於跨團隊溝通和對齊認知
-
為後續最佳化提供基準參考
情境4:持續監控模型表現
問題:模型上線後,隨著時間推移或業務變化,模型表現可能下降,但很難及時發現。
解決方案:
-
建立定期評測機制(如每月一次)
-
使用相同的評測資料集和評測維度
-
追蹤模型表現趨勢:
-
2024年1月:得分85
-
2024年2月:得分87(提升)
-
2024年3月:得分78(下降,需要排查)
-
價值:
-
及時發現模型表現下降
-
為模型迭代提供資料依據
-
建立模型能力檔案
核心價值總結
|
價值 |
說明 |
|
客觀量化 |
用資料替代主觀判斷,避免“感覺還行”的模糊描述 |
|
高效對比 |
快速對比多個模型,節省人工測試時間 |
|
風險控制 |
上線前充分驗證,降低模型選型錯誤的風險 |
|
持續最佳化 |
為模型調優和迭代提供量化的效果反饋 |
|
決策支援 |
為團隊協作和管理層彙報提供資料支撐 |
評測流程
|
階段 |
子步驟說明 |
|
1. 準備工作 |
評測維度(定義評分標準)→ 測試資料(準備問題和答案) |
|
2. 建立評測任務 |
選擇模型 → 選擇資料 → 選擇維度 → 是否參與熱門排行榜(決定是否加入熱門排行榜) |
|
3. 執行評測 |
自動評測(系統自動完成)或人工評測(需要手動標註) |
|
4. 查看結果 |
得分報告 → 通過率統計 → 詳細明細 |
快速體驗
評測情境:評測千問-Max在常識問答任務中的準確性
完整案例:使用10條測試問題,評估模型回答的語義相似性
體驗步驟:
1. 建立評測維度
介面位置:進入模型評測頁面,選擇评测维度Tab,點擊右上方创建评测维度按鈕
填寫表單點擊保存按鈕
|
專案 |
填寫內容 |
|
维度名称 |
常識問答準確性 |
|
描述 |
評估模型回答常識問題的準確性 |
|
类型 |
選擇大模型评估-数值型 |
|
裁判模型 |
選擇千問-Max |
|
评分器模版 |
選擇語義相似性 |
|
评分范围 |
保持預設0~5 |
|
通过阈值 |
3.0 |
相關說明:
關於评分器模版的選擇,介面上有3個選項按鈕,可以選擇其中一個(Prompt變數說明參見,和System Prompt的區別請參見)
|
模板 |
說明 |
適用情境 |
是否需要自訂Prompt |
|
綜合評測 (預設) |
系統預置模板,從5個維度評分(相關性、文化敏感性、資訊豐富性、清晰性、使用者參與度) |
通用對話、客服情境 |
不需要,可以直接使用該Prompt或對其進行改寫 |
|
語義相似性 |
系統預置模板,評估輸出與參考答案的語義接近程度 |
問答系統、知識檢索 |
不需要,可以直接使用該Prompt或對其進行改寫 |
|
自定义评测 |
自己編寫Prompt |
特定業務情境 |
需要,根據實際情況進行編寫 |
2. 準備測試資料
介面位置:進入資料管理頁面,點擊右上方新增数据集按鈕
填寫表單並點擊确认按鈕
|
專案 |
填寫內容 |
|
维度名称 |
問答測試資料 |
|
描述 |
選擇评测集類型 ❗ 模型評測只能使用评测集類型的資料集,不支援訓練集 |
|
类型 |
上傳案例資料_問答測試資料.xlsx(ICMS 附件,file_id=151014,需線上下載) |
3. 建立評測任務
介面位置:進入模型評測頁面,選擇评测任务Tab,點擊右上方创建评测任务按鈕
填寫表單並點擊开始评测按鈕
|
專案 |
填寫內容 |
|
维度名称 |
問答準確性測試 |
|
评测对象 |
選擇千問-Plus |
|
裁判模型 |
選擇千問-Max |
|
System Prompt |
留空,本次測試不需要,和評分器Prompt的區別請參見System Prompt和評分器Prompt的區別 |
|
评分器模版 |
選擇語義相似性,資料集選擇前面建立的“問答測試資料” |
|
评分范围 |
選擇前面建立的“常識問答準確性” |
|
通过阈值 |
本次測試不參與 |
4. 查看任務狀態
找到任務“問答準確性測試”,查看评测状态列:
-
待执行:在請求高峰時段,評測任務需要排隊等待執行
-
进行中:系統正在評測,請耐心等待
-
评测完成:評測已完成,可以查看結果
-
评测失败:評測任務執行失敗
-
评测终止:評測任務被人工手動終止
點擊頁面右上方重新整理按鈕(
),當任務狀態變為评测完成後,單擊任务名称列,進入詳情頁。
-
選擇数据明细Tab,查看每條資料詳細評分
列名
說明
状态
評測狀態:待執行、進行中、評測完成、評測失敗、評測終止
序号
樣本編號
Prompt
原始問題
Completion
參考答案
Output
模型產生的回答
[評測維度名稱]
和評測維度相同,本次評測維度名稱為“常識問答準確性”,本列表示評分結果
操作
使用者可執行檔操作,例如點擊詳情按鈕,查看完整的問題、答案和評測結果
-
選擇指标统计Tab,查看評測統計
指標名稱
說明
樣本值
综合得分
評測維度平均分
100
通过率
達到閾值(≥3分)的樣本佔比
90%
评测集总量
測試資料總數
10條
已完成量
已評測完成的數量
10條
未完成量
未評測完成的數量
0條
核心概念
自訂評測概述
Model Studio提供自訂評測功能,支援您使用自訂的評測標準和測試資料,對模型進行多維度品質評估。自訂評測支援5種評測維度類型,詳情請參見下方自訂評測章節。
自訂評測
支援的模型
-
千問-QwQ/Max/Plus/Turbo/Coder/Math
-
千問開源版(Qwen3、Qwen2.5、Qwen2、Qwen1.5)
-
通義法睿
-
第三方文本產生模型(abab6.5g、abab6.5t等)
上述列表並不完整且可能隨時發生變化,請以建立評測任務頁面中评测模型顯示的列表為準。列表中灰色字型且無申请按鈕的模型目前暫不支援評測。
評測維度
評測維度就是評分標準,決定了如何給模型打分。自訂評測必須先建立評測維度。
-
評測維度類型(5種)
類型
評分方式
適用情境
成本
推薦度
大模型评估-数值型
AI裁判打分(1-5分)
問答品質、內容產生品質
中
⭐⭐⭐⭐⭐
规则评估-文本相似度
演算法計算相似性
翻譯、摘要、改寫
低
⭐⭐⭐⭐
大模型评估-分类型
AI裁判分類(Pass/Fail)
Alibaba Content Security Service、正確性判斷
中
⭐⭐⭐
规则评估-字符串匹配
精確字串匹配
Function Calling、NL2SQL
極低
⭐⭐⭐
人工评估-分类型
人工打標籤
創意性、專業判斷
高
⭐⭐
-
如何快速選擇評測維度類型?
一個評測任務可以組合多個評測維度。
評測資料
-
資料來源類型
資料類型
說明
工作流程
適用情境
評測資料集
包含問題(prompt)和參考答案(completion)
系統調用模型即時推理 → 產生output → 評分器打分
-
首次評測
-
對比多個模型
-
模型尚未產生結果
推理結果集
已包含模型輸出(output)
系統直接讀取output → 評分器打分(不推理)
-
模型已產生結果
-
降低推理成本
-
作為對照組的基準模型
-
-
資料格式要求:Excel
-
評測資料集樣本:
Prompt
Completion
什麼是雲端運算?
雲端運算是按需提供的共用計算資源集區
Python如何定義函數?
使用def關鍵字定義函數
-
推理結果集樣本:
多一列Output
Prompt
Completion
Output
什麼是雲端運算?
雲端運算是按需提供的共用計算資源集區
雲端運算是一種通過互連網提供計算資源的服務模式...
-
資料量建議:
階段
建議數量
說明
小規模驗證
50~100條
驗證配置是否正確
正式評測
200~500條
獲得可靠的統計結果
全面評估
500+條
覆蓋各種邊界情況
熱門排行榜
什麼是熱門排行榜:
-
用於對比多個模型在同一評測維度上的表現
-
可視化展示模型優劣排序
-
支援多個評測任務的橫向對比
何時需要熱門排行榜:
-
需要對比多個模型的表現(如 GPT-4 vs Claude vs 千問)
-
想要可視化展示模型在業務情境中的優劣
-
需要在團隊內部分享模型對比結果
核心變數
適用範圍:本節僅適用於大模型评估-数值型和大模型评估-分类型評測維度。
在大模型評估時,裁判模型會接收以下三個變數:
|
變數名 |
說明 |
樣本 |
使用情境 |
|
|
原始輸入:使用者的問題或指令 |
什麼是雲端運算? |
所有情境都需要 |
|
|
模型輸出:參評模型產生的回答 |
雲端運算是一種通過互連網... |
所有情境都需要 |
|
|
參考答案:標準答案或期望輸出 |
雲端運算是按需提供的... |
有標準答案時使用 |
如何在Prompt中使用:
請評估以下回答的品質:
**使用者問題**:${prompt}
**模型回答**:${output}
**參考答案**:${completion}
評分標準:
- 5分:回答完全正確,與參考答案語義一致
- 4分:回答基本正確,有少量偏差
- 3分:回答部分正確
- 2分:回答大部分錯誤
- 1分:回答完全錯誤或答非所問
System Prompt和評分器Prompt的區別
在模型評測中,有兩種容易混淆的Prompt配置,它們在不同環節發揮作用:
|
Prompt類型 |
配置位置 |
作用對象 |
作用階段 |
是否必填 |
費用歸屬 |
|
System Prompt |
建立评测任务時 |
被評測模型 |
模型產生答案時 |
否 |
|
|
評分器Prompt |
建立大模型评估-数值型和大模型评估-分类型評測維度時 |
裁判模型 |
裁判模型給答案打分時 |
是 |
詳細說明
-
System Prompt
-
用途:為被評測模型設定角色定位或行為規範
-
樣本情境:
-
評測客服情境:“你是一位專業的客服人員,請禮貌、準確地回答客戶問題。”
-
評測代碼助手:“你是一位編程專家,請提供準確、簡潔的程式碼範例。”
-
-
何時使用:僅在需要給被評測模型設定特定身份或約束時填寫,大多數情況下可以留空
-
-
評分器Prompt
-
用途:告訴裁判模型如何評判答案品質、評分標準是什麼
-
適用範圍:僅大模型评估-数值型和大模型评估-分类型評測維度需要配置
-
配置方式:
-
選擇系統預置模板(綜合評測、語義相似性、情感分析等)
-
自訂編寫(適用於特定業務情境)
-
-
:評分器Prompt中可使用 ${prompt}、${output}、${completion} 變數
-
形象比喻
-
System Prompt:告訴“學生”(被評測模型)考試時應該以什麼身份答題
-
評分器Prompt:告訴“閱卷老師”(裁判模型)如何批改試卷、打分標準是什麼
分情境實踐案例
自定义评测:大模型评估-数值型評測維度
適用情境:需要細粒度評分的情境,如問答品質、內容產生品質、客服對話品質等
使用建議:
-
評分標準要具體化,為每個分數檔提供清晰描述
-
定期人工抽查高分和低分樣本,驗證準確性
-
避免所有樣本都集中在某個分數段
操作步驟:
1. 建立評測維度
介面位置:進入模型評測頁面,選擇评测维度Tab,點擊右上方创建评测维度按鈕
填寫表單點擊保存按鈕
|
專案 |
填寫內容 |
|
维度名称 |
常識問答準確性 |
|
描述 |
評估模型回答常識問題的準確性 |
|
类型 |
選擇大模型评估-数值型 |
|
裁判模型 |
選擇千問-Max |
|
评分器模版 |
選擇語義相似性 |
|
评分范围 |
保持預設0~5 |
|
通过阈值 |
3.0 |
相關說明:
關於评分器模版的選擇,介面上有3個選項按鈕,可以選擇其中一個(Prompt變數說明參見,和System Prompt的區別請參見)
|
模板 |
說明 |
適用情境 |
是否需要自訂Prompt |
|
綜合評測 (預設) |
系統預置模板,從5個維度評分(相關性、文化敏感性、資訊豐富性、清晰性、使用者參與度) |
通用對話、客服情境 |
不需要,可以直接使用該Prompt或對其進行改寫 |
|
語義相似性 |
系統預置模板,評估輸出與參考答案的語義接近程度 |
問答系統、知識檢索 |
不需要,可以直接使用該Prompt或對其進行改寫 |
|
自定义评测 |
自己編寫Prompt |
特定業務情境 |
需要,根據實際情況進行編寫 |
2. 準備測試資料
介面位置:進入資料管理頁面,點擊右上方新增数据集按鈕
填寫表單並點擊确认按鈕
|
專案 |
填寫內容 |
|
维度名称 |
問答測試資料 |
|
描述 |
選擇评测集類型 ❗ 模型評測只能使用评测集類型的資料集,不支援訓練集 |
|
类型 |
上傳案例資料_問答測試資料.xlsx(ICMS 附件,file_id=151014,需線上下載) |
3. 建立評測任務
介面位置:進入模型評測頁面,選擇评测任务Tab,點擊右上方创建评测任务按鈕
填寫表單並點擊开始评测按鈕
|
專案 |
填寫內容 |
|
维度名称 |
問答準確性測試 |
|
评测对象 |
選擇千問-Plus |
|
裁判模型 |
選擇千問-Max |
|
System Prompt |
留空,本次測試不需要,和評分器Prompt的區別請參見System Prompt和評分器Prompt的區別 |
|
评分器模版 |
選擇語義相似性,資料集選擇前面建立的“問答測試資料” |
|
评分范围 |
選擇前面建立的“常識問答準確性” |
|
通过阈值 |
本次測試不參與 |
4. 查看任務狀態
找到任務“問答準確性測試”,查看评测状态列:
-
待执行:在請求高峰時段,評測任務需要排隊等待執行
-
进行中:系統正在評測,請耐心等待
-
评测完成:評測已完成,可以查看結果
-
评测失败:評測任務執行失敗
-
评测终止:評測任務被人工手動終止
點擊頁面右上方重新整理按鈕(
),當任務狀態變為评测完成後,單擊任务名称列,進入詳情頁。
-
選擇数据明细Tab,查看每條資料詳細評分
列名
說明
状态
評測狀態:待執行、進行中、評測完成、評測失敗、評測終止
序号
樣本編號
Prompt
原始問題
Completion
參考答案
Output
模型產生的回答
[評測維度名稱]
和評測維度相同,本次評測維度名稱為“常識問答準確性”,本列表示評分結果
操作
使用者可執行檔操作,例如點擊詳情按鈕,查看完整的問題、答案和評測結果
-
選擇指标统计Tab,查看評測統計
指標名稱
說明
樣本值
综合得分
評測維度平均分
100
通过率
達到閾值(≥3分)的樣本佔比
90%
评测集总量
測試資料總數
10條
已完成量
已評測完成的數量
10條
未完成量
未評測完成的數量
0條
自訂評測:大模型評估-分類型評測維度
適用情境:需要進行“是/否”、“通過/不通過”等正反判斷的情境,如Alibaba Content Security Service、答案正確性等
使用建議:
-
在Prompt中詳細說明每個標籤的判定條件
-
明確要求裁判模型只輸出標籤名稱
-
定期人工抽檢部分樣本,確保準確性
操作步驟:
1. 建立評測維度
介面位置:進入模型評測頁面,選擇评测维度Tab,點擊右上方创建评测维度按鈕
填寫表單點擊保存按鈕
|
專案 |
填寫內容 |
|
维度名称 |
情感分析 |
|
描述 |
檢測客戶的情感 |
|
类型 |
選擇自动 |
|
裁判模型 |
選擇千問-Max |
|
评分器模版 |
選擇情感分析 |
|
评分范围 |
不必修改,使用預設內容 |
相關說明:
關於评分器模版的選擇,介面上有3個選項按鈕,可以選擇其中一個(Prompt變數說明參見,和System Prompt的區別請參見)
|
模板 |
說明 |
適用情境 |
是否需要自訂Prompt |
|
標準匹配 (預設) |
系統預置模板,判斷模型輸出是否與參考答案一致 |
分類標籤、函數名、固定答案 |
不需要,可以直接使用該Prompt或對其進行改寫 |
|
情感分析 |
系統預置模板,分析文本情感傾向(積極/中性/消極) |
使用者評論、客服對話、輿情監控 |
不需要,可以直接使用該Prompt或對其進行改寫 |
|
自定义评分器 |
自己編寫Prompt |
自訂情境,如風格判斷、合規檢查、邏輯校正 |
需要,根據實際情況進行編寫 |
2. 準備測試資料
介面位置:進入資料管理頁面,點擊右上方新增数据集按鈕
填寫表單並點擊确认按鈕
|
專案 |
填寫內容 |
|
维度名称 |
情感分析測試資料 |
|
描述 |
選擇评测集類型 ❗ 模型評測只能使用评测集類型的資料集,不支援訓練集 |
|
类型 |
上傳案例資料_情感分析.xlsx(ICMS 附件,file_id=151061,需線上下載) |
3. 建立評測任務
介面位置:進入模型評測頁面,選擇评测任务Tab,點擊右上方创建评测任务按鈕
填寫表單並點擊开始评测按鈕
|
專案 |
填寫內容 |
|
维度名称 |
情感分析測試 |
|
评测维度 |
選擇情感分析 |
|
裁判模型 |
選擇千問-Max |
|
System Prompt |
留空,本次測試不需要,和評分器Prompt的區別請參見System Prompt和評分器Prompt的區別 |
|
评分器模版 |
選擇語義相似性,資料集選擇前面建立的“情感分析測試資料” |
|
评分范围 |
選擇前面建立的“情感分析” |
|
通过阈值 |
本次測試不參與 |
4. 查看任務狀態
找到任務“情感分析測試”,查看评测状态列:
-
待执行:在請求高峰時段,評測任務需要排隊等待執行
-
进行中:系統正在評測,請耐心等待
-
评测完成:評測已完成,可以查看結果
-
评测失败:評測任務執行失敗
-
评测终止:評測任務被人工手動終止
點擊頁面右上方重新整理按鈕(
),當任務狀態變為评测完成後,單擊任务名称列,進入詳情頁。
-
選擇数据明细Tab,查看每條資料詳細評分
列名
說明
状态
評測狀態:待執行、進行中、評測完成、評測失敗、評測終止
序号
樣本編號
Prompt
原始問題
Completion
參考答案
Output
模型產生的回答
[評測維度名稱]
和評測維度相同,本次評測維度名稱為“情感分析”,本列表示分析結果
操作
使用者可執行檔操作,例如點擊詳情按鈕,查看完整的問題、答案和評測結果
-
選擇指标统计Tab,查看評測統計
指標名稱
說明
樣本值
综合得分
評測維度平均分
40
通过率
Pass的樣本佔比
40%
得分明细 - 数据项分布
分類型評估維度統計結果分布
评测集总量
測試資料總數
10條
已完成量
已評測完成的數量
10條
未完成量
未評測完成的數量
0條
自訂評測:大模型評估-數值型評測維度
適用情境:需要對模型回答進行多維度綜合評分的情境,如回答品質評估、Alibaba Content Security Service評分、翻譯品質評分等
使用建議:
-
合理設定評分範圍和通過閾值,建議先小規模測試再批量評測
-
選擇合適的評分器模版:綜合評測適合通用情境,語義相似性適合有標準答案的情境
-
自訂評分器Prompt時,需明確評分標準和取值範圍
操作步驟:
1. 建立評測維度
介面位置:進入模型評測頁面,選擇评测维度Tab,點擊右上方创建评测维度按鈕
填寫表單點擊保存按鈕
|
專案 |
填寫內容 |
|
维度名称 |
綜合品質評估 |
|
描述 |
評估模型回答的綜合品質 |
|
类型 |
選擇大模型評估-數值型 |
|
裁判模型 |
選擇千問-Max |
|
评分器模版 |
選擇綜合評測(預設) |
|
Prompt |
不必修改,使用預設內容 |
|
評分範圍 |
使用預設值0-5 |
|
通過閾值 |
使用預設值3.0,即評分≥3.0的樣本判定為Pass |
相關說明:
關於评分器模版的選擇,介面上有3個選項按鈕,可以選擇其中一個(Prompt變數說明參見,和System Prompt的區別請參見)
|
模板 |
說明 |
適用情境 |
是否需要自訂Prompt |
|
綜合評測 (預設) |
系統預置模板,從相關性、文化敏感性、資訊豐富性、清晰性和使用者參與度5個維度進行綜合評分 |
通用的回答品質評估 |
不需要,可以直接使用該Prompt或對其進行改寫 |
|
語義相似性 |
系統預置模板,評估模型輸出與參考答案之間的語義相似程度 |
有明確參考答案的情境,如知識問答、翻譯 |
不需要,可以直接使用該Prompt或對其進行改寫 |
|
自定义评测 |
自己編寫Prompt,需在Prompt中說明評分標準和取值範圍 |
自訂情境,如專業領域評估、特定指標評分 |
需要,根據實際情況進行編寫 |
關於評分範圍和通過閾值:
-
評分範圍:設定裁判模型評分的最小值和最大值(整數),預設為0-5。裁判模型將在此區間內為每條評測資料打分
-
通過閾值:大於等於該閾值的評分判定為Pass,低於該閾值判定為Fail。閾值範圍受評分範圍約束,支援小數(步長0.1),預設為3.0
2. 準備測試資料
介面位置:進入資料管理頁面,點擊右上方新增数据集按鈕
填寫表單並點擊确认按鈕
|
專案 |
填寫內容 |
|
维度名称 |
綜合品質評估測試資料 |
|
描述 |
選擇评测集類型 ❗ 模型評測只能使用评测集類型的資料集,不支援訓練集 |
|
类型 |
上傳測試資料檔案(JSONL格式),每行包含prompt和completion欄位 |
3. 建立評測任務
介面位置:進入模型評測頁面,選擇评测任务Tab,點擊右上方创建评测任务按鈕
填寫表單並點擊开始评测按鈕
|
專案 |
填寫內容 |
|
维度名称 |
綜合品質評估測試 |
|
评测模型 |
選擇千問-Max |
|
裁判模型 |
選擇千問-Max |
|
System Prompt |
留空,本次測試不需要,和評分器Prompt的區別請參見System Prompt和評分器Prompt的區別 |
|
评分器模版 |
選擇綜合評測,資料集選擇前面建立的"綜合品質評估測試資料" |
|
评分范围 |
選擇前面建立的"綜合品質評估" |
|
通过阈值 |
本次測試不參與 |
4. 查看任務狀態
找到任務"綜合品質評估測試",查看评测状态列:
-
待执行:在請求高峰時段,評測任務需要排隊等待執行
-
进行中:系統正在評測,請耐心等待
-
评测完成:評測已完成,可以查看結果
-
评测失败:評測任務執行失敗
-
评测终止:評測任務被人工手動終止
點擊頁面右上方重新整理按鈕(
),當任務狀態變為评测完成後,單擊任务名称列,進入詳情頁。
-
選擇数据明细Tab,查看每條資料詳細評分
列名
說明
状态
評測狀態:待執行、進行中、評測完成、評測失敗、評測終止
序号
樣本編號
Prompt
原始問題
Completion
參考答案
Output
模型產生的回答
[評測維度名稱]
和評測維度相同,本次評測維度名稱為"綜合品質評估",本列顯示裁判模型的評分(數值)
操作
使用者可執行檔操作,例如點擊詳情按鈕,查看完整的問題、答案和評測結果
-
選擇指标统计Tab,查看評測統計
指標名稱
說明
樣本值
综合得分
評測維度平均分(數值型維度顯示的是所有樣本評分的算術平均值)
3.8
通过率
評分≥通過閾值的樣本佔比
70%
评测集总量
測試資料總數
10條
已完成量
已評測完成的數量
10條
未完成量
未評測完成的數量
0條
自訂評測:規則評估-字串匹配評測維度
適用情境:答案格式固定,需要精確匹配,如Function Calling、NL2SQL
使用建議:
-
預先處理正常化:統一大小寫、去除首尾空格
-
對於同義字,建議改用文本相似性評分器
-
先用小樣本測試匹配規則是否符合預期
操作步驟:
1. 建立評測維度
介面位置:進入模型評測頁面,選擇评测维度Tab,點擊右上方创建评测维度按鈕
填寫表單點擊保存按鈕
|
專案 |
填寫內容 |
|
维度名称 |
Function Calling驗證 |
|
描述 |
檢查模型是否正確調用了指定函數 |
|
类型 |
選擇规则评估-字符串匹配 |
|
文本对比 |
三欄一行:左側文字框填 左側文字框填寫模型輸出變數,右側填寫參考答案變數 |
匹配規則如何選擇:
|
規則 |
行為描述 |
典型應用 |
|
相等 |
完全相同(忽略大小寫) |
城市名稱校正、固定答案 |
|
不相等 |
完全不同(忽略大小寫) |
禁忌詞排查 |
|
包含 |
包含給定字串 |
關鍵詞檢查、必要資訊驗證 |
|
開頭包含 |
以給定字串開頭 |
首碼校正、格式檢查 |
|
結尾包含 |
以給定字串結尾 |
尾碼校正、結束符檢查 |
評測資料樣本:
{"prompt": "今天北京天氣怎麼樣?","completion": "query_weather"}
如果匹配規則選擇“包含”,當模型輸出包含 query_weather 時,判定為Pass。
2. 準備測試資料
介面位置:進入資料管理頁面,點擊右上方新增数据集按鈕
填寫表單並點擊确认按鈕
|
專案 |
填寫內容 |
|
维度名称 |
Function Calling測試資料 |
|
描述 |
選擇评测集類型 ❗ 模型評測只能使用评测集類型的資料集,不支援訓練集 |
|
类型 |
上傳案例資料_Function_Calling.xlsx(ICMS 附件,file_id=151064,需線上下載) |
3. 建立評測任務
介面位置:進入模型評測頁面,選擇评测任务Tab,點擊右上方创建评测任务按鈕
填寫表單並點擊开始评测按鈕
|
專案 |
填寫內容 |
|
维度名称 |
Function Calling測試 |
|
评测数据集 |
選擇Function Calling測試資料 |
|
裁判模型 |
選擇千問-Max |
|
System Prompt |
留空,本次測試不需要,更多說明請參見System Prompt和評分器Prompt的區別 |
|
评分器模版 |
選擇綜合評測,資料集選擇前面建立的“Function Calling測試資料” |
|
评分范围 |
選擇前面建立的“Function Calling驗證” |
|
通过阈值 |
本次測試不參與 |
4. 查看任務狀態
找到任務“Function Calling測試”,查看评测状态列:
-
待执行:在請求高峰時段,評測任務需要排隊等待執行
-
进行中:系統正在評測,請耐心等待
-
评测完成:評測已完成,可以查看結果
-
评测失败:評測任務執行失敗
-
评测终止:評測任務被人工手動終止
點擊頁面右上方重新整理按鈕(
),當任務狀態變為评测完成後,單擊任务名称列,進入詳情頁。
-
選擇数据明细Tab,查看每條資料詳細評分
列名
說明
状态
評測狀態:待執行、進行中、評測完成、評測失敗、評測終止
序号
樣本編號
Prompt
原始問題
Completion
參考答案
Output
模型產生的回答
[評測維度名稱]
和評測維度相同,本次評測維度名稱為“Function Calling驗證”,本列表示分析結果
操作
使用者可執行檔操作,例如點擊詳情按鈕,查看完整的問題、答案和評測結果
-
選擇指标统计Tab,查看評測統計
指標名稱
說明
樣本值
综合得分
評測維度平均分
100
通过率
Pass的樣本佔比
100%
评测集总量
測試資料總數
2條
已完成量
已評測完成的數量
2條
未完成量
未評測完成的數量
0條
自訂評測:規則評估-文本相似性評測維度
適用情境:答案表述多樣但含義相同的情境,如翻譯、摘要、改寫
使用建議:
-
先在小樣本上測試,觀察通過率分布,再調整閾值
-
關注詞序和精確匹配 → 選擇BLEU
-
關注語義理解 → 選擇Cosine
-
需要容錯 → 選擇Fuzzy Match
-
關注關鍵資訊覆蓋 → 選擇ROUGE-L
操作步驟:
1. 建立評測維度
介面位置:進入模型評測頁面,選擇评测维度Tab,點擊右上方创建评测维度按鈕
填寫表單點擊保存按鈕
|
專案 |
填寫內容 |
|
维度名称 |
翻譯品質 |
|
描述 |
評估中譯英的品質 |
|
类型 |
選擇规则评估-文本相似度 |
|
相似性演算法 |
選擇 |
|
评分器模版 |
左側: 左側文字框填寫模型輸出變數,右側填寫參考答案變數 |
|
通过阈值 |
設定為0.4,相似性≥0.4判定為Pass,範圍0~1 |
相似性演算法如何選擇:
|
演算法 |
特點 |
最佳情境 |
閾值建議 |
|
ROUGE-L |
基於最長公用子序列 |
文本摘要 |
0.4-0.6 |
|
BLEU |
基於n-gram精確匹配,對詞序敏感 |
機器翻譯 |
0.3-0.5 |
|
Cosine |
向量空間相似性,捕捉語義 |
開放問答、語義理解 |
0.6-0.8 |
|
Fuzzy Match |
基於編輯距離,容錯性強 |
OCR、語音辨識 |
0.7-0.9 |
|
Accuracy |
完全符合 |
精確答案驗證 |
1.0 |
2. 準備測試資料
介面位置:進入資料管理頁面,點擊右上方新增数据集按鈕
填寫表單並點擊确认按鈕
|
專案 |
填寫內容 |
|
维度名称 |
中譯英測試資料 |
|
描述 |
選擇评测集類型 ❗ 模型評測只能使用评测集類型的資料集,不支援訓練集 |
|
类型 |
上傳案例資料_中譯英.xlsx(ICMS 附件,file_id=151065,需線上下載) |
3. 建立評測任務
介面位置:進入模型評測頁面,選擇评测任务Tab,點擊右上方创建评测任务按鈕
填寫表單並點擊开始评测按鈕
|
專案 |
填寫內容 |
|
维度名称 |
翻譯品質評測 |
|
评测模型 |
選擇千問-Max |
|
裁判模型 |
選擇千問-Max |
|
System Prompt |
留空,本次測試不需要,更多說明請參見System Prompt和評分器Prompt的區別 |
|
评分器模版 |
選擇綜合評測,資料集選擇前面建立的“中譯英測試資料” |
|
评分范围 |
選擇前面建立的“翻譯品質” |
|
通过阈值 |
本次測試不參與 |
4. 查看任務狀態
找到任務“翻譯品質評測”,查看评测状态列:
-
待执行:在請求高峰時段,評測任務需要排隊等待執行
-
进行中:系統正在評測,請耐心等待
-
评测完成:評測已完成,可以查看結果
-
评测失败:評測任務執行失敗
-
评测终止:評測任務被人工手動終止
點擊頁面右上方重新整理按鈕(
),當任務狀態變為评测完成後,單擊任务名称列,進入詳情頁。
-
選擇数据明细Tab,查看每條資料詳細評分
列名
說明
状态
評測狀態:待執行、進行中、評測完成、評測失敗、評測終止
序号
樣本編號
Prompt
原始問題
Completion
參考答案
Output
模型產生的回答
[評測維度名稱]
和評測維度相同,本次評測維度名稱為“翻譯品質”,本列表示分析結果
操作
使用者可執行檔操作,例如點擊詳情按鈕,查看完整的問題、答案和評測結果
-
選擇指标统计Tab,查看評測統計
指標名稱
說明
樣本值
综合得分
評測維度平均分
100
通过率
Pass的樣本佔比
100%
评测集总量
測試資料總數
3條
已完成量
已評測完成的數量
3條
未完成量
未評測完成的數量
0條
自訂評測:人工評估-分類型評測維度
適用情境:需要人工主觀判斷的情境,如創意性評估、專業品質審核
使用建議:
-
當模型輸出品質無法僅通過演算法或裁判模型精確判斷時,選用人工評估
-
在建立維度時將每個標籤的判定標準寫在外部《評測指南》,並培訓標註員統一理解
-
標籤設計要覆蓋所有可能輸出情況,並盡量使用簡潔明確的分類詞
-
建議多名評分員交叉標註部分樣本,檢驗一致性
-
避免一次標註過多資料,分批進行以降低疲勞影響
操作步驟:
1. 建立評測維度
介面位置:進入模型評測頁面,選擇评测维度Tab,點擊右上方创建评测维度按鈕
填寫表單點擊保存按鈕
|
專案 |
填寫內容 |
|
维度名称 |
內容創意性 |
|
描述 |
評估內容創意性 |
|
类型 |
選擇人工评估-分类型 |
|
Pass |
建立“優秀”和“良好”兩個標籤 |
|
Fail |
建立“一般”和“較差”兩個標籤 |
2. 準備測試資料
介面位置:進入資料管理頁面,點擊右上方新增数据集按鈕
填寫表單並點擊确认按鈕
|
專案 |
填寫內容 |
|
维度名称 |
內容創意性測試資料 |
|
描述 |
選擇评测集類型 ❗ 模型評測只能使用评测集類型的資料集,不支援訓練集 |
|
类型 |
上傳案例資料_內容創意性.xlsx(ICMS 附件,file_id=151066,需線上下載) Completion留空,讓模型產生 |
3. 建立評測任務
介面位置:進入模型評測頁面,選擇评测任务Tab,點擊右上方创建评测任务按鈕
填寫表單並點擊开始评测按鈕
|
專案 |
填寫內容 |
|
维度名称 |
內容創意評測 |
|
评测模型 |
選擇千問-Plus |
|
裁判模型 |
選擇千問-Max |
|
System Prompt |
留空,本次測試不需要,更多說明請參見System Prompt和評分器Prompt的區別 |
|
评分器模版 |
選擇自訂評測,資料集選擇前面建立的“內容創意性測試資料” |
|
评分范围 |
選擇前面建立的“內容創意性” |
|
通过阈值 |
本次測試不參與 |
4. 查看任務狀態
找到任務“內容創意評測”,查看评测状态列,為进行中狀態。人工評估必須手動標註,系統不會自動評分,單擊任务名称列,進入詳情頁。
-
選擇数据明细Tab,在操作列點擊标注按鈕進行人工標註,所有資料標註完成後,任務的评测状态才會變為评测完成
列名
說明
状态
評測狀態:進行中
序号
樣本編號
Prompt
原始問題
Completion
參考答案
Output
模型產生的回答
[評測維度名稱]
和評測維度相同,本次評測維度名稱為“內容創意評測”,本列表示分析結果
操作
使用者可執行檔操作,例如點擊詳情按鈕,查看完整的問題、答案和評測結果
-
選擇指标统计Tab,查看評測統計
指標名稱
說明
樣本值
综合得分
評測維度平均分
100
得分明细 - 数据项分布
分類型評估維度統計結果分布
通过率
Pass的樣本佔比
100%
评测集总量
測試資料總數
3條
已完成量
已評測完成的數量
3條
未完成量
未評測完成的數量
0條
使用熱門排行榜對比多個模型
適用情境:需要對比多個模型在相同評測維度下的表現,通過熱門排行榜直觀查看模型排名
使用建議:
-
對比同一系列不同規格的模型(如 qwen-max、qwen-plus、qwen-turbo)
-
對比不同供應商的模型(如千問 vs DeepSeek)
-
對比同一模型的不同版本或配置
前提條件:已建立自訂評測維度
操作步驟:
1. 建立熱門排行榜
介面位置:進入模型評測頁面,選擇排行榜Tab,點擊右上方创建排行榜按鈕
填寫表單點擊确定按鈕
|
專案 |
填寫內容 |
|
维度名称 |
常識問答準確性熱門排行榜 |
|
描述 |
選擇已建立的評測維度,例如常識問答準確性 |
|
类型 |
可在此時選擇已有評測任務,或在下一步添加評測任務 |
說明:
-
每個熱門排行榜最多支援50個評測任務
-
熱門排行榜建立後,評測維度不可修改
-
同一個熱門排行榜內的所有任務使用相同的評測維度,確保對比的公平性
2. 添加評測任務到熱門排行榜
介面位置:進入模型評測頁面,選擇排行榜Tab,點擊熱門排行榜名稱進入詳情頁
熱門排行榜支援兩種方式添加评测任务:
方式一:创建新任务
-
在熱門排行榜詳情頁點擊 添加评测任务 按鈕
-
點擊 创建新任务
-
系統自動跳轉到任務建立頁面,並自動關聯熱門排行榜:
-
是否参与排行:自動勾選且鎖定,無法取消
-
排行榜:自動填滿當前熱門排行榜名稱且鎖定
-
评测维度:自動填滿熱門排行榜關聯的評測維度且鎖定
-
-
填寫其他必填項:
-
任务名称:輸入任務名稱,建議包含模型資訊便於識別
-
评测模型:選擇要評測的模型
-
数据来源:選擇評測資料集
-
-
點擊 开始评测 按鈕
方式二:选择已有任务
-
在熱門排行榜詳情頁點擊 添加评测任务 按鈕
-
點擊 选择已有任务
-
從已完成的評測任務中選擇要加入熱門排行榜的任務
-
點擊 确定 按鈕
注意:
-
只有使用相同評測維度已完成任務才能加入熱門排行榜
-
建議使用相同的評測資料集以確保對比結果的準確性
3. 查看熱門排行榜結果
介面位置:進入模型評測頁面,選擇排行榜Tab,點擊熱門排行榜名稱進入詳情頁
熱門排行榜詳情頁展示以下資訊:
|
列名 |
說明 |
|
排名 |
根據熱門排行榜得分自動計算排名,得分高的排名靠前 |
|
任务名称 |
評測任務的名稱 |
|
评测模型 |
任務使用的模型名稱 |
|
排行榜得分 |
該任務在當前評測維度下的綜合得分,範圍0~100 |
|
[評測維度名稱] |
顯示該維度具體評分,例如“語義相似性”維度顯示平均相似性分數 |
|
操作 |
刪除任務(將任務從熱門排行榜移除,不影響任務本身) |
說明:
-
排行榜得分會隨著任務評測進度即時更新
-
評測進行中的任務得分列顯示“-”
-
點擊任务名称可查看該任務的詳細評測資料
進階技巧
評測維度設計最佳實務
單一職責:
-
每個評測維度只關注一個評測目標
-
避免混合多個標準
-
例如:不要在"準確性"維度中同時考核"流暢性"
量化標準:
-
盡量使用客觀、可量化的標準
-
減少主觀性
-
為每個分數檔提供明確的判定條件
迭代最佳化:
-
根據評測結果反饋,持續最佳化Prompt
-
定期人工抽查,驗證評測準確性
-
對比人工評分和AI評分,調整評測標準
Prompt編寫技巧
請前往阿里雲Model Studio的Prompt最佳實務和外掛程式學習相關知識,協助您在不進行模型調優的情況下激發模型的最大潛力。
成本最佳化建議
合理選擇評測方式:
-
規則評估成本最低,適合格式化輸出驗證
-
大模型評估成本較高,用於需要語義理解的情境
-
人工評估成本最高,僅用於必須人工判斷的情況
使用推理結果集:
-
對於需要頻繁評測的基準模型,將其輸出儲存為推理結果集
-
避免重複調用模型,降低推理成本
分階段評測:
-
先用小規模資料集(50-100條)驗證配置
-
確認配置正確後,再擴大到200-500條
批量評測:
-
一次評測多個模型,提高效率
-
在同一個評測任務中選擇多個模型
評測結果分析方法
關注分數分布:
-
查看各分數檔的樣本數量
-
識別分數集中的問題(如全部集中在3分)
-
調整評分標準或閾值
分析典型樣本:
-
查看高分樣本:瞭解模型優勢
-
查看低分樣本:識別模型不足
-
查看邊界樣本:最佳化評測標準
對比不同模型:
-
不要只看總分,要看不同情境下的表現
-
識別各模型的強項和弱項
-
根據業務優先順序選擇合適的模型
追蹤模型迭代:
-
建立定期評測機制
-
記錄每次調優後的評測結果
-
分析調優方向是否正確
常見問題排查
評測結果不符合預期:
-
檢查測試資料是否代表業務情境
-
審查評測維度Prompt是否清晰
-
嘗試調整評分範圍和閾值
-
考慮更換裁判模型或評分器模板
評分過於集中:
-
評分標準過於寬泛 → 細化每個分數檔的描述
-
測試資料缺乏多樣性 → 增加邊界和異常樣本
-
裁判模型傾向保守 → 更換推理能力更強的模型
不同評測維度結果衝突:
-
這很正常,說明模型在不同維度有不同表現
-
根據業務優先順序,賦予不同維度不同權重
-
不要只看單一維度,要綜合決策
如果模型輸出頻繁出現以下缺陷,建議您考慮引入知識庫:
-
模型的輸出和參考答案完全無關(模型明顯缺失相關的背景知識)
-
模型的輸出和參考答案部分相關(模型有背景知識但已淘汰)
計費說明
模型評測的費用主要來自兩部分:和。
被評測模型的推理費用
|
模型類型 |
是否計費 |
計費說明 |
|
預置模型(如qwen-max、qwen-plus等) |
按Token消耗量計費 |
|
|
獨立部署的模型(調優後部署) |
不額外計費 |
被評測模型計費公式:
輸入Token包含:
-
System Prompt(如果配置了)
-
評測資料中的Prompt(使用者問題)
輸出Token包含:
-
模型產生的回答(Output)
裁判模型的評分費用(限時免費)
僅大模型評估(數值型、分類型)涉及到裁判模型的使用。
完整費用計算樣本
情境:使用qwen-plus評測100條資料,採用大模型评估-数值型,裁判模型為qwen-max
假設:每條Prompt平均50 Token / Output平均200 Token / 評分器Prompt平均500 Token / 裁判模型輸出平均5 Token
費用計算(qwen-plus輸入\$0.26/1M tokens,輸出\$0.78/1M tokens;裁判模型按Model Studio控制台定價計費):
-
被評測模型:5,000/1,000,000 × 0.26 + 20,000/1,000,000 × 0.78 = \$0.0013 + \$0.0156 = \$0.017
-
裁判模型:按Model Studio控制台當前定價計費
-
總費用 ≈ \$0.017(不含裁判模型費用)
價格參考
最新價格:請參見Model Studio控制台
注意:
-
價格可能隨時調整,請以控制台顯示為準
-
部分模型可能有限時優惠活動
下一步
-
如果您對參評模型的效果感到滿意,即可開始模型調用,將模型整合到您的業務鏈路中。
-
如果您不滿意參評模型的效果,可以選擇其他模型重新評測。您也可以考慮學習並通過ACA Generative AI Engineer認證,該認證配套的免費課程能協助您系統瞭解大模型的能力和應用情境,以及如何最佳化大模型。