模型評測 - Alibaba Cloud Model Studio

基於資料集對模型進行多維度評測有助於您全面瞭解其表現，從而確保模型在未來實際應用中能夠提供有效結果。

說明

快速開始

什麼是模型評測

模型評測是Model Studio平台提供的模型品質驗證工具，協助您客觀、量化地評估大語言模型的表現。

一句話總結：給模型出一套測試題，自動或人工打分，最後產生評測報告。

為什麼要做模型評測

情境1：模型選型決策

問題：面對十幾個大模型（千問、GPT、Claude、文心一言等），不知道哪個更適合我的業務。

解決方案：

準備100條業務情境的測試資料
用相同資料評測所有候選模型
對比評測報告（得分、通過率、典型樣本表現）
選擇最符合業務需求的模型

價值：

避免主觀判斷，用資料說話
節省人工逐個測試的時間
降低選型錯誤的風險

情境2：模型調優效果驗證

問題：對千問進行了模型調優（提供了1000條訓練資料），不確定調優是否真的有效。

解決方案：

準備評測資料集（與訓練集不重疊）
分別評測調優前和調優後的模型
對比兩次評測結果：
- 調優前得分：75分
- 調優後得分：85分
- 結論：調優有效，提升了10分

價值：

量化調優效果，驗證投入是否值得
識別調優方向是否正確
為持續最佳化提供資料支援

情境3：模型能力量化評估

問題：需要向團隊或管理層彙報模型在特定任務上的表現，但缺少客觀資料。

解決方案：

使用評測功能產生評測報告
報告包含：
- 綜合得分：85/100
- 通過率：90%（達到3分閾值的樣本佔比）
- 分數分布：5分30條、4分40條、3分20條、2分10條
- 典型案例：高分樣本、低分樣本
用報告資料支撐決策和彙報

價值：

用資料替代主觀描述（"還不錯" → "得分85分，通過率90%"）
便於跨團隊溝通和對齊認知
為後續最佳化提供基準參考

情境4：持續監控模型表現

問題：模型上線後，隨著時間推移或業務變化，模型表現可能下降，但很難及時發現。

解決方案：

建立定期評測機制（如每月一次）
使用相同的評測資料集和評測維度
追蹤模型表現趨勢：
- 2024年1月：得分85
- 2024年2月：得分87（提升）
- 2024年3月：得分78（下降，需要排查）

價值：

及時發現模型表現下降
為模型迭代提供資料依據
建立模型能力檔案

核心價值總結

價值	說明
客觀量化	用資料替代主觀判斷，避免“感覺還行”的模糊描述
高效對比	快速對比多個模型，節省人工測試時間
風險控制	上線前充分驗證，降低模型選型錯誤的風險
持續最佳化	為模型調優和迭代提供量化的效果反饋
決策支援	為團隊協作和管理層彙報提供資料支撐

評測流程

階段	子步驟說明
1. 準備工作	評測維度（定義評分標準）→ 測試資料（準備問題和答案）
2. 建立評測任務	選擇模型 → 選擇資料 → 選擇維度 → 是否參與熱門排行榜（決定是否加入熱門排行榜）
3. 執行評測	自動評測（系統自動完成）或人工評測（需要手動標註）
4. 查看結果	得分報告 → 通過率統計 → 詳細明細

快速體驗

評測情境：評測千問-Max在常識問答任務中的準確性

完整案例：使用10條測試問題，評估模型回答的語義相似性

體驗步驟：

1. 建立評測維度

介面位置：進入模型評測頁面，選擇评测维度Tab，點擊右上方创建评测维度按鈕

填寫表單點擊保存按鈕

專案	填寫內容
维度名称	常識問答準確性
描述	評估模型回答常識問題的準確性
类型	選擇大模型评估-数值型
裁判模型	選擇千問-Max
评分器模版	選擇語義相似性
评分范围	保持預設0~5
通过阈值	3.0

相關說明：

關於评分器模版的選擇，介面上有3個選項按鈕，可以選擇其中一個（Prompt變數說明參見，和System Prompt的區別請參見）

模板	說明	適用情境	是否需要自訂Prompt
綜合評測（預設）	系統預置模板，從5個維度評分（相關性、文化敏感性、資訊豐富性、清晰性、使用者參與度）	通用對話、客服情境	不需要，可以直接使用該Prompt或對其進行改寫
語義相似性	系統預置模板，評估輸出與參考答案的語義接近程度	問答系統、知識檢索	不需要，可以直接使用該Prompt或對其進行改寫
自定义评测	自己編寫Prompt	特定業務情境	需要，根據實際情況進行編寫

2. 準備測試資料

介面位置：進入資料管理頁面，點擊右上方新增数据集按鈕

填寫表單並點擊确认按鈕

專案	填寫內容
维度名称	問答測試資料
描述	選擇评测集類型 ❗ 模型評測只能使用评测集類型的資料集，不支援訓練集
类型	上傳案例資料_問答測試資料.xlsx（ICMS 附件，file_id=151014，需線上下載）

3. 建立評測任務

介面位置：進入模型評測頁面，選擇评测任务Tab，點擊右上方创建评测任务按鈕

填寫表單並點擊开始评测按鈕

專案	填寫內容
维度名称	問答準確性測試
评测对象	選擇千問-Plus
裁判模型	選擇千問-Max
System Prompt	留空，本次測試不需要，和評分器Prompt的區別請參見System Prompt和評分器Prompt的區別
评分器模版	選擇語義相似性，資料集選擇前面建立的“問答測試資料”
评分范围	選擇前面建立的“常識問答準確性”
通过阈值	本次測試不參與

4. 查看任務狀態

找到任務“問答準確性測試”，查看评测状态列：

待执行：在請求高峰時段，評測任務需要排隊等待執行
进行中：系統正在評測，請耐心等待
评测完成：評測已完成，可以查看結果
评测失败：評測任務執行失敗
评测终止：評測任務被人工手動終止

點擊頁面右上方重新整理按鈕（），當任務狀態變為评测完成後，單擊任务名称列，進入詳情頁。

選擇数据明细Tab，查看每條資料詳細評分

列名	說明
状态	評測狀態：待執行、進行中、評測完成、評測失敗、評測終止
序号	樣本編號
Prompt	原始問題
Completion	參考答案
Output	模型產生的回答
[評測維度名稱]	和評測維度相同，本次評測維度名稱為“常識問答準確性”，本列表示評分結果
操作	使用者可執行檔操作，例如點擊詳情按鈕，查看完整的問題、答案和評測結果

選擇指标统计Tab，查看評測統計

指標名稱	說明	樣本值
综合得分	評測維度平均分	100
通过率	達到閾值（≥3分）的樣本佔比	90%
评测集总量	測試資料總數	10條
已完成量	已評測完成的數量	10條
未完成量	未評測完成的數量	0條

核心概念

自訂評測概述

Model Studio提供自訂評測功能，支援您使用自訂的評測標準和測試資料，對模型進行多維度品質評估。自訂評測支援5種評測維度類型，詳情請參見下方自訂評測章節。

自訂評測

支援的模型

支援下列預置模型（包括基於它們調優後的模型）：

千問-QwQ/Max/Plus/Turbo/Coder/Math
千問開源版（Qwen3、Qwen2.5、Qwen2、Qwen1.5）
通義法睿
第三方文本產生模型（abab6.5g、abab6.5t等）

上述列表並不完整且可能隨時發生變化，請以建立評測任務頁面中评测模型顯示的列表為準。列表中灰色字型且無申请按鈕的模型目前暫不支援評測。

評測維度

評測維度就是評分標準，決定了如何給模型打分。自訂評測必須先建立評測維度。

評測維度類型（5種）

類型	評分方式	適用情境	成本	推薦度
大模型评估-数值型	AI裁判打分（1-5分）	問答品質、內容產生品質	中	⭐⭐⭐⭐⭐
规则评估-文本相似度	演算法計算相似性	翻譯、摘要、改寫	低	⭐⭐⭐⭐
大模型评估-分类型	AI裁判分類（Pass/Fail）	Alibaba Content Security Service、正確性判斷	中	⭐⭐⭐
规则评估-字符串匹配	精確字串匹配	Function Calling、NL2SQL	極低	⭐⭐⭐
人工评估-分类型	人工打標籤	創意性、專業判斷	高	⭐⭐

如何快速選擇評測維度類型？

一個評測任務可以組合多個評測維度。

評測資料

資料來源類型

資料類型	說明	工作流程	適用情境
評測資料集	包含問題（prompt）和參考答案（completion）	系統調用模型即時推理 → 產生output → 評分器打分	首次評測對比多個模型模型尚未產生結果
推理結果集	已包含模型輸出（output）	系統直接讀取output → 評分器打分（不推理）	模型已產生結果降低推理成本作為對照組的基準模型

資料格式要求：Excel
評測資料集樣本：

Prompt

Completion

什麼是雲端運算？

雲端運算是按需提供的共用計算資源集區

Python如何定義函數？

使用def關鍵字定義函數
推理結果集樣本：

多一列Output

Prompt

Completion

Output

什麼是雲端運算？

雲端運算是按需提供的共用計算資源集區

雲端運算是一種通過互連網提供計算資源的服務模式...

資料量建議：

階段	建議數量	說明
小規模驗證	50~100條	驗證配置是否正確
正式評測	200~500條	獲得可靠的統計結果
全面評估	500+條	覆蓋各種邊界情況

核心變數

適用範圍：本節僅適用於大模型评估-数值型和大模型评估-分类型評測維度。

在大模型評估時，裁判模型會接收以下三個變數：

變數名	說明	樣本	使用情境
`${prompt}`	原始輸入：使用者的問題或指令	什麼是雲端運算？	所有情境都需要
`${output}`	模型輸出：參評模型產生的回答	雲端運算是一種通過互連網...	所有情境都需要
`${completion}`	參考答案：標準答案或期望輸出	雲端運算是按需提供的...	有標準答案時使用

如何在Prompt中使用：

請評估以下回答的品質：

**使用者問題**：${prompt}
**模型回答**：${output}
**參考答案**：${completion}

評分標準：
- 5分：回答完全正確，與參考答案語義一致
- 4分：回答基本正確，有少量偏差
- 3分：回答部分正確
- 2分：回答大部分錯誤
- 1分：回答完全錯誤或答非所問

System Prompt和評分器Prompt的區別

在模型評測中，有兩種容易混淆的Prompt配置，它們在不同環節發揮作用：

Prompt類型	配置位置	作用對象	作用階段	是否必填	費用歸屬
System Prompt	建立评测任务時	被評測模型	模型產生答案時	否	被評測模型推理費用
評分器Prompt	建立大模型评估-数值型和大模型评估-分类型評測維度時	裁判模型	裁判模型給答案打分時	是	裁判模型評分費用

詳細說明

System Prompt
- 用途：為被評測模型設定角色定位或行為規範
- 樣本情境：
  - 評測客服情境：“你是一位專業的客服人員，請禮貌、準確地回答客戶問題。”
  - 評測代碼助手：“你是一位編程專家，請提供準確、簡潔的程式碼範例。”
- 何時使用：僅在需要給被評測模型設定特定身份或約束時填寫，大多數情況下可以留空
評分器Prompt
- 用途：告訴裁判模型如何評判答案品質、評分標準是什麼
- 適用範圍：僅大模型评估-数值型和大模型评估-分类型評測維度需要配置
- 配置方式：
  - 選擇系統預置模板（綜合評測、語義相似性、情感分析等）
  - 自訂編寫（適用於特定業務情境）
- ：評分器Prompt中可使用 ${prompt}、${output}、${completion} 變數

形象比喻

System Prompt：告訴“學生”（被評測模型）考試時應該以什麼身份答題
評分器Prompt：告訴“閱卷老師”（裁判模型）如何批改試卷、打分標準是什麼

分情境實踐案例

自定义评测：大模型评估-数值型評測維度

適用情境：需要細粒度評分的情境，如問答品質、內容產生品質、客服對話品質等

使用建議：

評分標準要具體化，為每個分數檔提供清晰描述
定期人工抽查高分和低分樣本，驗證準確性
避免所有樣本都集中在某個分數段

操作步驟：

1. 建立評測維度

介面位置：進入模型評測頁面，選擇评测维度Tab，點擊右上方创建评测维度按鈕

填寫表單點擊保存按鈕

專案	填寫內容
维度名称	常識問答準確性
描述	評估模型回答常識問題的準確性
类型	選擇大模型评估-数值型
裁判模型	選擇千問-Max
评分器模版	選擇語義相似性
评分范围	保持預設0~5
通过阈值	3.0

相關說明：

關於评分器模版的選擇，介面上有3個選項按鈕，可以選擇其中一個（Prompt變數說明參見，和System Prompt的區別請參見）

模板	說明	適用情境	是否需要自訂Prompt
綜合評測（預設）	系統預置模板，從5個維度評分（相關性、文化敏感性、資訊豐富性、清晰性、使用者參與度）	通用對話、客服情境	不需要，可以直接使用該Prompt或對其進行改寫
語義相似性	系統預置模板，評估輸出與參考答案的語義接近程度	問答系統、知識檢索	不需要，可以直接使用該Prompt或對其進行改寫
自定义评测	自己編寫Prompt	特定業務情境	需要，根據實際情況進行編寫

2. 準備測試資料

介面位置：進入資料管理頁面，點擊右上方新增数据集按鈕

填寫表單並點擊确认按鈕

專案	填寫內容
维度名称	問答測試資料
描述	選擇评测集類型 ❗ 模型評測只能使用评测集類型的資料集，不支援訓練集
类型	上傳案例資料_問答測試資料.xlsx（ICMS 附件，file_id=151014，需線上下載）

3. 建立評測任務

介面位置：進入模型評測頁面，選擇评测任务Tab，點擊右上方创建评测任务按鈕

填寫表單並點擊开始评测按鈕

專案	填寫內容
维度名称	問答準確性測試
评测对象	選擇千問-Plus
裁判模型	選擇千問-Max
System Prompt	留空，本次測試不需要，和評分器Prompt的區別請參見System Prompt和評分器Prompt的區別
评分器模版	選擇語義相似性，資料集選擇前面建立的“問答測試資料”
评分范围	選擇前面建立的“常識問答準確性”
通过阈值	本次測試不參與

4. 查看任務狀態

找到任務“問答準確性測試”，查看评测状态列：

待执行：在請求高峰時段，評測任務需要排隊等待執行
进行中：系統正在評測，請耐心等待
评测完成：評測已完成，可以查看結果
评测失败：評測任務執行失敗
评测终止：評測任務被人工手動終止

點擊頁面右上方重新整理按鈕（），當任務狀態變為评测完成後，單擊任务名称列，進入詳情頁。

選擇数据明细Tab，查看每條資料詳細評分

列名	說明
状态	評測狀態：待執行、進行中、評測完成、評測失敗、評測終止
序号	樣本編號
Prompt	原始問題
Completion	參考答案
Output	模型產生的回答
[評測維度名稱]	和評測維度相同，本次評測維度名稱為“常識問答準確性”，本列表示評分結果
操作	使用者可執行檔操作，例如點擊詳情按鈕，查看完整的問題、答案和評測結果

選擇指标统计Tab，查看評測統計

指標名稱	說明	樣本值
综合得分	評測維度平均分	100
通过率	達到閾值（≥3分）的樣本佔比	90%
评测集总量	測試資料總數	10條
已完成量	已評測完成的數量	10條
未完成量	未評測完成的數量	0條

自訂評測：大模型評估-分類型評測維度

適用情境：需要進行“是/否”、“通過/不通過”等正反判斷的情境，如Alibaba Content Security Service、答案正確性等

使用建議：

在Prompt中詳細說明每個標籤的判定條件
明確要求裁判模型只輸出標籤名稱
定期人工抽檢部分樣本，確保準確性

操作步驟：

1. 建立評測維度

介面位置：進入模型評測頁面，選擇评测维度Tab，點擊右上方创建评测维度按鈕

填寫表單點擊保存按鈕

專案	填寫內容
维度名称	情感分析
描述	檢測客戶的情感
类型	選擇自动
裁判模型	選擇千問-Max
评分器模版	選擇情感分析
评分范围	不必修改，使用預設內容

相關說明：

關於评分器模版的選擇，介面上有3個選項按鈕，可以選擇其中一個（Prompt變數說明參見，和System Prompt的區別請參見）

模板	說明	適用情境	是否需要自訂Prompt
標準匹配（預設）	系統預置模板，判斷模型輸出是否與參考答案一致	分類標籤、函數名、固定答案	不需要，可以直接使用該Prompt或對其進行改寫
情感分析	系統預置模板，分析文本情感傾向（積極/中性/消極）	使用者評論、客服對話、輿情監控	不需要，可以直接使用該Prompt或對其進行改寫
自定义评分器	自己編寫Prompt	自訂情境，如風格判斷、合規檢查、邏輯校正	需要，根據實際情況進行編寫

2. 準備測試資料

介面位置：進入資料管理頁面，點擊右上方新增数据集按鈕

填寫表單並點擊确认按鈕

專案	填寫內容
维度名称	情感分析測試資料
描述	選擇评测集類型 ❗ 模型評測只能使用评测集類型的資料集，不支援訓練集
类型	上傳案例資料_情感分析.xlsx（ICMS 附件，file_id=151061，需線上下載）

3. 建立評測任務

介面位置：進入模型評測頁面，選擇评测任务Tab，點擊右上方创建评测任务按鈕

填寫表單並點擊开始评测按鈕

專案	填寫內容
维度名称	情感分析測試
评测维度	選擇情感分析
裁判模型	選擇千問-Max
System Prompt	留空，本次測試不需要，和評分器Prompt的區別請參見System Prompt和評分器Prompt的區別
评分器模版	選擇語義相似性，資料集選擇前面建立的“情感分析測試資料”
评分范围	選擇前面建立的“情感分析”
通过阈值	本次測試不參與

4. 查看任務狀態

找到任務“情感分析測試”，查看评测状态列：

待执行：在請求高峰時段，評測任務需要排隊等待執行
进行中：系統正在評測，請耐心等待
评测完成：評測已完成，可以查看結果
评测失败：評測任務執行失敗
评测终止：評測任務被人工手動終止

點擊頁面右上方重新整理按鈕（），當任務狀態變為评测完成後，單擊任务名称列，進入詳情頁。

選擇数据明细Tab，查看每條資料詳細評分

列名	說明
状态	評測狀態：待執行、進行中、評測完成、評測失敗、評測終止
序号	樣本編號
Prompt	原始問題
Completion	參考答案
Output	模型產生的回答
[評測維度名稱]	和評測維度相同，本次評測維度名稱為“情感分析”，本列表示分析結果
操作	使用者可執行檔操作，例如點擊詳情按鈕，查看完整的問題、答案和評測結果

選擇指标统计Tab，查看評測統計

指標名稱	說明	樣本值
综合得分	評測維度平均分	40
通过率	Pass的樣本佔比	40%
得分明细 - 数据项分布	分類型評估維度統計結果分布
评测集总量	測試資料總數	10條
已完成量	已評測完成的數量	10條
未完成量	未評測完成的數量	0條

自訂評測：大模型評估-數值型評測維度

適用情境：需要對模型回答進行多維度綜合評分的情境，如回答品質評估、Alibaba Content Security Service評分、翻譯品質評分等

使用建議：

合理設定評分範圍和通過閾值，建議先小規模測試再批量評測
選擇合適的評分器模版：綜合評測適合通用情境，語義相似性適合有標準答案的情境
自訂評分器Prompt時，需明確評分標準和取值範圍

操作步驟：

1. 建立評測維度

介面位置：進入模型評測頁面，選擇评测维度Tab，點擊右上方创建评测维度按鈕

填寫表單點擊保存按鈕

專案	填寫內容
维度名称	綜合品質評估
描述	評估模型回答的綜合品質
类型	選擇大模型評估-數值型
裁判模型	選擇千問-Max
评分器模版	選擇綜合評測（預設）
Prompt	不必修改，使用預設內容
評分範圍	使用預設值0-5
通過閾值	使用預設值3.0，即評分≥3.0的樣本判定為Pass

相關說明：

關於评分器模版的選擇，介面上有3個選項按鈕，可以選擇其中一個（Prompt變數說明參見，和System Prompt的區別請參見）

模板	說明	適用情境	是否需要自訂Prompt
綜合評測（預設）	系統預置模板，從相關性、文化敏感性、資訊豐富性、清晰性和使用者參與度5個維度進行綜合評分	通用的回答品質評估	不需要，可以直接使用該Prompt或對其進行改寫
語義相似性	系統預置模板，評估模型輸出與參考答案之間的語義相似程度	有明確參考答案的情境，如知識問答、翻譯	不需要，可以直接使用該Prompt或對其進行改寫
自定义评测	自己編寫Prompt，需在Prompt中說明評分標準和取值範圍	自訂情境，如專業領域評估、特定指標評分	需要，根據實際情況進行編寫

關於評分範圍和通過閾值：

評分範圍：設定裁判模型評分的最小值和最大值（整數），預設為0-5。裁判模型將在此區間內為每條評測資料打分
通過閾值：大於等於該閾值的評分判定為Pass，低於該閾值判定為Fail。閾值範圍受評分範圍約束，支援小數（步長0.1），預設為3.0

2. 準備測試資料

介面位置：進入資料管理頁面，點擊右上方新增数据集按鈕

填寫表單並點擊确认按鈕

專案	填寫內容
维度名称	綜合品質評估測試資料
描述	選擇评测集類型 ❗ 模型評測只能使用评测集類型的資料集，不支援訓練集
类型	上傳測試資料檔案（JSONL格式），每行包含prompt和completion欄位

3. 建立評測任務

介面位置：進入模型評測頁面，選擇评测任务Tab，點擊右上方创建评测任务按鈕

填寫表單並點擊开始评测按鈕

專案	填寫內容
维度名称	綜合品質評估測試
评测模型	選擇千問-Max
裁判模型	選擇千問-Max
System Prompt	留空，本次測試不需要，和評分器Prompt的區別請參見System Prompt和評分器Prompt的區別
评分器模版	選擇綜合評測，資料集選擇前面建立的"綜合品質評估測試資料"
评分范围	選擇前面建立的"綜合品質評估"
通过阈值	本次測試不參與

4. 查看任務狀態

找到任務"綜合品質評估測試"，查看评测状态列：

待执行：在請求高峰時段，評測任務需要排隊等待執行
进行中：系統正在評測，請耐心等待
评测完成：評測已完成，可以查看結果
评测失败：評測任務執行失敗
评测终止：評測任務被人工手動終止

點擊頁面右上方重新整理按鈕（），當任務狀態變為评测完成後，單擊任务名称列，進入詳情頁。

選擇数据明细Tab，查看每條資料詳細評分

列名	說明
状态	評測狀態：待執行、進行中、評測完成、評測失敗、評測終止
序号	樣本編號
Prompt	原始問題
Completion	參考答案
Output	模型產生的回答
[評測維度名稱]	和評測維度相同，本次評測維度名稱為"綜合品質評估"，本列顯示裁判模型的評分（數值）
操作	使用者可執行檔操作，例如點擊詳情按鈕，查看完整的問題、答案和評測結果

選擇指标统计Tab，查看評測統計

指標名稱	說明	樣本值
综合得分	評測維度平均分（數值型維度顯示的是所有樣本評分的算術平均值）	3.8
通过率	評分≥通過閾值的樣本佔比	70%
评测集总量	測試資料總數	10條
已完成量	已評測完成的數量	10條
未完成量	未評測完成的數量	0條

自訂評測：規則評估-字串匹配評測維度

適用情境：答案格式固定，需要精確匹配，如Function Calling、NL2SQL

使用建議：

預先處理正常化：統一大小寫、去除首尾空格
對於同義字，建議改用文本相似性評分器
先用小樣本測試匹配規則是否符合預期

操作步驟：

1. 建立評測維度

介面位置：進入模型評測頁面，選擇评测维度Tab，點擊右上方创建评测维度按鈕

填寫表單點擊保存按鈕

專案	填寫內容
维度名称	Function Calling驗證
描述	檢查模型是否正確調用了指定函數
类型	選擇规则评估-字符串匹配
文本对比	三欄一行：左側文字框填 `${output}`（模型輸出）、中間操作符下拉選包含、右側文字框填 `${completion}`（參考答案）。文字框內輸入 `/` + 斷行符號可快速插入 `${prompt}` / `${output}` / `${completion}` 變數。左側文字框填寫模型輸出變數，右側填寫參考答案變數

匹配規則如何選擇：

規則	行為描述	典型應用
相等	完全相同（忽略大小寫）	城市名稱校正、固定答案
不相等	完全不同（忽略大小寫）	禁忌詞排查
包含	包含給定字串	關鍵詞檢查、必要資訊驗證
開頭包含	以給定字串開頭	首碼校正、格式檢查
結尾包含	以給定字串結尾	尾碼校正、結束符檢查

評測資料樣本：

{"prompt": "今天北京天氣怎麼樣？","completion": "query_weather"}

如果匹配規則選擇“包含”，當模型輸出包含 query_weather 時，判定為Pass。

2. 準備測試資料

介面位置：進入資料管理頁面，點擊右上方新增数据集按鈕

填寫表單並點擊确认按鈕

專案	填寫內容
维度名称	Function Calling測試資料
描述	選擇评测集類型 ❗ 模型評測只能使用评测集類型的資料集，不支援訓練集
类型	上傳案例資料_Function_Calling.xlsx（ICMS 附件，file_id=151064，需線上下載）

3. 建立評測任務

介面位置：進入模型評測頁面，選擇评测任务Tab，點擊右上方创建评测任务按鈕

填寫表單並點擊开始评测按鈕

專案	填寫內容
维度名称	Function Calling測試
评测数据集	選擇Function Calling測試資料
裁判模型	選擇千問-Max
System Prompt	留空，本次測試不需要，更多說明請參見System Prompt和評分器Prompt的區別
评分器模版	選擇綜合評測，資料集選擇前面建立的“Function Calling測試資料”
评分范围	選擇前面建立的“Function Calling驗證”
通过阈值	本次測試不參與

4. 查看任務狀態

找到任務“Function Calling測試”，查看评测状态列：

待执行：在請求高峰時段，評測任務需要排隊等待執行
进行中：系統正在評測，請耐心等待
评测完成：評測已完成，可以查看結果
评测失败：評測任務執行失敗
评测终止：評測任務被人工手動終止

點擊頁面右上方重新整理按鈕（），當任務狀態變為评测完成後，單擊任务名称列，進入詳情頁。

選擇数据明细Tab，查看每條資料詳細評分

列名	說明
状态	評測狀態：待執行、進行中、評測完成、評測失敗、評測終止
序号	樣本編號
Prompt	原始問題
Completion	參考答案
Output	模型產生的回答
[評測維度名稱]	和評測維度相同，本次評測維度名稱為“Function Calling驗證”，本列表示分析結果
操作	使用者可執行檔操作，例如點擊詳情按鈕，查看完整的問題、答案和評測結果

選擇指标统计Tab，查看評測統計

指標名稱	說明	樣本值
综合得分	評測維度平均分	100
通过率	Pass的樣本佔比	100%
评测集总量	測試資料總數	2條
已完成量	已評測完成的數量	2條
未完成量	未評測完成的數量	0條

自訂評測：規則評估-文本相似性評測維度

適用情境：答案表述多樣但含義相同的情境，如翻譯、摘要、改寫

使用建議：

先在小樣本上測試，觀察通過率分布，再調整閾值
關注詞序和精確匹配 → 選擇BLEU
關注語義理解 → 選擇Cosine
需要容錯 → 選擇Fuzzy Match
關注關鍵資訊覆蓋 → 選擇ROUGE-L

操作步驟：

1. 建立評測維度

介面位置：進入模型評測頁面，選擇评测维度Tab，點擊右上方创建评测维度按鈕

填寫表單點擊保存按鈕

專案	填寫內容
维度名称	翻譯品質
描述	評估中譯英的品質
类型	選擇规则评估-文本相似度
相似性演算法	選擇`BLEU_4`
评分器模版	左側：`${output}` 右側：`${completion}` 左側文字框填寫模型輸出變數，右側填寫參考答案變數
通过阈值	設定為0.4，相似性≥0.4判定為Pass，範圍0~1

相似性演算法如何選擇：

演算法	特點	最佳情境	閾值建議
ROUGE-L	基於最長公用子序列	文本摘要	0.4-0.6
BLEU	基於n-gram精確匹配，對詞序敏感	機器翻譯	0.3-0.5
Cosine	向量空間相似性，捕捉語義	開放問答、語義理解	0.6-0.8
Fuzzy Match	基於編輯距離，容錯性強	OCR、語音辨識	0.7-0.9
Accuracy	完全符合	精確答案驗證	1.0

2. 準備測試資料

介面位置：進入資料管理頁面，點擊右上方新增数据集按鈕

填寫表單並點擊确认按鈕

專案	填寫內容
维度名称	中譯英測試資料
描述	選擇评测集類型 ❗ 模型評測只能使用评测集類型的資料集，不支援訓練集
类型	上傳案例資料_中譯英.xlsx（ICMS 附件，file_id=151065，需線上下載）

3. 建立評測任務

介面位置：進入模型評測頁面，選擇评测任务Tab，點擊右上方创建评测任务按鈕

填寫表單並點擊开始评测按鈕

專案	填寫內容
维度名称	翻譯品質評測
评测模型	選擇千問-Max
裁判模型	選擇千問-Max
System Prompt	留空，本次測試不需要，更多說明請參見System Prompt和評分器Prompt的區別
评分器模版	選擇綜合評測，資料集選擇前面建立的“中譯英測試資料”
评分范围	選擇前面建立的“翻譯品質”
通过阈值	本次測試不參與

4. 查看任務狀態

找到任務“翻譯品質評測”，查看评测状态列：

待执行：在請求高峰時段，評測任務需要排隊等待執行
进行中：系統正在評測，請耐心等待
评测完成：評測已完成，可以查看結果
评测失败：評測任務執行失敗
评测终止：評測任務被人工手動終止

點擊頁面右上方重新整理按鈕（），當任務狀態變為评测完成後，單擊任务名称列，進入詳情頁。

選擇数据明细Tab，查看每條資料詳細評分

列名	說明
状态	評測狀態：待執行、進行中、評測完成、評測失敗、評測終止
序号	樣本編號
Prompt	原始問題
Completion	參考答案
Output	模型產生的回答
[評測維度名稱]	和評測維度相同，本次評測維度名稱為“翻譯品質”，本列表示分析結果
操作	使用者可執行檔操作，例如點擊詳情按鈕，查看完整的問題、答案和評測結果

選擇指标统计Tab，查看評測統計

指標名稱	說明	樣本值
综合得分	評測維度平均分	100
通过率	Pass的樣本佔比	100%
评测集总量	測試資料總數	3條
已完成量	已評測完成的數量	3條
未完成量	未評測完成的數量	0條

自訂評測：人工評估-分類型評測維度

適用情境：需要人工主觀判斷的情境，如創意性評估、專業品質審核

使用建議：

當模型輸出品質無法僅通過演算法或裁判模型精確判斷時，選用人工評估
在建立維度時將每個標籤的判定標準寫在外部《評測指南》，並培訓標註員統一理解
標籤設計要覆蓋所有可能輸出情況，並盡量使用簡潔明確的分類詞
建議多名評分員交叉標註部分樣本，檢驗一致性
避免一次標註過多資料，分批進行以降低疲勞影響

操作步驟：

1. 建立評測維度

介面位置：進入模型評測頁面，選擇评测维度Tab，點擊右上方创建评测维度按鈕

填寫表單點擊保存按鈕

專案	填寫內容
维度名称	內容創意性
描述	評估內容創意性
类型	選擇人工评估-分类型
Pass	建立“優秀”和“良好”兩個標籤
Fail	建立“一般”和“較差”兩個標籤

2. 準備測試資料

介面位置：進入資料管理頁面，點擊右上方新增数据集按鈕

填寫表單並點擊确认按鈕

專案	填寫內容
维度名称	內容創意性測試資料
描述	選擇评测集類型 ❗ 模型評測只能使用评测集類型的資料集，不支援訓練集
类型	上傳案例資料_內容創意性.xlsx（ICMS 附件，file_id=151066，需線上下載） Completion留空，讓模型產生

3. 建立評測任務

介面位置：進入模型評測頁面，選擇评测任务Tab，點擊右上方创建评测任务按鈕

填寫表單並點擊开始评测按鈕

專案	填寫內容
维度名称	內容創意評測
评测模型	選擇千問-Plus
裁判模型	選擇千問-Max
System Prompt	留空，本次測試不需要，更多說明請參見System Prompt和評分器Prompt的區別
评分器模版	選擇自訂評測，資料集選擇前面建立的“內容創意性測試資料”
评分范围	選擇前面建立的“內容創意性”
通过阈值	本次測試不參與

4. 查看任務狀態

找到任務“內容創意評測”，查看评测状态列，為进行中狀態。人工評估必須手動標註，系統不會自動評分，單擊任务名称列，進入詳情頁。

選擇数据明细Tab，在操作列點擊标注按鈕進行人工標註，所有資料標註完成後，任務的评测状态才會變為评测完成

列名	說明
状态	評測狀態：進行中
序号	樣本編號
Prompt	原始問題
Completion	參考答案
Output	模型產生的回答
[評測維度名稱]	和評測維度相同，本次評測維度名稱為“內容創意評測”，本列表示分析結果
操作	使用者可執行檔操作，例如點擊詳情按鈕，查看完整的問題、答案和評測結果

選擇指标统计Tab，查看評測統計

指標名稱	說明	樣本值
综合得分	評測維度平均分	100
得分明细 - 数据项分布	分類型評估維度統計結果分布
通过率	Pass的樣本佔比	100%
评测集总量	測試資料總數	3條
已完成量	已評測完成的數量	3條
未完成量	未評測完成的數量	0條

使用熱門排行榜對比多個模型

適用情境：需要對比多個模型在相同評測維度下的表現，通過熱門排行榜直觀查看模型排名

使用建議：

對比同一系列不同規格的模型（如 qwen-max、qwen-plus、qwen-turbo）
對比不同供應商的模型（如千問 vs DeepSeek）
對比同一模型的不同版本或配置

前提條件：已建立自訂評測維度

操作步驟：

1. 建立熱門排行榜

介面位置：進入模型評測頁面，選擇排行榜Tab，點擊右上方创建排行榜按鈕

填寫表單點擊确定按鈕

專案	填寫內容
维度名称	常識問答準確性熱門排行榜
描述	選擇已建立的評測維度，例如常識問答準確性
类型	可在此時選擇已有評測任務，或在下一步添加評測任務

說明：

每個熱門排行榜最多支援50個評測任務
熱門排行榜建立後，評測維度不可修改
同一個熱門排行榜內的所有任務使用相同的評測維度，確保對比的公平性

2. 添加評測任務到熱門排行榜

介面位置：進入模型評測頁面，選擇排行榜Tab，點擊熱門排行榜名稱進入詳情頁

熱門排行榜支援兩種方式添加评测任务：

方式一：创建新任务

在熱門排行榜詳情頁點擊 添加评测任务 按鈕
點擊 创建新任务
系統自動跳轉到任務建立頁面，並自動關聯熱門排行榜：
- 是否参与排行：自動勾選且鎖定，無法取消
- 排行榜：自動填滿當前熱門排行榜名稱且鎖定
- 评测维度：自動填滿熱門排行榜關聯的評測維度且鎖定
填寫其他必填項：
- 任务名称：輸入任務名稱，建議包含模型資訊便於識別
- 评测模型：選擇要評測的模型
- 数据来源：選擇評測資料集
點擊 开始评测 按鈕

方式二：选择已有任务

在熱門排行榜詳情頁點擊 添加评测任务 按鈕
點擊 选择已有任务
從已完成的評測任務中選擇要加入熱門排行榜的任務
點擊确定按鈕

注意：

只有使用相同評測維度已完成任務才能加入熱門排行榜
建議使用相同的評測資料集以確保對比結果的準確性

3. 查看熱門排行榜結果

介面位置：進入模型評測頁面，選擇排行榜Tab，點擊熱門排行榜名稱進入詳情頁

熱門排行榜詳情頁展示以下資訊：

列名	說明
排名	根據熱門排行榜得分自動計算排名，得分高的排名靠前
任务名称	評測任務的名稱
评测模型	任務使用的模型名稱
排行榜得分	該任務在當前評測維度下的綜合得分，範圍0~100
[評測維度名稱]	顯示該維度具體評分，例如“語義相似性”維度顯示平均相似性分數
操作	刪除任務（將任務從熱門排行榜移除，不影響任務本身）

說明：

排行榜得分會隨著任務評測進度即時更新
評測進行中的任務得分列顯示“-”
點擊任务名称可查看該任務的詳細評測資料

進階技巧

評測維度設計最佳實務

單一職責：

每個評測維度只關注一個評測目標
避免混合多個標準
例如：不要在"準確性"維度中同時考核"流暢性"

量化標準：

盡量使用客觀、可量化的標準
減少主觀性
為每個分數檔提供明確的判定條件

迭代最佳化：

根據評測結果反饋，持續最佳化Prompt
定期人工抽查，驗證評測準確性
對比人工評分和AI評分，調整評測標準

Prompt編寫技巧

請前往阿里雲Model Studio的Prompt最佳實務和外掛程式學習相關知識，協助您在不進行模型調優的情況下激發模型的最大潛力。

成本最佳化建議

合理選擇評測方式：

規則評估成本最低，適合格式化輸出驗證
大模型評估成本較高，用於需要語義理解的情境
人工評估成本最高，僅用於必須人工判斷的情況

使用推理結果集：

對於需要頻繁評測的基準模型，將其輸出儲存為推理結果集
避免重複調用模型，降低推理成本

分階段評測：

先用小規模資料集（50-100條）驗證配置
確認配置正確後，再擴大到200-500條

批量評測：

一次評測多個模型，提高效率
在同一個評測任務中選擇多個模型

評測結果分析方法

關注分數分布：

查看各分數檔的樣本數量
識別分數集中的問題（如全部集中在3分）
調整評分標準或閾值

分析典型樣本：

查看高分樣本：瞭解模型優勢
查看低分樣本：識別模型不足
查看邊界樣本：最佳化評測標準

對比不同模型：

不要只看總分，要看不同情境下的表現
識別各模型的強項和弱項
根據業務優先順序選擇合適的模型

追蹤模型迭代：

建立定期評測機制
記錄每次調優後的評測結果
分析調優方向是否正確

常見問題排查

評測結果不符合預期：

檢查測試資料是否代表業務情境
審查評測維度Prompt是否清晰
嘗試調整評分範圍和閾值
考慮更換裁判模型或評分器模板

評分過於集中：

評分標準過於寬泛 → 細化每個分數檔的描述
測試資料缺乏多樣性 → 增加邊界和異常樣本
裁判模型傾向保守 → 更換推理能力更強的模型

不同評測維度結果衝突：

這很正常，說明模型在不同維度有不同表現
根據業務優先順序，賦予不同維度不同權重
不要只看單一維度，要綜合決策

如果模型輸出頻繁出現以下缺陷，建議您考慮引入知識庫：

模型的輸出和參考答案完全無關（模型明顯缺失相關的背景知識）
模型的輸出和參考答案部分相關（模型有背景知識但已淘汰）

計費說明

模型評測的費用主要來自兩部分：和。

被評測模型的推理費用

模型類型	是否計費	計費說明
預置模型（如qwen-max、qwen-plus等）		按Token消耗量計費
獨立部署的模型（調優後部署）		不額外計費

被評測模型計費公式：

輸入Token包含：

System Prompt（如果配置了）
評測資料中的Prompt（使用者問題）

輸出Token包含：

模型產生的回答（Output）

裁判模型的評分費用（限時免費）

僅大模型評估（數值型、分類型）涉及到裁判模型的使用。

完整費用計算樣本

情境：使用qwen-plus評測100條資料，採用大模型评估-数值型，裁判模型為qwen-max

假設：每條Prompt平均50 Token / Output平均200 Token / 評分器Prompt平均500 Token / 裁判模型輸出平均5 Token

費用計算（qwen-plus輸入\$0.26/1M tokens，輸出\$0.78/1M tokens；裁判模型按Model Studio控制台定價計費）：

被評測模型：5,000/1,000,000 × 0.26 + 20,000/1,000,000 × 0.78 = \$0.0013 + \$0.0156 = \$0.017
裁判模型：按Model Studio控制台當前定價計費
總費用 ≈ \$0.017（不含裁判模型費用）

價格參考

最新價格：請參見Model Studio控制台

注意：

價格可能隨時調整，請以控制台顯示為準
部分模型可能有限時優惠活動

下一步

如果您對參評模型的效果感到滿意，即可開始模型調用，將模型整合到您的業務鏈路中。
如果您不滿意參評模型的效果，可以選擇其他模型重新評測。您也可以考慮學習並通過ACA Generative AI Engineer認證，該認證配套的免費課程能協助您系統瞭解大模型的能力和應用情境，以及如何最佳化大模型。

Prompt	Completion
什麼是雲端運算？	雲端運算是按需提供的共用計算資源集區
Python如何定義函數？	使用def關鍵字定義函數