全部產品
Search
文件中心

Alibaba Cloud Model Studio:模型評測

更新時間:Jun 06, 2026

基於資料集對模型進行多維度評測有助於您全面瞭解其表現,從而確保模型在未來實際應用中能夠提供有效結果。

說明

快速開始

什麼是模型評測

模型評測是Model Studio平台提供的模型品質驗證工具,協助您客觀、量化地評估大語言模型的表現。

一句話總結:給模型出一套測試題,自動或人工打分,最後產生評測報告。

為什麼要做模型評測

情境1:模型選型決策

問題:面對十幾個大模型(千問、GPT、Claude、文心一言等),不知道哪個更適合我的業務。

解決方案

  1. 準備100條業務情境的測試資料

  2. 用相同資料評測所有候選模型

  3. 對比評測報告(得分、通過率、典型樣本表現)

  4. 選擇最符合業務需求的模型

價值

  • 避免主觀判斷,用資料說話

  • 節省人工逐個測試的時間

  • 降低選型錯誤的風險

情境2:模型調優效果驗證

問題:對千問進行了模型調優(提供了1000條訓練資料),不確定調優是否真的有效。

解決方案

  1. 準備評測資料集(與訓練集不重疊)

  2. 分別評測調優前和調優後的模型

  3. 對比兩次評測結果:

    • 調優前得分:75分

    • 調優後得分:85分

    • 結論:調優有效,提升了10分

價值

  • 量化調優效果,驗證投入是否值得

  • 識別調優方向是否正確

  • 為持續最佳化提供資料支援

情境3:模型能力量化評估

問題:需要向團隊或管理層彙報模型在特定任務上的表現,但缺少客觀資料。

解決方案

  1. 使用評測功能產生評測報告

  2. 報告包含:

    • 綜合得分:85/100

    • 通過率:90%(達到3分閾值的樣本佔比)

    • 分數分布:5分30條、4分40條、3分20條、2分10條

    • 典型案例:高分樣本、低分樣本

  3. 用報告資料支撐決策和彙報

價值

  • 用資料替代主觀描述("還不錯" → "得分85分,通過率90%")

  • 便於跨團隊溝通和對齊認知

  • 為後續最佳化提供基準參考

情境4:持續監控模型表現

問題:模型上線後,隨著時間推移或業務變化,模型表現可能下降,但很難及時發現。

解決方案

  1. 建立定期評測機制(如每月一次)

  2. 使用相同的評測資料集和評測維度

  3. 追蹤模型表現趨勢:

    • 2024年1月:得分85

    • 2024年2月:得分87(提升)

    • 2024年3月:得分78(下降,需要排查)

價值

  • 及時發現模型表現下降

  • 為模型迭代提供資料依據

  • 建立模型能力檔案

核心價值總結

價值

說明

客觀量化

用資料替代主觀判斷,避免“感覺還行”的模糊描述

高效對比

快速對比多個模型,節省人工測試時間

風險控制

上線前充分驗證,降低模型選型錯誤的風險

持續最佳化

為模型調優和迭代提供量化的效果反饋

決策支援

為團隊協作和管理層彙報提供資料支撐

評測流程

階段

子步驟說明

1. 準備工作

評測維度(定義評分標準)→ 測試資料(準備問題和答案)

2. 建立評測任務

選擇模型 → 選擇資料 → 選擇維度 → 是否參與熱門排行榜(決定是否加入熱門排行榜)

3. 執行評測

自動評測(系統自動完成)或人工評測(需要手動標註)

4. 查看結果

得分報告 → 通過率統計 → 詳細明細

快速體驗

評測情境:評測千問-Max在常識問答任務中的準確性

完整案例:使用10條測試問題,評估模型回答的語義相似性

體驗步驟

1. 建立評測維度

介面位置:進入模型評測頁面,選擇评测维度Tab,點擊右上方创建评测维度按鈕

填寫表單點擊保存按鈕

專案

填寫內容

维度名称

常識問答準確性

描述

評估模型回答常識問題的準確性

类型

選擇大模型评估-数值型

裁判模型

選擇千問-Max

评分器模版

選擇語義相似性

评分范围

保持預設0~5

通过阈值

3.0

相關說明

關於评分器模版的選擇,介面上有3個選項按鈕,可以選擇其中一個(Prompt變數說明參見,和System Prompt的區別請參見)

模板

說明

適用情境

是否需要自訂Prompt

綜合評測 (預設)

系統預置模板,從5個維度評分(相關性、文化敏感性、資訊豐富性、清晰性、使用者參與度)

通用對話、客服情境

不需要,可以直接使用該Prompt或對其進行改寫

語義相似性

系統預置模板,評估輸出與參考答案的語義接近程度

問答系統、知識檢索

不需要,可以直接使用該Prompt或對其進行改寫

自定义评测

自己編寫Prompt

特定業務情境

需要,根據實際情況進行編寫

2. 準備測試資料

介面位置:進入資料管理頁面,點擊右上方新增数据集按鈕

填寫表單並點擊确认按鈕

專案

填寫內容

维度名称

問答測試資料

描述

選擇评测集類型

❗ 模型評測只能使用评测集類型的資料集,不支援訓練集

类型

上傳案例資料_問答測試資料.xlsx(ICMS 附件,file_id=151014,需線上下載)

3. 建立評測任務

介面位置:進入模型評測頁面,選擇评测任务Tab,點擊右上方创建评测任务按鈕

填寫表單並點擊开始评测按鈕

專案

填寫內容

维度名称

問答準確性測試

评测对象

選擇千問-Plus

裁判模型

選擇千問-Max

System Prompt

留空,本次測試不需要,和評分器Prompt的區別請參見System Prompt和評分器Prompt的區別

评分器模版

選擇語義相似性,資料集選擇前面建立的“問答測試資料”

评分范围

選擇前面建立的“常識問答準確性”

通过阈值

本次測試不參與

4. 查看任務狀態

找到任務“問答準確性測試”,查看评测状态列:

  • 待执行:在請求高峰時段,評測任務需要排隊等待執行

  • 进行中:系統正在評測,請耐心等待

  • 评测完成:評測已完成,可以查看結果

  • 评测失败:評測任務執行失敗

  • 评测终止:評測任務被人工手動終止

點擊頁面右上方重新整理按鈕(image),當任務狀態變為评测完成後,單擊任务名称列,進入詳情頁。

  • 選擇数据明细Tab,查看每條資料詳細評分

    列名

    說明

    状态

    評測狀態:待執行、進行中、評測完成、評測失敗、評測終止

    序号

    樣本編號

    Prompt

    原始問題

    Completion

    參考答案

    Output

    模型產生的回答

    [評測維度名稱]

    和評測維度相同,本次評測維度名稱為“常識問答準確性”,本列表示評分結果

    操作

    使用者可執行檔操作,例如點擊詳情按鈕,查看完整的問題、答案和評測結果

  • 選擇指标统计Tab,查看評測統計

    指標名稱

    說明

    樣本值

    综合得分

    評測維度平均分

    100

    通过率

    達到閾值(≥3分)的樣本佔比

    90%

    评测集总量

    測試資料總數

    10條

    已完成量

    已評測完成的數量

    10條

    未完成量

    未評測完成的數量

    0條

核心概念

自訂評測概述

Model Studio提供自訂評測功能,支援您使用自訂的評測標準和測試資料,對模型進行多維度品質評估。自訂評測支援5種評測維度類型,詳情請參見下方自訂評測章節。

自訂評測

支援的模型

支援下列預置模型(包括基於它們調優後的模型):

  • 千問-QwQ/Max/Plus/Turbo/Coder/Math

  • 千問開源版(Qwen3、Qwen2.5、Qwen2、Qwen1.5)

  • 通義法睿

  • 第三方文本產生模型(abab6.5g、abab6.5t等)

上述列表並不完整且可能隨時發生變化,請以建立評測任務頁面中评测模型顯示的列表為準。列表中灰色字型且無申请按鈕的模型目前暫不支援評測。

評測維度

評測維度就是評分標準,決定了如何給模型打分。自訂評測必須先建立評測維度。

  • 評測維度類型(5種)

    類型

    評分方式

    適用情境

    成本

    推薦度

    大模型评估-数值型

    AI裁判打分(1-5分)

    問答品質、內容產生品質

    ⭐⭐⭐⭐⭐

    规则评估-文本相似度

    演算法計算相似性

    翻譯、摘要、改寫

    ⭐⭐⭐⭐

    大模型评估-分类型

    AI裁判分類(Pass/Fail)

    Alibaba Content Security Service、正確性判斷

    ⭐⭐⭐

    规则评估-字符串匹配

    精確字串匹配

    Function Calling、NL2SQL

    極低

    ⭐⭐⭐

    人工评估-分类型

    人工打標籤

    創意性、專業判斷

    ⭐⭐

  • 如何快速選擇評測維度類型?

    一個評測任務可以組合多個評測維度。

評測資料

  • 資料來源類型

    資料類型

    說明

    工作流程

    適用情境

    評測資料集

    包含問題(prompt)和參考答案(completion)

    系統調用模型即時推理 → 產生output → 評分器打分

    • 首次評測

    • 對比多個模型

    • 模型尚未產生結果

    推理結果集

    已包含模型輸出(output)

    系統直接讀取output → 評分器打分(不推理)

    • 模型已產生結果

    • 降低推理成本

    • 作為對照組的基準模型

  • 資料格式要求:Excel

  • 評測資料集樣本

    Prompt

    Completion

    什麼是雲端運算?

    雲端運算是按需提供的共用計算資源集區

    Python如何定義函數?

    使用def關鍵字定義函數

  • 推理結果集樣本

    多一列Output

    Prompt

    Completion

    Output

    什麼是雲端運算?

    雲端運算是按需提供的共用計算資源集區

    雲端運算是一種通過互連網提供計算資源的服務模式...

  • 資料量建議

    階段

    建議數量

    說明

    小規模驗證

    50~100條

    驗證配置是否正確

    正式評測

    200~500條

    獲得可靠的統計結果

    全面評估

    500+條

    覆蓋各種邊界情況

熱門排行榜

什麼是熱門排行榜

  • 用於對比多個模型在同一評測維度上的表現

  • 可視化展示模型優劣排序

  • 支援多個評測任務的橫向對比

何時需要熱門排行榜

  • 需要對比多個模型的表現(如 GPT-4 vs Claude vs 千問)

  • 想要可視化展示模型在業務情境中的優劣

  • 需要在團隊內部分享模型對比結果

核心變數

適用範圍:本節僅適用於大模型评估-数值型大模型评估-分类型評測維度。

在大模型評估時,裁判模型會接收以下三個變數:

變數名

說明

樣本

使用情境

${prompt}

原始輸入:使用者的問題或指令

什麼是雲端運算?

所有情境都需要

${output}

模型輸出:參評模型產生的回答

雲端運算是一種通過互連網...

所有情境都需要

${completion}

參考答案:標準答案或期望輸出

雲端運算是按需提供的...

有標準答案時使用

如何在Prompt中使用:

請評估以下回答的品質:

**使用者問題**:${prompt}
**模型回答**:${output}
**參考答案**:${completion}

評分標準:
- 5分:回答完全正確,與參考答案語義一致
- 4分:回答基本正確,有少量偏差
- 3分:回答部分正確
- 2分:回答大部分錯誤
- 1分:回答完全錯誤或答非所問

System Prompt和評分器Prompt的區別

在模型評測中,有兩種容易混淆的Prompt配置,它們在不同環節發揮作用:

Prompt類型

配置位置

作用對象

作用階段

是否必填

費用歸屬

System Prompt

建立评测任务

被評測模型

模型產生答案時

被評測模型推理費用

評分器Prompt

建立大模型评估-数值型大模型评估-分类型評測維度時

裁判模型

裁判模型給答案打分時

裁判模型評分費用

詳細說明

  • System Prompt

    • 用途:為被評測模型設定角色定位或行為規範

    • 樣本情境

      • 評測客服情境:“你是一位專業的客服人員,請禮貌、準確地回答客戶問題。”

      • 評測代碼助手:“你是一位編程專家,請提供準確、簡潔的程式碼範例。”

    • 何時使用:僅在需要給被評測模型設定特定身份或約束時填寫,大多數情況下可以留空

  • 評分器Prompt

    • 用途:告訴裁判模型如何評判答案品質、評分標準是什麼

    • 適用範圍:僅大模型评估-数值型大模型评估-分类型評測維度需要配置

    • 配置方式

      • 選擇系統預置模板(綜合評測、語義相似性、情感分析等)

      • 自訂編寫(適用於特定業務情境)

    • :評分器Prompt中可使用 ${prompt}、${output}、${completion} 變數

形象比喻

  • System Prompt:告訴“學生”(被評測模型)考試時應該以什麼身份答題

  • 評分器Prompt:告訴“閱卷老師”(裁判模型)如何批改試卷、打分標準是什麼

分情境實踐案例

自定义评测大模型评估-数值型評測維度

適用情境:需要細粒度評分的情境,如問答品質、內容產生品質、客服對話品質等

使用建議

  • 評分標準要具體化,為每個分數檔提供清晰描述

  • 定期人工抽查高分和低分樣本,驗證準確性

  • 避免所有樣本都集中在某個分數段

操作步驟

1. 建立評測維度

介面位置:進入模型評測頁面,選擇评测维度Tab,點擊右上方创建评测维度按鈕

填寫表單點擊保存按鈕

專案

填寫內容

维度名称

常識問答準確性

描述

評估模型回答常識問題的準確性

类型

選擇大模型评估-数值型

裁判模型

選擇千問-Max

评分器模版

選擇語義相似性

评分范围

保持預設0~5

通过阈值

3.0

相關說明

關於评分器模版的選擇,介面上有3個選項按鈕,可以選擇其中一個(Prompt變數說明參見,和System Prompt的區別請參見)

模板

說明

適用情境

是否需要自訂Prompt

綜合評測 (預設)

系統預置模板,從5個維度評分(相關性、文化敏感性、資訊豐富性、清晰性、使用者參與度)

通用對話、客服情境

不需要,可以直接使用該Prompt或對其進行改寫

語義相似性

系統預置模板,評估輸出與參考答案的語義接近程度

問答系統、知識檢索

不需要,可以直接使用該Prompt或對其進行改寫

自定义评测

自己編寫Prompt

特定業務情境

需要,根據實際情況進行編寫

2. 準備測試資料

介面位置:進入資料管理頁面,點擊右上方新增数据集按鈕

填寫表單並點擊确认按鈕

專案

填寫內容

维度名称

問答測試資料

描述

選擇评测集類型

❗ 模型評測只能使用评测集類型的資料集,不支援訓練集

类型

上傳案例資料_問答測試資料.xlsx(ICMS 附件,file_id=151014,需線上下載)

3. 建立評測任務

介面位置:進入模型評測頁面,選擇评测任务Tab,點擊右上方创建评测任务按鈕

填寫表單並點擊开始评测按鈕

專案

填寫內容

维度名称

問答準確性測試

评测对象

選擇千問-Plus

裁判模型

選擇千問-Max

System Prompt

留空,本次測試不需要,和評分器Prompt的區別請參見System Prompt和評分器Prompt的區別

评分器模版

選擇語義相似性,資料集選擇前面建立的“問答測試資料”

评分范围

選擇前面建立的“常識問答準確性”

通过阈值

本次測試不參與

4. 查看任務狀態

找到任務“問答準確性測試”,查看评测状态列:

  • 待执行:在請求高峰時段,評測任務需要排隊等待執行

  • 进行中:系統正在評測,請耐心等待

  • 评测完成:評測已完成,可以查看結果

  • 评测失败:評測任務執行失敗

  • 评测终止:評測任務被人工手動終止

點擊頁面右上方重新整理按鈕(image),當任務狀態變為评测完成後,單擊任务名称列,進入詳情頁。

  • 選擇数据明细Tab,查看每條資料詳細評分

    列名

    說明

    状态

    評測狀態:待執行、進行中、評測完成、評測失敗、評測終止

    序号

    樣本編號

    Prompt

    原始問題

    Completion

    參考答案

    Output

    模型產生的回答

    [評測維度名稱]

    和評測維度相同,本次評測維度名稱為“常識問答準確性”,本列表示評分結果

    操作

    使用者可執行檔操作,例如點擊詳情按鈕,查看完整的問題、答案和評測結果

  • 選擇指标统计Tab,查看評測統計

    指標名稱

    說明

    樣本值

    综合得分

    評測維度平均分

    100

    通过率

    達到閾值(≥3分)的樣本佔比

    90%

    评测集总量

    測試資料總數

    10條

    已完成量

    已評測完成的數量

    10條

    未完成量

    未評測完成的數量

    0條

自訂評測:大模型評估-分類型評測維度

適用情境:需要進行“是/否”、“通過/不通過”等正反判斷的情境,如Alibaba Content Security Service、答案正確性等

使用建議

  • 在Prompt中詳細說明每個標籤的判定條件

  • 明確要求裁判模型只輸出標籤名稱

  • 定期人工抽檢部分樣本,確保準確性

操作步驟

1. 建立評測維度

介面位置:進入模型評測頁面,選擇评测维度Tab,點擊右上方创建评测维度按鈕

填寫表單點擊保存按鈕

專案

填寫內容

维度名称

情感分析

描述

檢測客戶的情感

类型

選擇自动

裁判模型

選擇千問-Max

评分器模版

選擇情感分析

评分范围

不必修改,使用預設內容

相關說明

關於评分器模版的選擇,介面上有3個選項按鈕,可以選擇其中一個(Prompt變數說明參見,和System Prompt的區別請參見)

模板

說明

適用情境

是否需要自訂Prompt

標準匹配 (預設)

系統預置模板,判斷模型輸出是否與參考答案一致

分類標籤、函數名、固定答案

不需要,可以直接使用該Prompt或對其進行改寫

情感分析

系統預置模板,分析文本情感傾向(積極/中性/消極)

使用者評論、客服對話、輿情監控

不需要,可以直接使用該Prompt或對其進行改寫

自定义评分器

自己編寫Prompt

自訂情境,如風格判斷、合規檢查、邏輯校正

需要,根據實際情況進行編寫

2. 準備測試資料

介面位置:進入資料管理頁面,點擊右上方新增数据集按鈕

填寫表單並點擊确认按鈕

專案

填寫內容

维度名称

情感分析測試資料

描述

選擇评测集類型

❗ 模型評測只能使用评测集類型的資料集,不支援訓練集

类型

上傳案例資料_情感分析.xlsx(ICMS 附件,file_id=151061,需線上下載)

3. 建立評測任務

介面位置:進入模型評測頁面,選擇评测任务Tab,點擊右上方创建评测任务按鈕

填寫表單並點擊开始评测按鈕

專案

填寫內容

维度名称

情感分析測試

评测维度

選擇情感分析

裁判模型

選擇千問-Max

System Prompt

留空,本次測試不需要,和評分器Prompt的區別請參見System Prompt和評分器Prompt的區別

评分器模版

選擇語義相似性,資料集選擇前面建立的“情感分析測試資料”

评分范围

選擇前面建立的“情感分析”

通过阈值

本次測試不參與

4. 查看任務狀態

找到任務“情感分析測試”,查看评测状态列:

  • 待执行:在請求高峰時段,評測任務需要排隊等待執行

  • 进行中:系統正在評測,請耐心等待

  • 评测完成:評測已完成,可以查看結果

  • 评测失败:評測任務執行失敗

  • 评测终止:評測任務被人工手動終止

點擊頁面右上方重新整理按鈕(image),當任務狀態變為评测完成後,單擊任务名称列,進入詳情頁。

  • 選擇数据明细Tab,查看每條資料詳細評分

    列名

    說明

    状态

    評測狀態:待執行、進行中、評測完成、評測失敗、評測終止

    序号

    樣本編號

    Prompt

    原始問題

    Completion

    參考答案

    Output

    模型產生的回答

    [評測維度名稱]

    和評測維度相同,本次評測維度名稱為“情感分析”,本列表示分析結果

    操作

    使用者可執行檔操作,例如點擊詳情按鈕,查看完整的問題、答案和評測結果

  • 選擇指标统计Tab,查看評測統計

    指標名稱

    說明

    樣本值

    综合得分

    評測維度平均分

    40

    通过率

    Pass的樣本佔比

    40%

    得分明细 - 数据项分布

    分類型評估維度統計結果分布

    评测集总量

    測試資料總數

    10條

    已完成量

    已評測完成的數量

    10條

    未完成量

    未評測完成的數量

    0條

自訂評測:大模型評估-數值型評測維度

適用情境:需要對模型回答進行多維度綜合評分的情境,如回答品質評估、Alibaba Content Security Service評分、翻譯品質評分等

使用建議

  • 合理設定評分範圍和通過閾值,建議先小規模測試再批量評測

  • 選擇合適的評分器模版:綜合評測適合通用情境,語義相似性適合有標準答案的情境

  • 自訂評分器Prompt時,需明確評分標準和取值範圍

操作步驟

1. 建立評測維度

介面位置:進入模型評測頁面,選擇评测维度Tab,點擊右上方创建评测维度按鈕

填寫表單點擊保存按鈕

專案

填寫內容

维度名称

綜合品質評估

描述

評估模型回答的綜合品質

类型

選擇大模型評估-數值型

裁判模型

選擇千問-Max

评分器模版

選擇綜合評測(預設)

Prompt

不必修改,使用預設內容

評分範圍

使用預設值0-5

通過閾值

使用預設值3.0,即評分≥3.0的樣本判定為Pass

相關說明

關於评分器模版的選擇,介面上有3個選項按鈕,可以選擇其中一個(Prompt變數說明參見,和System Prompt的區別請參見)

模板

說明

適用情境

是否需要自訂Prompt

綜合評測 (預設)

系統預置模板,從相關性、文化敏感性、資訊豐富性、清晰性和使用者參與度5個維度進行綜合評分

通用的回答品質評估

不需要,可以直接使用該Prompt或對其進行改寫

語義相似性

系統預置模板,評估模型輸出與參考答案之間的語義相似程度

有明確參考答案的情境,如知識問答、翻譯

不需要,可以直接使用該Prompt或對其進行改寫

自定义评测

自己編寫Prompt,需在Prompt中說明評分標準和取值範圍

自訂情境,如專業領域評估、特定指標評分

需要,根據實際情況進行編寫

關於評分範圍通過閾值

  • 評分範圍:設定裁判模型評分的最小值和最大值(整數),預設為0-5。裁判模型將在此區間內為每條評測資料打分

  • 通過閾值:大於等於該閾值的評分判定為Pass,低於該閾值判定為Fail。閾值範圍受評分範圍約束,支援小數(步長0.1),預設為3.0

2. 準備測試資料

介面位置:進入資料管理頁面,點擊右上方新增数据集按鈕

填寫表單並點擊确认按鈕

專案

填寫內容

维度名称

綜合品質評估測試資料

描述

選擇评测集類型

❗ 模型評測只能使用评测集類型的資料集,不支援訓練集

类型

上傳測試資料檔案(JSONL格式),每行包含prompt和completion欄位

3. 建立評測任務

介面位置:進入模型評測頁面,選擇评测任务Tab,點擊右上方创建评测任务按鈕

填寫表單並點擊开始评测按鈕

專案

填寫內容

维度名称

綜合品質評估測試

评测模型

選擇千問-Max

裁判模型

選擇千問-Max

System Prompt

留空,本次測試不需要,和評分器Prompt的區別請參見System Prompt和評分器Prompt的區別

评分器模版

選擇綜合評測,資料集選擇前面建立的"綜合品質評估測試資料"

评分范围

選擇前面建立的"綜合品質評估"

通过阈值

本次測試不參與

4. 查看任務狀態

找到任務"綜合品質評估測試",查看评测状态列:

  • 待执行:在請求高峰時段,評測任務需要排隊等待執行

  • 进行中:系統正在評測,請耐心等待

  • 评测完成:評測已完成,可以查看結果

  • 评测失败:評測任務執行失敗

  • 评测终止:評測任務被人工手動終止

點擊頁面右上方重新整理按鈕(image),當任務狀態變為评测完成後,單擊任务名称列,進入詳情頁。

  • 選擇数据明细Tab,查看每條資料詳細評分

    列名

    說明

    状态

    評測狀態:待執行、進行中、評測完成、評測失敗、評測終止

    序号

    樣本編號

    Prompt

    原始問題

    Completion

    參考答案

    Output

    模型產生的回答

    [評測維度名稱]

    和評測維度相同,本次評測維度名稱為"綜合品質評估",本列顯示裁判模型的評分(數值)

    操作

    使用者可執行檔操作,例如點擊詳情按鈕,查看完整的問題、答案和評測結果

  • 選擇指标统计Tab,查看評測統計

    指標名稱

    說明

    樣本值

    综合得分

    評測維度平均分(數值型維度顯示的是所有樣本評分的算術平均值)

    3.8

    通过率

    評分≥通過閾值的樣本佔比

    70%

    评测集总量

    測試資料總數

    10條

    已完成量

    已評測完成的數量

    10條

    未完成量

    未評測完成的數量

    0條

自訂評測:規則評估-字串匹配評測維度

適用情境:答案格式固定,需要精確匹配,如Function Calling、NL2SQL

使用建議

  • 預先處理正常化:統一大小寫、去除首尾空格

  • 對於同義字,建議改用文本相似性評分器

  • 先用小樣本測試匹配規則是否符合預期

操作步驟

1. 建立評測維度

介面位置:進入模型評測頁面,選擇评测维度Tab,點擊右上方创建评测维度按鈕

填寫表單點擊保存按鈕

專案

填寫內容

维度名称

Function Calling驗證

描述

檢查模型是否正確調用了指定函數

类型

選擇规则评估-字符串匹配

文本对比

三欄一行:左側文字框填 ${output}(模型輸出)、中間操作符下拉選包含、右側文字框填 ${completion}(參考答案)。文字框內輸入 / + 斷行符號可快速插入 ${prompt} / ${output} / ${completion} 變數。






左側文字框填寫模型輸出變數,右側填寫參考答案變數






匹配規則如何選擇

規則

行為描述

典型應用

相等

完全相同(忽略大小寫)

城市名稱校正、固定答案

不相等

完全不同(忽略大小寫)

禁忌詞排查

包含

包含給定字串

關鍵詞檢查、必要資訊驗證

開頭包含

以給定字串開頭

首碼校正、格式檢查

結尾包含

以給定字串結尾

尾碼校正、結束符檢查

評測資料樣本

{"prompt": "今天北京天氣怎麼樣?","completion": "query_weather"}

如果匹配規則選擇“包含”,當模型輸出包含 query_weather 時,判定為Pass。

2. 準備測試資料

介面位置:進入資料管理頁面,點擊右上方新增数据集按鈕

填寫表單並點擊确认按鈕

專案

填寫內容

维度名称

Function Calling測試資料

描述

選擇评测集類型

❗ 模型評測只能使用评测集類型的資料集,不支援訓練集

类型

上傳案例資料_Function_Calling.xlsx(ICMS 附件,file_id=151064,需線上下載)

3. 建立評測任務

介面位置:進入模型評測頁面,選擇评测任务Tab,點擊右上方创建评测任务按鈕

填寫表單並點擊开始评测按鈕

專案

填寫內容

维度名称

Function Calling測試

评测数据集

選擇Function Calling測試資料

裁判模型

選擇千問-Max

System Prompt

留空,本次測試不需要,更多說明請參見System Prompt和評分器Prompt的區別

评分器模版

選擇綜合評測,資料集選擇前面建立的“Function Calling測試資料”

评分范围

選擇前面建立的“Function Calling驗證”

通过阈值

本次測試不參與

4. 查看任務狀態

找到任務“Function Calling測試”,查看评测状态列:

  • 待执行:在請求高峰時段,評測任務需要排隊等待執行

  • 进行中:系統正在評測,請耐心等待

  • 评测完成:評測已完成,可以查看結果

  • 评测失败:評測任務執行失敗

  • 评测终止:評測任務被人工手動終止

點擊頁面右上方重新整理按鈕(image),當任務狀態變為评测完成後,單擊任务名称列,進入詳情頁。

  • 選擇数据明细Tab,查看每條資料詳細評分

    列名

    說明

    状态

    評測狀態:待執行、進行中、評測完成、評測失敗、評測終止

    序号

    樣本編號

    Prompt

    原始問題

    Completion

    參考答案

    Output

    模型產生的回答

    [評測維度名稱]

    和評測維度相同,本次評測維度名稱為“Function Calling驗證”,本列表示分析結果

    操作

    使用者可執行檔操作,例如點擊詳情按鈕,查看完整的問題、答案和評測結果

  • 選擇指标统计Tab,查看評測統計

    指標名稱

    說明

    樣本值

    综合得分

    評測維度平均分

    100

    通过率

    Pass的樣本佔比

    100%

    评测集总量

    測試資料總數

    2條

    已完成量

    已評測完成的數量

    2條

    未完成量

    未評測完成的數量

    0條

自訂評測:規則評估-文本相似性評測維度

適用情境:答案表述多樣但含義相同的情境,如翻譯、摘要、改寫

使用建議

  • 先在小樣本上測試,觀察通過率分布,再調整閾值

  • 關注詞序和精確匹配 → 選擇BLEU

  • 關注語義理解 → 選擇Cosine

  • 需要容錯 → 選擇Fuzzy Match

  • 關注關鍵資訊覆蓋 → 選擇ROUGE-L

操作步驟

1. 建立評測維度

介面位置:進入模型評測頁面,選擇评测维度Tab,點擊右上方创建评测维度按鈕

填寫表單點擊保存按鈕

專案

填寫內容

维度名称

翻譯品質

描述

評估中譯英的品質

类型

選擇规则评估-文本相似度

相似性演算法

選擇BLEU_4

评分器模版

左側:${output}
右側:${completion}







左側文字框填寫模型輸出變數,右側填寫參考答案變數

通过阈值

設定為0.4,相似性≥0.4判定為Pass,範圍0~1

相似性演算法如何選擇

演算法

特點

最佳情境

閾值建議

ROUGE-L

基於最長公用子序列

文本摘要

0.4-0.6

BLEU

基於n-gram精確匹配,對詞序敏感

機器翻譯

0.3-0.5

Cosine

向量空間相似性,捕捉語義

開放問答、語義理解

0.6-0.8

Fuzzy Match

基於編輯距離,容錯性強

OCR、語音辨識

0.7-0.9

Accuracy

完全符合

精確答案驗證

1.0

2. 準備測試資料

介面位置:進入資料管理頁面,點擊右上方新增数据集按鈕

填寫表單並點擊确认按鈕

專案

填寫內容

维度名称

中譯英測試資料

描述

選擇评测集類型

❗ 模型評測只能使用评测集類型的資料集,不支援訓練集

类型

上傳案例資料_中譯英.xlsx(ICMS 附件,file_id=151065,需線上下載)

3. 建立評測任務

介面位置:進入模型評測頁面,選擇评测任务Tab,點擊右上方创建评测任务按鈕

填寫表單並點擊开始评测按鈕

專案

填寫內容

维度名称

翻譯品質評測

评测模型

選擇千問-Max

裁判模型

選擇千問-Max

System Prompt

留空,本次測試不需要,更多說明請參見System Prompt和評分器Prompt的區別

评分器模版

選擇綜合評測,資料集選擇前面建立的“中譯英測試資料”

评分范围

選擇前面建立的“翻譯品質”

通过阈值

本次測試不參與

4. 查看任務狀態

找到任務“翻譯品質評測”,查看评测状态列:

  • 待执行:在請求高峰時段,評測任務需要排隊等待執行

  • 进行中:系統正在評測,請耐心等待

  • 评测完成:評測已完成,可以查看結果

  • 评测失败:評測任務執行失敗

  • 评测终止:評測任務被人工手動終止

點擊頁面右上方重新整理按鈕(image),當任務狀態變為评测完成後,單擊任务名称列,進入詳情頁。

  • 選擇数据明细Tab,查看每條資料詳細評分

    列名

    說明

    状态

    評測狀態:待執行、進行中、評測完成、評測失敗、評測終止

    序号

    樣本編號

    Prompt

    原始問題

    Completion

    參考答案

    Output

    模型產生的回答

    [評測維度名稱]

    和評測維度相同,本次評測維度名稱為“翻譯品質”,本列表示分析結果

    操作

    使用者可執行檔操作,例如點擊詳情按鈕,查看完整的問題、答案和評測結果

  • 選擇指标统计Tab,查看評測統計

    指標名稱

    說明

    樣本值

    综合得分

    評測維度平均分

    100

    通过率

    Pass的樣本佔比

    100%

    评测集总量

    測試資料總數

    3條

    已完成量

    已評測完成的數量

    3條

    未完成量

    未評測完成的數量

    0條

自訂評測:人工評估-分類型評測維度

適用情境:需要人工主觀判斷的情境,如創意性評估、專業品質審核

使用建議

  • 當模型輸出品質無法僅通過演算法或裁判模型精確判斷時,選用人工評估

  • 在建立維度時將每個標籤的判定標準寫在外部《評測指南》,並培訓標註員統一理解

  • 標籤設計要覆蓋所有可能輸出情況,並盡量使用簡潔明確的分類詞

  • 建議多名評分員交叉標註部分樣本,檢驗一致性

  • 避免一次標註過多資料,分批進行以降低疲勞影響

操作步驟

1. 建立評測維度

介面位置:進入模型評測頁面,選擇评测维度Tab,點擊右上方创建评测维度按鈕

填寫表單點擊保存按鈕

專案

填寫內容

维度名称

內容創意性

描述

評估內容創意性

类型

選擇人工评估-分类型

Pass

建立“優秀”和“良好”兩個標籤

Fail

建立“一般”和“較差”兩個標籤

2. 準備測試資料

介面位置:進入資料管理頁面,點擊右上方新增数据集按鈕

填寫表單並點擊确认按鈕

專案

填寫內容

维度名称

內容創意性測試資料

描述

選擇评测集類型

❗ 模型評測只能使用评测集類型的資料集,不支援訓練集

类型

上傳案例資料_內容創意性.xlsx(ICMS 附件,file_id=151066,需線上下載)

Completion留空,讓模型產生

3. 建立評測任務

介面位置:進入模型評測頁面,選擇评测任务Tab,點擊右上方创建评测任务按鈕

填寫表單並點擊开始评测按鈕

專案

填寫內容

维度名称

內容創意評測

评测模型

選擇千問-Plus

裁判模型

選擇千問-Max

System Prompt

留空,本次測試不需要,更多說明請參見System Prompt和評分器Prompt的區別

评分器模版

選擇自訂評測,資料集選擇前面建立的“內容創意性測試資料”

评分范围

選擇前面建立的“內容創意性”

通过阈值

本次測試不參與

4. 查看任務狀態

找到任務“內容創意評測”,查看评测状态列,為进行中狀態。人工評估必須手動標註,系統不會自動評分,單擊任务名称列,進入詳情頁。

  • 選擇数据明细Tab,在操作列點擊标注按鈕進行人工標註,所有資料標註完成後,任務的评测状态才會變為评测完成

    列名

    說明

    状态

    評測狀態:進行中

    序号

    樣本編號

    Prompt

    原始問題

    Completion

    參考答案

    Output

    模型產生的回答

    [評測維度名稱]

    和評測維度相同,本次評測維度名稱為“內容創意評測”,本列表示分析結果

    操作

    使用者可執行檔操作,例如點擊詳情按鈕,查看完整的問題、答案和評測結果

  • 選擇指标统计Tab,查看評測統計

    指標名稱

    說明

    樣本值

    综合得分

    評測維度平均分

    100

    得分明细 - 数据项分布

    分類型評估維度統計結果分布

    通过率

    Pass的樣本佔比

    100%

    评测集总量

    測試資料總數

    3條

    已完成量

    已評測完成的數量

    3條

    未完成量

    未評測完成的數量

    0條

使用熱門排行榜對比多個模型

適用情境:需要對比多個模型在相同評測維度下的表現,通過熱門排行榜直觀查看模型排名

使用建議

  • 對比同一系列不同規格的模型(如 qwen-max、qwen-plus、qwen-turbo)

  • 對比不同供應商的模型(如千問 vs DeepSeek)

  • 對比同一模型的不同版本或配置

前提條件:已建立自訂評測維度

操作步驟

1. 建立熱門排行榜

介面位置:進入模型評測頁面,選擇排行榜Tab,點擊右上方创建排行榜按鈕

填寫表單點擊确定按鈕

專案

填寫內容

维度名称

常識問答準確性熱門排行榜

描述

選擇已建立的評測維度,例如常識問答準確性

类型

可在此時選擇已有評測任務,或在下一步添加評測任務

說明

  • 每個熱門排行榜最多支援50個評測任務

  • 熱門排行榜建立後,評測維度不可修改

  • 同一個熱門排行榜內的所有任務使用相同的評測維度,確保對比的公平性

2. 添加評測任務到熱門排行榜

介面位置:進入模型評測頁面,選擇排行榜Tab,點擊熱門排行榜名稱進入詳情頁

熱門排行榜支援兩種方式添加评测任务

方式一:创建新任务

  1. 在熱門排行榜詳情頁點擊 添加评测任务 按鈕

  2. 點擊 创建新任务

  3. 系統自動跳轉到任務建立頁面,並自動關聯熱門排行榜:

    • 是否参与排行:自動勾選且鎖定,無法取消

    • 排行榜:自動填滿當前熱門排行榜名稱且鎖定

    • 评测维度:自動填滿熱門排行榜關聯的評測維度且鎖定

  4. 填寫其他必填項:

    • 任务名称:輸入任務名稱,建議包含模型資訊便於識別

    • 评测模型:選擇要評測的模型

    • 数据来源:選擇評測資料集

  5. 點擊 开始评测 按鈕

方式二:选择已有任务

  1. 在熱門排行榜詳情頁點擊 添加评测任务 按鈕

  2. 點擊 选择已有任务

  3. 從已完成的評測任務中選擇要加入熱門排行榜的任務

  4. 點擊 确定 按鈕

注意

  • 只有使用相同評測維度已完成任務才能加入熱門排行榜

  • 建議使用相同的評測資料集以確保對比結果的準確性

3. 查看熱門排行榜結果

介面位置:進入模型評測頁面,選擇排行榜Tab,點擊熱門排行榜名稱進入詳情頁

熱門排行榜詳情頁展示以下資訊:

列名

說明

排名

根據熱門排行榜得分自動計算排名,得分高的排名靠前

任务名称

評測任務的名稱

评测模型

任務使用的模型名稱

排行榜得分

該任務在當前評測維度下的綜合得分,範圍0~100

[評測維度名稱]

顯示該維度具體評分,例如“語義相似性”維度顯示平均相似性分數

操作

刪除任務(將任務從熱門排行榜移除,不影響任務本身)

說明

  • 排行榜得分會隨著任務評測進度即時更新

  • 評測進行中的任務得分列顯示“-”

  • 點擊任务名称可查看該任務的詳細評測資料

進階技巧

評測維度設計最佳實務

單一職責

  • 每個評測維度只關注一個評測目標

  • 避免混合多個標準

  • 例如:不要在"準確性"維度中同時考核"流暢性"

量化標準

  • 盡量使用客觀、可量化的標準

  • 減少主觀性

  • 為每個分數檔提供明確的判定條件

迭代最佳化

  • 根據評測結果反饋,持續最佳化Prompt

  • 定期人工抽查,驗證評測準確性

  • 對比人工評分和AI評分,調整評測標準

Prompt編寫技巧

請前往阿里雲Model StudioPrompt最佳實務外掛程式學習相關知識,協助您在不進行模型調優的情況下激發模型的最大潛力。

成本最佳化建議

合理選擇評測方式

  • 規則評估成本最低,適合格式化輸出驗證

  • 大模型評估成本較高,用於需要語義理解的情境

  • 人工評估成本最高,僅用於必須人工判斷的情況

使用推理結果集

  • 對於需要頻繁評測的基準模型,將其輸出儲存為推理結果集

  • 避免重複調用模型,降低推理成本

分階段評測

  • 先用小規模資料集(50-100條)驗證配置

  • 確認配置正確後,再擴大到200-500條

批量評測

  • 一次評測多個模型,提高效率

  • 在同一個評測任務中選擇多個模型

評測結果分析方法

關注分數分布

  • 查看各分數檔的樣本數量

  • 識別分數集中的問題(如全部集中在3分)

  • 調整評分標準或閾值

分析典型樣本

  • 查看高分樣本:瞭解模型優勢

  • 查看低分樣本:識別模型不足

  • 查看邊界樣本:最佳化評測標準

對比不同模型

  • 不要只看總分,要看不同情境下的表現

  • 識別各模型的強項和弱項

  • 根據業務優先順序選擇合適的模型

追蹤模型迭代

  • 建立定期評測機制

  • 記錄每次調優後的評測結果

  • 分析調優方向是否正確

常見問題排查

評測結果不符合預期

  1. 檢查測試資料是否代表業務情境

  2. 審查評測維度Prompt是否清晰

  3. 嘗試調整評分範圍和閾值

  4. 考慮更換裁判模型或評分器模板

評分過於集中

  1. 評分標準過於寬泛 → 細化每個分數檔的描述

  2. 測試資料缺乏多樣性 → 增加邊界和異常樣本

  3. 裁判模型傾向保守 → 更換推理能力更強的模型

不同評測維度結果衝突

  1. 這很正常,說明模型在不同維度有不同表現

  2. 根據業務優先順序,賦予不同維度不同權重

  3. 不要只看單一維度,要綜合決策

如果模型輸出頻繁出現以下缺陷,建議您考慮引入知識庫

  • 模型的輸出和參考答案完全無關(模型明顯缺失相關的背景知識)

  • 模型的輸出和參考答案部分相關(模型有背景知識但已淘汰)

計費說明

模型評測的費用主要來自兩部分:和。

被評測模型的推理費用

模型類型

是否計費

計費說明

預置模型(如qwen-max、qwen-plus等)

按Token消耗量計費

獨立部署的模型(調優後部署)

不額外計費

被評測模型計費公式

輸入Token包含

  • System Prompt(如果配置了)

  • 評測資料中的Prompt(使用者問題)

輸出Token包含

  • 模型產生的回答(Output)

裁判模型的評分費用(限時免費)

大模型評估(數值型、分類型)涉及到裁判模型的使用。

完整費用計算樣本

情境:使用qwen-plus評測100條資料,採用大模型评估-数值型,裁判模型為qwen-max

假設:每條Prompt平均50 Token / Output平均200 Token / 評分器Prompt平均500 Token / 裁判模型輸出平均5 Token

費用計算(qwen-plus輸入\$0.26/1M tokens,輸出\$0.78/1M tokens;裁判模型按Model Studio控制台定價計費):

  • 被評測模型:5,000/1,000,000 × 0.26 + 20,000/1,000,000 × 0.78 = \$0.0013 + \$0.0156 = \$0.017

  • 裁判模型:按Model Studio控制台當前定價計費

  • 總費用 ≈ \$0.017(不含裁判模型費用)

價格參考

最新價格:請參見Model Studio控制台

注意

  • 價格可能隨時調整,請以控制台顯示為準

  • 部分模型可能有限時優惠活動

下一步

  • 如果您對參評模型的效果感到滿意,即可開始模型調用,將模型整合到您的業務鏈路中。

  • 如果您不滿意參評模型的效果,可以選擇其他模型重新評測。您也可以考慮學習並通過ACA Generative AI Engineer認證,該認證配套的免費課程能協助您系統瞭解大模型的能力和應用情境,以及如何最佳化大模型。