模型評測(ModelEval)是PAI平台提供的模型評估工具,用於全面、高效地評估大語言模型在特定或通用情境下的表現。您可以使用權威公開資料集或自訂業務資料集,量化分析模型的各項能力,為模型選型、微調最佳化和版本迭代提供資料支援。
快速開始:5分鐘完成首次模型評測
本節將引導您用最少的配置,完成一次最簡單的評測任務:使用公開的 CMMLU 資料集評測通義千問 Qwen3-4B 模型。
登入PAI控制台,在左側導覽列,選擇 模型應用 > 模型評測(ModelEval)。
在模型評測頁面,單擊建立任務。
基礎配置:可使用系統自動產生的任務名稱和結果輸出路徑。
說明若工作空間未設定過OSS預設儲存路徑,請手動選擇結果輸出路徑。
評測模式配置:選擇單模型評測。
配置評測對象:
評測物件類型選擇公用模型。
在公用模型下拉框中,搜尋並選擇
Qwen3-4B。
配置評測方式:
勾選公開資料集評測。
在資料集列表中,勾選CMMLU。
配置資源:
資源群組類型選擇公用資源群組(隨用隨付),資源配置方法選擇一般資源。
在資源規格下拉框中,選擇一個GPU規格,例如
ecs.gn7i-c8g1.2xlarge(24 GB)。
提交任務:單擊頁面底部的確定。
任務提交後,頁面將自動跳轉至任務詳情。等待任務狀態變為已成功後,即可在評測報告頁簽瞭解Qwen3-4B模型在CMMLU資料集上的表現。
功能詳解
配置評測對象
模型評測支援四種評測對象來源,您可以根據模型或服務的部署位置靈活選擇。
評測物件類型 | 說明 | 適用情境 |
公用模型 | PAI平台Model Gallery中的模型 | 快速評估主流開源大模型效果 |
自訂模型 | 在註冊的自訂模型 重要 請確保vLLM架構可相容該模型。 | 評估經過微調或定製的模型 |
PAI-EAS服務 | 已部署的PAI-EAS線上推理服務 | 評估生產環境中的模型服務 |
自訂服務 | 任意符合OpenAI介面規範的模型服務 | 評估第三方或自建模型服務 |
配置評測方式
您可以選擇使用自訂資料集、公開資料集,或兩者結合進行評測。
自訂資料集評測
使用您自己的資料集進行評測,最貼近實際業務情境。
資料集格式:必須是 JSONL 格式,UTF-8編碼,每行一個JSON對象。
資料集上傳:將準備好的資料集檔案上傳到 OSS,並在配置頁面填寫其OSS路徑。
評測方法 | 通用指標評測 | 球證模型評測 |
用途 | 當您有明確的標準答案時,用於計算模型輸出與標準答案的文本相似性。適用於翻譯、摘要、知識庫問答等任務。 | 當問題沒有唯一標準答案時(如開放式對話、內容創作),藉助一個強大的“球證模型”來對模型的回答品質進行打分。 |
資料集格式 | JSON對象中必須包含 | JSON對象中可以僅包含 |
核心指標 |
| 系統會將 |
公開資料集評測
使用業界公認的權威資料集進行評測,便於將模型能力與行業基準進行對比。
用途:進行模型選型對比、發布前的基準測試、評估模型的通用能力。
配置:勾選公開資料集評測,並從列表中選擇一個或多個資料集。
支援的資料集:
LiveCodeBench:代碼處理能力評測。
Math500:數學推理能力評測(500道高難度的數學競賽題目)。
AIME25:數學推理能力評測(基於2025年美國數學邀請賽題目)。
AIME24:數學推理能力評測(基於2024年美國數學邀請賽題目)。
CMMLU: 中文多學科語言理解評測。
MMLU: 英文多學科語言理解評測。
C-Eval: 中文綜合能力評估。
GSM8K: 數學推理能力評測。
HellaSwag: 常識推理能力評測。
TruthfulQA: 真實性評測。
任務管理
在模型評測頁面,可以對評測任務進行生命週期管理。
查看報告:對於狀態為 已成功 的任務,單擊此按鈕可查看詳細評測報告。
對比:勾選2至5個已成功的任務,單擊對比按鈕,可以並排比較它們在各項指標上的表現。
停止:對於 運行中 的任務,可以手動停止。此操作無法復原,任務無法恢複執行,已消耗的計算資源不會退還。
刪除:刪除任務記錄。此操作不可恢複。