全部產品
Search
文件中心

Platform For AI:模型評測(ModelEval)

更新時間:Dec 24, 2025

模型評測(ModelEval)是PAI平台提供的模型評估工具,用於全面、高效地評估大語言模型在特定或通用情境下的表現。您可以使用權威公開資料集或自訂業務資料集,量化分析模型的各項能力,為模型選型、微調最佳化和版本迭代提供資料支援。

快速開始:5分鐘完成首次模型評測

本節將引導您用最少的配置,完成一次最簡單的評測任務:使用公開的 CMMLU 資料集評測通義千問 Qwen3-4B 模型。

  1. 登入PAI控制台,在左側導覽列,選擇 模型應用 > 模型評測(ModelEval)

  2. 在模型評測頁面,單擊建立任務

  3. 基礎配置:可使用系統自動產生的任務名稱結果輸出路徑

    說明

    若工作空間未設定過OSS預設儲存路徑,請手動選擇結果輸出路徑。

  4. 評測模式配置:選擇單模型評測

  5. 配置評測對象

    • 評測物件類型選擇公用模型

    • 公用模型下拉框中,搜尋並選擇 Qwen3-4B

  6. 配置評測方式

    • 勾選公開資料集評測

    • 在資料集列表中,勾選CMMLU

  7. 配置資源

    • 資源群組類型選擇公用資源群組(隨用隨付)資源配置方法選擇一般資源

    • 資源規格下拉框中,選擇一個GPU規格,例如 ecs.gn7i-c8g1.2xlarge (24 GB)。

  8. 提交任務:單擊頁面底部的確定

任務提交後,頁面將自動跳轉至任務詳情。等待任務狀態變為已成功後,即可在評測報告頁簽瞭解Qwen3-4B模型在CMMLU資料集上的表現。

功能詳解

配置評測對象

模型評測支援四種評測對象來源,您可以根據模型或服務的部署位置靈活選擇。

評測物件類型

說明

適用情境

公用模型

PAI平台Model Gallery中的模型

快速評估主流開源大模型效果

自訂模型

AI資產管理 > 模型註冊的自訂模型

重要

請確保vLLM架構可相容該模型。

評估經過微調或定製的模型

PAI-EAS服務

已部署的PAI-EAS線上推理服務

評估生產環境中的模型服務

自訂服務

任意符合OpenAI介面規範的模型服務

評估第三方或自建模型服務

配置評測方式

您可以選擇使用自訂資料集、公開資料集,或兩者結合進行評測。

自訂資料集評測

使用您自己的資料集進行評測,最貼近實際業務情境。

  • 資料集格式:必須是 JSONL 格式,UTF-8編碼,每行一個JSON對象。

  • 資料集上傳:將準備好的資料集檔案上傳到 OSS,並在配置頁面填寫其OSS路徑。

評測方法

通用指標評測
球證模型評測

用途

當您有明確的標準答案時,用於計算模型輸出與標準答案的文本相似性。適用於翻譯、摘要、知識庫問答等任務。

當問題沒有唯一標準答案時(如開放式對話、內容創作),藉助一個強大的“球證模型”來對模型的回答品質進行打分。

資料集格式

JSON對象中必須包含 question(問題)和 answer(標準答案)兩個欄位。

{"question": "中國的首都是哪裡?", "answer": "北京"}

JSON對象中可以僅包含 question(問題)欄位,也可以提供answer(標準答案)欄位。

{"question": "請介紹一下人工智慧的發展曆程"}

核心指標

  • ROUGE (ROUGE-1, ROUGE-2, ROUGE-L):基於召回率,衡量模型輸出覆蓋了多少標準答案中的資訊點。

  • BLEU (BLEU-1, BLEU-2,BLEU-3, BLEU-4):基於精確率,衡量模型輸出中有多少內容是準確的。

系統會將 question 和被評測模型的輸出,一同發送給球證模型,由其從相關性、準確性、流暢性等多個維度進行綜合評分。

公開資料集評測

使用業界公認的權威資料集進行評測,便於將模型能力與行業基準進行對比。

  • 用途:進行模型選型對比、發布前的基準測試、評估模型的通用能力。

  • 配置:勾選公開資料集評測,並從列表中選擇一個或多個資料集。

  • 支援的資料集

    • LiveCodeBench:代碼處理能力評測。

    • Math500:數學推理能力評測(500道高難度的數學競賽題目)。

    • AIME25:數學推理能力評測(基於2025年美國數學邀請賽題目)。

    • AIME24:數學推理能力評測(基於2024年美國數學邀請賽題目)。

    • CMMLU: 中文多學科語言理解評測。

    • MMLU: 英文多學科語言理解評測。

    • C-Eval: 中文綜合能力評估。

    • GSM8K: 數學推理能力評測。

    • HellaSwag: 常識推理能力評測。

    • TruthfulQA: 真實性評測。

任務管理

在模型評測頁面,可以對評測任務進行生命週期管理。

  • 查看報告:對於狀態為 已成功 的任務,單擊此按鈕可查看詳細評測報告。

  • 對比:勾選2至5個已成功的任務,單擊對比按鈕,可以並排比較它們在各項指標上的表現。

  • 停止:對於 運行中 的任務,可以手動停止。此操作無法復原,任務無法恢複執行,已消耗的計算資源不會退還。

  • 刪除:刪除任務記錄。此操作不可恢複。