全部產品
Search
文件中心

Platform For AI:模型評測

更新時間:Mar 13, 2025

Model Gallery預置了多種LLM預訓練模型。本文為您介紹如何在Model Gallery中,通過模型評測功能全方位評估模型能力尋找適合您業務需求的大語言模型。

簡介

模型評測功能支援從兩個維度對大語言模型進行評測:基於自訂資料集和公開資料集評測。

  • 基於自訂資料集的評測包括:

    • 基於規則的評測,用ROUGE和BLEU系列指標計算模型預測結果和真實結果之間的差距;

    • 基於球證模型的評測,基於PAI提供的球證模型,對問答對【問題-模型輸出】逐條打分,並統計得分情況,用於評價模型效能;

  • 基於公開資料集的評測是通過在多種公開資料集上載入並執行模型預測,根據每個資料集特定的評價架構,為您提供行業標準的評估參考。

當前模型評測支援HuggingFace所有AutoModelForCausalLM類型的模型。

最新特性

  • 現已支援球證模型打分,使用基於Qwen2定製的大模型作為球證,對被評估模型的產生結果進行打分,適用於開放性、複雜問答情境。限時免費中,歡迎在模型評測-專家模式中試用。[2024.09.01]

使用情境

模型評測是模型開發中重要的環節,您可以結合實際業務採礦模型評測應用。例如在以下情境中使用模型評測功能:

  • 模型基準測試,基於公開資料集對模型通用能力進行評估,並與業界模型或基準進行對比;

  • 領域能力評估,將模型應用到特定領域,比較不同領域內預訓練和微調後的模型效果,以評估模型應用領域知識的能力;

  • 模型迴歸測試,您可以構建迴歸測試集,通過模型評測功能來評估模型在實際業務情境下的表現,是否滿足上線標準。

前提條件

如果您需要對模型進行評測,則需要建立OSS Bucket儲存空間。具體操作請參見控制台快速入門

計費說明

使用模型評測時需要收取OSS儲存費用和DLC的評測任務費用,計費詳情參見OSS計費概述分布式訓練(DLC)計費說明

資料準備

模型評測功能支援基於自訂資料集和公開資料集(例如C-Eval)完成評測。

  • 公開資料集:已經由PAI上傳並維護,可以直接使用。

    目前PAI維護了MMLUTriviaQAHellaSwagGSM8KC-EvalTruthfulQA,其他公開資料集陸續接入中。

  • 自訂資料集:如果需要基於自訂評測檔案,需要提供JSONL格式的評測檔案,可自行上傳至OSS,並建立自訂資料集,詳情參見上傳OSS檔案建立及管理資料集。檔案格式如下:

    使用question標識問題列,answer標識答案列,也可以在評測頁面選擇指定列。如果僅需要自訂資料集-球證模型評測,則answer列選填。

    {"question": "中國發明了造紙術,是否正確?", "answer": "正確"}
    {"question": "中國發明了火藥,是否正確?", "answer": "正確"}

    檔案樣本:eval.jsonl

操作流程

選定模型

尋找模型的具體操作步驟如下:

  1. 進入Model Gallery頁面。

    1. 登入PAI控制台

    2. 在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。

    3. 在左側導覽列選擇快速開始 > Model Gallery,進入Model Gallery頁面。

  2. 尋找適合業務的模型。

    1. 在模型列表中,根據模型描述資訊進行查看,對於可評測的模型,會展示評測按鈕。image.png

      image

    2. 點擊左上方任務管理,開啟訓練工作清單頁,點擊進入LLM訓練任務詳情頁,對於支援評測的模型,基於其二次訓練的模型也支援評測:

      image

評測模型

模型評測具有兩種模式,極簡模式和專家模式。

極簡模式

可直接選擇公開評測集或者已建立好的自訂資料集,快速使用模型評測功能(如需球證評測,請切換到專家模式)。

image

  1. 模型評測頁面填寫評測任務名。

  2. 填寫評測結果儲存路徑。選擇評測結果輸出路徑時,請保證路徑僅被該評測任務使用,否則會導致不同評測任務間結果的互相覆蓋。

    image.png

  3. 選擇評測資料集。資料集可選擇自訂資料集和PAI提供的公開資料集,其中自訂資料集需要滿足資料準備章節中的格式要求。

    image

    image

  4. 選擇計算資源,需要GPU類型計算資源(推薦選擇A10或者V100),在左下角提交評測任務,提交成功後自動跳轉到評測任務詳情頁,等待任務成功,查看評測報告。

image

專家模式

支援同時選擇公開資料集和自訂資料集完成評測,支援設定超參數,支援球證模型評測,支援選擇多個公開資料集。

image

  1. 左上方選項切換到專家模式

    image.png

  2. 專家模式支援同時選擇公開資料集和自訂資料集,其中:

    • 公開資料集可以選擇多個。

    • 自訂資料集支援球證模型評測和通用指標評測。

    • 自訂資料集支援指定問題和參考答案列,其中如果僅需要球證模型評測,則參考答案列可空。

    • 支援直接使用OSS中符合格式要求的資料檔案。

      image

      image

      image

  3. 配置被評測模型推理超參數。

    image

  4. 左下角點擊提交任務,提交成功後自動跳轉到評測任務詳情頁,等待任務成功,點擊評測報告,即可查看評測報告。

image

查看評測結果

評測工作清單

  • 在Model Gallery頁面,單擊搜尋方塊左側的任務管理

    image.png

  • 任務管理頁面,選擇模型評測標籤頁。

    image

單任務結果

模型評測列表頁,點擊評測任務的查看報告選項,即可進入評測任務詳情頁,在詳情頁評測報告一欄會展示模型在自訂資料集和公開資料集上的評測得分。

  • 自訂資料集評測結果頁面

    image

    • 如果評測任務選中了通用指標評測,則通過雷達圖展示了該模型在ROUGE和BLEU系列指標上的得分。自訂資料集的預設評測指標包括:rouge-1-f,rouge-1-p,rouge-1-r,rouge-2-f,rouge-2-p,rouge-2-r,rouge-l-f,rouge-l-p,rouge-l-r,bleu-1,bleu-2,bleu-3,bleu-4。

      • rouge指標:

        1. rouge-n類指標計算N-gram(連續的N個詞)的重疊度,其中rouge-1和rouge-2是最常用的,分別對應unigram和bigram:

          • rouge-1-p (Precision):系統摘要中的unigrams與參考摘要中的unigrams匹配的比例。

          • rouge-1-r (Recall):參考摘要中的unigrams在系統摘要中出現的比例。

          • rouge-1-f (F-score):精確率和召回率的調和平均數。

          • rouge-2-p (Precision):系統摘要中的bigrams與參考摘要中的bigrams匹配的比例。

          • rouge-2-r (Recall):參考摘要中的bigrams在系統摘要中出現的比例。

          • rouge-2-f (F-score):精確率和召回率的調和平均數。

        2. rouge-l 指標基於最長公用子序列(LCS):

          • rouge-l-p (Precision):基於LCS的系統摘要與參考摘要的匹配程度的精確率。

          • rouge-l-r (Recall):基於LCS的系統摘要與參考摘要的匹配程度的召回率。

          • rouge-l-f (F-score):基於LCS的系統摘要與參考摘要的匹配程度的F-score。

      • bleu指標:

        bleu (Bilingual Evaluation Understudy) 是另一種流行的評估機器翻譯品質的指標,它通過測量機器翻譯輸出與一組參考翻譯之間的N-gram重疊度來評分。

        • bleu-1:考察unigram的匹配。

        • bleu-2:考察bigram的匹配。

        • bleu-3:考察trigram(連續三個詞)的匹配。

        • bleu-4:考察4-gram的匹配。

    • 如果評測任務選中了球證模型評測,則通過列表展示球證模型評分的統計指標。

      • 球證模型是PAI基於Qwen2模型微調後得到,在開源的Alighbench等資料集上表現與GPT-4持平,部分情境優於GPT-4的評測效果。

      • 頁面展示了球證模型對被評測模型的打分的四個統計指標:

        • Mean,表示球證大模型對模型產生結果打分的平均值(不含無效打分),最低值1,最大值5,越大表示模型回答越好。

        • Median,表示球證大模型對模型產生結果打分的中位元(不含無效打分),最低值1,最大值5,越大表示模型回答越好。

        • StandardDeviation,表示球證大模型對模型產生結果打分的標準差(不含無效打分),在均值和中位元相同情況下,標準差越小,模型越好。

        • Skewness,表示球證大模型打分結果的分布偏度(不含無效打分),正偏度表示分布右側(高分段)有較長尾部;負偏度則表示左側(低分段)有較長尾部。

    • 此外還會在頁面底部展示評測檔案每條資料的評測詳情。

  • 公開資料集評測結果頁面

    如果評測任務選擇了公開資料集,則在雷達圖展示該模型在公開資料集上的得分。

    image

    • 左側圖片展示了模型在不同領域的得分情況。每個領域可能會有多個與之相關的資料集,對屬於同一領域的資料集,我們會把模型在這些資料集上的評測得分取均值,作為領域得分。

    • 右側圖片展示模型在各個公開資料集的得分情況。每個公開資料集的評測範圍見資料集官方介紹。

多評測任務對比

當需要對比多個模型的評測結果時,可以將它們在彙總在一個頁面上展示,以便於比較效果。具體操作為在評測工作清單頁左側選擇想要對比的模型評測任務,右上方點擊對比,進入對比頁面:

image

  • 自訂資料集對比結果

    image

  • 公開資料集對比結果

    image

結果分析

模型評測包含自訂資料集和公開資料集的結果:

  • 自訂資料集評測:

    • 使用NLP領域標準的文本匹配方式,計算模型輸出結果和真實結果的匹配度,值越大,模型越好。

    • 使用球證模型評價被評測模型的輸出,可以發揮大語言模型的優勢,從語意層面更準確的評價模型輸出的好壞。均值和中位元越高,標準差越小,模型越好。

    • 使用該評測方式,基於自己情境的獨特資料,可以評測所選模型是否適合自己的情境。

  • 公開資料集評測:使用開源的各領域評測資料集,對LLM模型進行綜合能力評估,例如數學能力、代碼能力等,值越大,模型越好,這種評測方式是LLM領域最常見的評測方式。PAI正在跟隨業界逐步接入更多公開評測集。

附錄

除了控制台頁面,也可以通過PAI Python SDK使用模型評測功能,詳情可參考如下NoteBook: