全部產品
Search
文件中心

Platform For AI:大模型評測最佳實務

更新時間:Jul 30, 2025

在大模型時代,模型評測是衡量效能、精選和最佳化模型的關鍵環節,對加快AI創新和實踐至關重要。PAI大模型評測平台支援多樣化的評測情境,如不同基本模型、微調版本和量化版本的對比分析。本文為您介紹針對於不同使用者群體及對應資料集類型,如何?更全面準確且具有針對性的模型評測,從而在AI領域可以更好地取得成就。

背景資訊

內容簡介

在大模型時代,隨著模型效果的顯著提升,模型評測的重要性日益凸顯。科學、高效的模型評測,不僅能協助開發人員有效地衡量和對比不同模型的效能,更能指導他們進行精準地模型選擇和最佳化,加速AI創新和應用落地。因此,建立一套平台化的大模型評測最佳實務愈發重要。

本文為PAI大模型評測最佳實務,旨在指引AI開發人員使用PAI平台進行大模型評測。藉助本文,您可以輕鬆構建出既能反映模型真實效能,又能滿足行業特定需求的評測過程,助力您在人工智慧賽道上取得更好的成績。最佳實務包括如下內容:

  • 如何準備和選擇評測資料集

  • 如何選擇適合業務的開源或微調後模型

  • 如何建立評測任務並選擇合適的評價指標

  • 如何在單任務或多任務情境下解讀評測結果

平台特點

PAI大模型評測平台,適合您針對不同的大模型評測情境,進行模型效果對比。例如:

  • 不同基本模型對比:Qwen2-7B-Instruct vs. Baichuan2-7B-Chat

  • 同一模型不同微調版本對比:Qwen2-7B-Instruct 在私人領域資料下訓練不同epoch版本效果對比

  • 同一模型不同量化版本對比:Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8

考慮到不同開發群體的特定需求,本文將以企業開發人員演算法研究人員兩個典型群體為例,探討如何結合企業的自訂資料集與常用的公開資料集(如MMLU、C-Eval等),實現更全面準確並具有針對性的模型評測,尋找適合您業務需求的大模型。本實踐特點如下:

  • 端到端完整評測鏈路,無需代碼開發,支援主流開源大模型,與大模型微調後的一鍵評測。

  • 支援使用者自訂資料集上傳,內建10+通用NLP評測指標,一覽式結果展示,無需再開發評測指令碼。

  • 支援多個領域的常用公開資料集評測,完整還原官方評測方法,雷達圖全景展示,省去逐個下載評測集和熟悉評測流程的繁雜。

  • 支援多模型多任務同時評測,評測結果圖表式對比展示,輔以單條評測結果詳情,方便全方位比較分析。

  • 評測過程公開透明,結果可複現。評測代碼開源在與ModelScope共建的開原始碼庫eval-scope中,方便查看細節與複現評測結果。

計費說明

  • PAI大模型評測依託於PAI-快速開始產品。快速開始本身不收費,但使用快速開始進行模型評測時,可能產生DLC評測任務費用,計費詳情請參見分布式訓練(DLC)計費說明

  • 如果選擇自訂資料集評測,使用OSS儲存時會產生相關費用,計費詳情請參見OSS計費概述

情境一:面向企業開發人員的自訂資料集評測

企業通常會積累豐富的私人領域資料。如何充分利用好這部分資料,是企業使用大模型進行演算法最佳化的關鍵。因此,企業開發人員在評測開源微調後的大模型時,往往會基於私人領域下積累的自訂資料集,以便於更好地瞭解大模型在私人領域的效果。

對於自訂資料集評測,PAI大模型評測平台使用NLP領域標準的文本匹配方式,計算模型輸出結果和真實結果的匹配度,值越大,模型越好。使用該評測方式,基於自己情境的獨特資料,可以評測所選模型是否適合自己的情境。

以下將重點展示使用過程中的一些關鍵點,更詳細的操作細節,請參見模型評測

  1. 準備自訂評測集。

    1. 自訂評測集格式說明:

      基於自訂資料集進行評測時,需要準備JSONL格式的評測集檔案(樣本檔案:llmuses_general_qa_test.jsonl,76 KB)。格式如下:

      [{"question": "中國發明了造紙術,是否正確?", "answer": "正確"}]
      [{"question": "中國發明了火藥,是否正確?", "answer": "正確"}]

      使用question標識問題列,answer標識答案列。

    2. 上傳符合格式的評測集檔案至OSS,詳情請參見上傳檔案至OSS

    3. 根據OSS中評測集檔案建立評測集。詳情請參見建立資料集:從阿里雲雲產品

  2. 選擇適合業務的模型。

    使用開源模型

    PAI控制台左側導覽列快速開始 > Model Gallery頁面中,滑鼠懸浮在模型卡片上,對於可評測的模型,會顯示評測按鈕。

    image

    使用微調後的模型

    PAI控制台左側導覽列快速開始 > Model Gallery頁面中,滑鼠懸浮在模型卡片上,對於可評測的模型,會顯示評測按鈕。對可評測的模型進行微調訓練,然後在快速開始 > Model Gallery > 任務管理 > 訓練任務頁面中單擊已訓練成功的任務,右上方會顯示評測按鈕。

    image

    當前模型評測功能支援HuggingFace所有AutoModelForCausalLM類型的模型。

  3. 建立並運行評測任務。

    在模型詳情頁右上方單擊評測,建立評測任務。

    image

    關鍵參數配置如下:

    參數

    描述

    基礎配置

    結果輸出路徑

    指定最終評測結果儲存的OSS路徑。

    自訂資料集配置

    評測方法

    取值如下:

    • 通用指標評測:計算待評測模型的預測結果與參考答案的文本相似性,包括ROUGE、BLEU等指標,適用於提供確定答案的情境。

    • 球證模型評測:使用阿里雲PAI提供的球證模型,對待評測模型的答案進行自動評分,可以不提供參考答案,適用於複雜答案或答案不唯一的情境。結果包括整體評分及5個細分指標評分。

    球證模型服務Token

    當評測方法選擇球證模型評測時,需要配置該參數。請前往球證模型頁面擷取。

    資料集來源

    選擇現有資料集。

    選擇現有資料集

    選擇上文所建立的自訂資料集。

    資源配置

    資源群組類型

    根據實際情況,選擇公用資源群組、通用計算資源或靈駿智算資源。

    任務資源

    如果資源群組類型為公用資源群組時,預設會根據您的模型規格推薦相應資源。

    單擊提交,任務開始運行。

  4. 查看評測結果。

    單任務結果

    快速開始 > Model Gallery > 任務管理 > 評測任務頁面中評測任務的狀態列顯示已成功時,單擊操作列的查看報告,在自訂資料集評測結果頁面查看模型在ROUGE和BLEU系列指標上的得分。

    image

    此外還會展示評測檔案每條資料的評測詳情。

    多任務對比結果

    快速開始 > Model Gallery > 任務管理 > 評測任務頁面中選中要對比的模型評測任務,右上方單擊對比,在自訂資料集評測結果頁面查看對比結果。

    image

    評測結果解析:

    自訂資料集的預設評測指標包括:rouge-1-f、rouge-1-p、rouge-1-r、rouge-2-f、rouge-2-p、rouge-2-r、rouge-l-f、rouge-l-p、rouge-l-r、bleu-1、bleu-2、bleu-3、bleu-4。

    • rouge-n類指標計算N-gram(連續的N個詞)的重疊度,其中rouge-1和rouge-2是最常用的,分別對應unigram和bigram,rouge-l指標基於最長公用子序列(LCS)。

    • bleu (Bilingual Evaluation Understudy) 是另一種流行的評估機器翻譯品質的指標,它通過測量機器翻譯輸出與一組參考翻譯之間的N-gram重疊度來評分。其中bleu-n指標計算N-gram的匹配度。

    最終評測結果會儲存到之前設定的結果輸出路徑中。

情境二:面向演算法研究人員的公開資料集評測

演算法研究通常建立在公開資料集上。研究人員在選擇開源模型,或對模型進行微調後,都會參考其在權威公開資料集上的評測效果。然而,大模型時代的公開資料集種類繁多,研究人員需要花費大量時間調研選擇適合自己領域的公開資料集,並熟悉每個資料集的評測流程。為方便演算法研究人員,PAI接入了多個領域的公開資料集,並完整還原了各個資料集官方指定的評測metrics,以便擷取最準確的評測效果反饋,助力更高效的大模型研究。

在公開資料集評測中,PAI大模型評測平台通過對開源的評測資料集按領域分類,對大模型進行綜合能力評估,例如數學能力、知識能力、推理能力等,值越大,模型越好,這種評測方式也是大模型領域最常見的評測方式。

以下將重點展示使用過程中的一些關鍵點,更詳細的操作細節,請參見模型評測

  1. 支援的公開資料集說明:

    目前PAI維護的公開資料集包括MMLU、TriviaQA、HellaSwag、GSM8K、C-Eval、CMMLU、TruthfulQA,其他公開資料集陸續接入中。

    資料集

    大小

    資料量

    領域

    MMLU

    166 MB

    14042

    知識

    TriviaQA

    14.3 MB

    17944

    知識

    C-Eval

    1.55 MB

    12342

    中文

    CMMLU

    1.08 MB

    11582

    中文

    GSM8K

    4.17 MB

    1319

    數學

    HellaSwag

    47.5 MB

    10042

    推理

    TruthfulQA

    0.284 MB

    816

    安全性

  2. 選擇適合業務的模型。

    使用開源模型

    PAI控制台左側導覽列快速開始 > Model Gallery頁面中,滑鼠懸浮在模型卡片上,對於可評測的模型,會顯示評測按鈕。

    image

    使用微調後的模型

    PAI控制台左側導覽列快速開始 > Model Gallery頁面中,滑鼠懸浮在模型卡片上,對於可評測的模型,會顯示評測按鈕。對可評測的模型進行微調訓練,然後在快速開始 > Model Gallery > 任務管理 > 訓練任務頁面中單擊已訓練成功的任務,右上方會顯示評測按鈕。

    image

    當前模型評測功能支援HuggingFace所有AutoModelForCausalLM類型的模型。

  3. 建立並運行評測任務。

    在模型詳情頁右上方單擊評測,建立評測任務。

    image

    參數

    描述

    基礎配置

    結果輸出路徑

    指定最終評測結果儲存的OSS路徑。

    公開資料集配置

    公用資料集

    選擇公開資料集。

    資源配置

    資源群組類型

    根據實際情況,選擇公用資源群組、通用計算資源或靈駿智算資源。

    任務資源

    如果資源群組類型為公用資源群組時,預設會根據您的模型規格推薦相應資源。

    單擊提交,任務開始運行。

  4. 查看評測結果。

    單任務結果

    快速開始 > Model Gallery > 任務管理 > 評測任務頁面中評測任務的狀態列顯示已成功時,單擊操作列的查看報告,在公用資料集評測結果頁面查看模型在各領域及資料集上的得分。

    image

    多任務對比結果

    快速開始 > Model Gallery > 任務管理 > 模型評測頁面中選中要對比的模型評測任務,右上方單擊對比,在公用資料集評測結果頁面查看對比結果。

    image

    評測結果解析:

    • 左圖展示了模型在不同領域的得分情況。每個領域可能會有多個與之相關的資料集,對屬於同一領域的資料集,PAI大模型評測平台會把模型在這些資料集上的評測得分取均值,作為領域得分。

    • 右圖展示模型在各個公開資料集的得分情況。每個公開資料集的評測範圍詳見公開資料集說明

    最終評測結果會儲存到之前設定的結果輸出路徑中。

相關文檔

模型評測