在大模型時代,模型評測是衡量效能、精選和最佳化模型的關鍵環節,對加快AI創新和實踐至關重要。PAI大模型評測平台支援多樣化的評測情境,如不同基本模型、微調版本和量化版本的對比分析。本文為您介紹針對於不同使用者群體及對應資料集類型,如何?更全面準確且具有針對性的模型評測,從而在AI領域可以更好地取得成就。
背景資訊
內容簡介
在大模型時代,隨著模型效果的顯著提升,模型評測的重要性日益凸顯。科學、高效的模型評測,不僅能協助開發人員有效地衡量和對比不同模型的效能,更能指導他們進行精準地模型選擇和最佳化,加速AI創新和應用落地。因此,建立一套平台化的大模型評測最佳實務愈發重要。
本文為PAI大模型評測最佳實務,旨在指引AI開發人員使用PAI平台進行大模型評測。藉助本文,您可以輕鬆構建出既能反映模型真實效能,又能滿足行業特定需求的評測過程,助力您在人工智慧賽道上取得更好的成績。最佳實務包括如下內容:
如何準備和選擇評測資料集
如何選擇適合業務的開源或微調後模型
如何建立評測任務並選擇合適的評價指標
如何在單任務或多任務情境下解讀評測結果
平台特點
PAI大模型評測平台,適合您針對不同的大模型評測情境,進行模型效果對比。例如:
不同基本模型對比:Qwen2-7B-Instruct vs. Baichuan2-7B-Chat
同一模型不同微調版本對比:Qwen2-7B-Instruct 在私人領域資料下訓練不同epoch版本效果對比
同一模型不同量化版本對比:Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8
考慮到不同開發群體的特定需求,本文將以企業開發人員與演算法研究人員兩個典型群體為例,探討如何結合企業的自訂資料集與常用的公開資料集(如MMLU、C-Eval等),實現更全面準確並具有針對性的模型評測,尋找適合您業務需求的大模型。本實踐特點如下:
端到端完整評測鏈路,無需代碼開發,支援主流開源大模型,與大模型微調後的一鍵評測。
支援使用者自訂資料集上傳,內建10+通用NLP評測指標,一覽式結果展示,無需再開發評測指令碼。
支援多個領域的常用公開資料集評測,完整還原官方評測方法,雷達圖全景展示,省去逐個下載評測集和熟悉評測流程的繁雜。
支援多模型多任務同時評測,評測結果圖表式對比展示,輔以單條評測結果詳情,方便全方位比較分析。
評測過程公開透明,結果可複現。評測代碼開源在與ModelScope共建的開原始碼庫eval-scope中,方便查看細節與複現評測結果。
計費說明
PAI大模型評測依託於PAI-快速開始產品。快速開始本身不收費,但使用快速開始進行模型評測時,可能產生DLC評測任務費用,計費詳情請參見分布式訓練(DLC)計費說明。
如果選擇自訂資料集評測,使用OSS儲存時會產生相關費用,計費詳情請參見OSS計費概述。
情境一:面向企業開發人員的自訂資料集評測
企業通常會積累豐富的私人領域資料。如何充分利用好這部分資料,是企業使用大模型進行演算法最佳化的關鍵。因此,企業開發人員在評測開源或微調後的大模型時,往往會基於私人領域下積累的自訂資料集,以便於更好地瞭解大模型在私人領域的效果。
對於自訂資料集評測,PAI大模型評測平台使用NLP領域標準的文本匹配方式,計算模型輸出結果和真實結果的匹配度,值越大,模型越好。使用該評測方式,基於自己情境的獨特資料,可以評測所選模型是否適合自己的情境。
以下將重點展示使用過程中的一些關鍵點,更詳細的操作細節,請參見模型評測。
準備自訂評測集。
自訂評測集格式說明:
基於自訂資料集進行評測時,需要準備JSONL格式的評測集檔案(樣本檔案:llmuses_general_qa_test.jsonl,76 KB)。格式如下:
[{"question": "中國發明了造紙術,是否正確?", "answer": "正確"}] [{"question": "中國發明了火藥,是否正確?", "answer": "正確"}]使用
question標識問題列,answer標識答案列。上傳符合格式的評測集檔案至OSS,詳情請參見上傳檔案至OSS。
根據OSS中評測集檔案建立評測集。詳情請參見建立資料集:從阿里雲雲產品。
選擇適合業務的模型。
使用開源模型
在PAI控制台左側導覽列快速開始 > Model Gallery頁面中,滑鼠懸浮在模型卡片上,對於可評測的模型,會顯示評測按鈕。

使用微調後的模型
在PAI控制台左側導覽列快速開始 > Model Gallery頁面中,滑鼠懸浮在模型卡片上,對於可評測的模型,會顯示評測按鈕。對可評測的模型進行微調訓練,然後在快速開始 > Model Gallery > 任務管理 > 訓練任務頁面中單擊已訓練成功的任務,右上方會顯示評測按鈕。

當前模型評測功能支援HuggingFace所有AutoModelForCausalLM類型的模型。
建立並運行評測任務。
在模型詳情頁右上方單擊評測,建立評測任務。

關鍵參數配置如下:
參數
描述
基礎配置
結果輸出路徑
指定最終評測結果儲存的OSS路徑。
自訂資料集配置
評測方法
取值如下:
通用指標評測:計算待評測模型的預測結果與參考答案的文本相似性,包括ROUGE、BLEU等指標,適用於提供確定答案的情境。
球證模型評測:使用阿里雲PAI提供的球證模型,對待評測模型的答案進行自動評分,可以不提供參考答案,適用於複雜答案或答案不唯一的情境。結果包括整體評分及5個細分指標評分。
球證模型服務Token
當評測方法選擇球證模型評測時,需要配置該參數。請前往球證模型頁面擷取。
資料集來源
選擇現有資料集。
選擇現有資料集
選擇上文所建立的自訂資料集。
資源配置
資源群組類型
根據實際情況,選擇公用資源群組、通用計算資源或靈駿智算資源。
任務資源
如果資源群組類型為公用資源群組時,預設會根據您的模型規格推薦相應資源。
單擊提交,任務開始運行。
查看評測結果。
單任務結果
當快速開始 > Model Gallery > 任務管理 > 評測任務頁面中評測任務的狀態列顯示已成功時,單擊操作列的查看報告,在自訂資料集評測結果頁面查看模型在ROUGE和BLEU系列指標上的得分。

此外還會展示評測檔案每條資料的評測詳情。
多任務對比結果
在快速開始 > Model Gallery > 任務管理 > 評測任務頁面中選中要對比的模型評測任務,右上方單擊對比,在自訂資料集評測結果頁面查看對比結果。

評測結果解析:
自訂資料集的預設評測指標包括:rouge-1-f、rouge-1-p、rouge-1-r、rouge-2-f、rouge-2-p、rouge-2-r、rouge-l-f、rouge-l-p、rouge-l-r、bleu-1、bleu-2、bleu-3、bleu-4。
rouge-n類指標計算N-gram(連續的N個詞)的重疊度,其中rouge-1和rouge-2是最常用的,分別對應unigram和bigram,rouge-l指標基於最長公用子序列(LCS)。
bleu (Bilingual Evaluation Understudy) 是另一種流行的評估機器翻譯品質的指標,它通過測量機器翻譯輸出與一組參考翻譯之間的N-gram重疊度來評分。其中bleu-n指標計算N-gram的匹配度。
最終評測結果會儲存到之前設定的結果輸出路徑中。
情境二:面向演算法研究人員的公開資料集評測
演算法研究通常建立在公開資料集上。研究人員在選擇開源模型,或對模型進行微調後,都會參考其在權威公開資料集上的評測效果。然而,大模型時代的公開資料集種類繁多,研究人員需要花費大量時間調研選擇適合自己領域的公開資料集,並熟悉每個資料集的評測流程。為方便演算法研究人員,PAI接入了多個領域的公開資料集,並完整還原了各個資料集官方指定的評測metrics,以便擷取最準確的評測效果反饋,助力更高效的大模型研究。
在公開資料集評測中,PAI大模型評測平台通過對開源的評測資料集按領域分類,對大模型進行綜合能力評估,例如數學能力、知識能力、推理能力等,值越大,模型越好,這種評測方式也是大模型領域最常見的評測方式。
以下將重點展示使用過程中的一些關鍵點,更詳細的操作細節,請參見模型評測。
支援的公開資料集說明:
目前PAI維護的公開資料集包括MMLU、TriviaQA、HellaSwag、GSM8K、C-Eval、CMMLU、TruthfulQA,其他公開資料集陸續接入中。
資料集
大小
資料量
領域
166 MB
14042
知識
14.3 MB
17944
知識
1.55 MB
12342
中文
1.08 MB
11582
中文
4.17 MB
1319
數學
47.5 MB
10042
推理
0.284 MB
816
安全性
選擇適合業務的模型。
使用開源模型
在PAI控制台左側導覽列快速開始 > Model Gallery頁面中,滑鼠懸浮在模型卡片上,對於可評測的模型,會顯示評測按鈕。

使用微調後的模型
在PAI控制台左側導覽列快速開始 > Model Gallery頁面中,滑鼠懸浮在模型卡片上,對於可評測的模型,會顯示評測按鈕。對可評測的模型進行微調訓練,然後在快速開始 > Model Gallery > 任務管理 > 訓練任務頁面中單擊已訓練成功的任務,右上方會顯示評測按鈕。

當前模型評測功能支援HuggingFace所有AutoModelForCausalLM類型的模型。
建立並運行評測任務。
在模型詳情頁右上方單擊評測,建立評測任務。

參數
描述
基礎配置
結果輸出路徑
指定最終評測結果儲存的OSS路徑。
公開資料集配置
公用資料集
選擇公開資料集。
資源配置
資源群組類型
根據實際情況,選擇公用資源群組、通用計算資源或靈駿智算資源。
任務資源
如果資源群組類型為公用資源群組時,預設會根據您的模型規格推薦相應資源。
單擊提交,任務開始運行。
查看評測結果。
單任務結果
當快速開始 > Model Gallery > 任務管理 > 評測任務頁面中評測任務的狀態列顯示已成功時,單擊操作列的查看報告,在公用資料集評測結果頁面查看模型在各領域及資料集上的得分。

多任務對比結果
在快速開始 > Model Gallery > 任務管理 > 模型評測頁面中選中要對比的模型評測任務,右上方單擊對比,在公用資料集評測結果頁面查看對比結果。

評測結果解析:
左圖展示了模型在不同領域的得分情況。每個領域可能會有多個與之相關的資料集,對屬於同一領域的資料集,PAI大模型評測平台會把模型在這些資料集上的評測得分取均值,作為領域得分。
右圖展示模型在各個公開資料集的得分情況。每個公開資料集的評測範圍詳見公開資料集說明。
最終評測結果會儲存到之前設定的結果輸出路徑中。