大語言模型輸出結果評測打分-球證模型-人工智慧平台 PAI-阿里雲

球證模型是用於評測其他模型輸出品質的輔助模型，能夠充當“球證”的角色，對大語言模型（LLM）的輸出結果進行評測和打分。PAI推出了球證大模型，為使用者提供了開箱即用的LLM-as-a-Judge服務，帶來準確、高效且易用的模型評測智能解決方案。

背景介紹

模型評測是大語言模型（LLM）開發與部署中的關鍵環節，用於檢驗模型表現是否符合預期，指導大語言模型選型，後續模型調用鏈路調優，並測試模型服務的效果可靠性。常見的模型評測方式有以下幾種：

指標評測
基於評測指標（如BLEU、ROUGE、METEOR等），通過計算產生文本與參考文本的相似性，快速提供評測結果。其局限性在於：僅適用於文本摘要、機器翻譯等有限情境，依賴提供參考文本，而且往往僅考慮表面的相似性，可能忽略深層語義和上下文連貫性。
基準（benchmark）評測
通過標準化資料集（如MMLU、GSM8k、HumanEval等），在一系列預定義任務上對模型進行測試。目前已有不少流行的基準，由於基準以客觀題為主，評測結果具有標準性和可比性，所以便於使用這些基準建立LLM熱門排行榜。但這種方法無法評價模型在主觀和發散型問題上的表現。
人工評測
制定評分標準，設定人類評審員進行打分，彙集結果進行統計分析。前面的兩種方式都是基於規則的評測，無法評測沒有明確的參考答案的主觀問題，而人工評測可以理解複雜多樣的語義，評測結果和人類的預期能夠達成一致。不過人工評測需要大量的資源和時間的成本。

因此，為了彌補以上評測方法的局限性，球證模型應運而生。球證模型無需人工標註，不限特定任務，無論是主觀問題還是客觀問題，都能夠批量實現LLM的自動化高效評測。

PAI推出了球證大模型，使用者只需輸入問題和待評測模型的回答，即可實現自動化打分。核心原理如下：

球證模型的主要亮點有：

準確：球證模型擅長進行主觀問題的評測，能夠對問題進行智能情境分類，如開放性問題（閑聊/諮詢/推薦等）、創意寫作、代碼產生、角色扮演等情境，針對不同情境會制定不同的評測標準，極大提高了評測的準確率。
高效：球證模型無需人工標記資料，只需輸入問題和模型回答，即可自主完成對大語言模型的分析與評價，大幅提高了評測的效率。
易用：提供了控制台建立評測任務、API調用、SDK調用等多種使用方式，既滿足了使用者快速上手體驗，也便於開發人員靈活接入。
低成本：僅需較便宜的價格，即可在中文評價情境中，提供與ChatGPT-4效果相媲美的評測效能。

開通球證模型功能後，您可以通過以下方式使用球證模型服務：

控制台快速體驗
針對初級使用者，可以通過控制台快速體驗球證模型功能。
API調用樣本、API功能說明
支援使用Python SDK/HTTP方式線上調用，或準備批量資料離線調用球證模型演算法服務，輸入問題和模型推理返回的結果，返回評測的分數和理由。
模型評測
在控制台進行操作，選擇預置的多種LLM模型，實現推理+評測的一體化流程。