全部產品
Search
文件中心

Platform For AI:球證模型

更新時間:Apr 09, 2025

球證模型是用於評測其他模型輸出品質的輔助模型,能夠充當“球證”的角色,對大語言模型(LLM)的輸出結果進行評測和打分。PAI推出了球證大模型,為使用者提供了開箱即用的LLM-as-a-Judge服務,帶來準確、高效且易用的模型評測智能解決方案。

背景介紹

模型評測是大語言模型(LLM)開發與部署中的關鍵環節,用於檢驗模型表現是否符合預期,指導大語言模型選型,後續模型調用鏈路調優,並測試模型服務的效果可靠性。常見的模型評測方式有以下幾種:

  • 指標評測

    基於評測指標(如BLEU、ROUGE、METEOR等),通過計算產生文本與參考文本的相似性,快速提供評測結果。其局限性在於:僅適用於文本摘要、機器翻譯等有限情境,依賴提供參考文本,而且往往僅考慮表面的相似性,可能忽略深層語義和上下文連貫性。

  • 基準(benchmark)評測

    通過標準化資料集(如MMLU、GSM8k、HumanEval等),在一系列預定義任務上對模型進行測試。目前已有不少流行的基準,由於基準以客觀題為主,評測結果具有標準性和可比性,所以便於使用這些基準建立LLM熱門排行榜。但這種方法無法評價模型在主觀和發散型問題上的表現。

  • 人工評測

    制定評分標準,設定人類評審員進行打分,彙集結果進行統計分析。前面的兩種方式都是基於規則的評測,無法評測沒有明確的參考答案的主觀問題,而人工評測可以理解複雜多樣的語義,評測結果和人類的預期能夠達成一致。不過人工評測需要大量的資源和時間的成本。

因此,為了彌補以上評測方法的局限性,球證模型應運而生。球證模型無需人工標註,不限特定任務,無論是主觀問題還是客觀問題,都能夠批量實現LLM的自動化高效評測。

功能概述

PAI推出了球證大模型,使用者只需輸入問題和待評測模型的回答,即可實現自動化打分。核心原理如下:

球證模型的主要亮點有:

  • 準確:球證模型擅長進行主觀問題的評測,能夠對問題進行智能情境分類,如開放性問題(閑聊/諮詢/推薦等)、創意寫作、代碼產生、角色扮演等情境,針對不同情境會制定不同的評測標準,極大提高了評測的準確率。

  • 高效:球證模型無需人工標記資料,只需輸入問題和模型回答,即可自主完成對大語言模型的分析與評價,大幅提高了評測的效率。

  • 易用:提供了控制台建立評測任務、API調用、SDK調用等多種使用方式,既滿足了使用者快速上手體驗,也便於開發人員靈活接入。

  • 低成本:僅需較便宜的價格,即可在中文評價情境中,提供與ChatGPT-4效果相媲美的評測效能。

使用球證模型

開通球證模型功能後,您可以通過以下方式使用球證模型服務:

  • 控制台快速體驗

    針對初級使用者,可以通過控制台快速體驗球證模型功能。

  • API調用樣本API功能說明

    支援使用Python SDK/HTTP方式線上調用,或準備批量資料離線調用球證模型演算法服務,輸入問題和模型推理返回的結果,返回評測的分數和理由。

  • 模型評測

    在控制台進行操作,選擇預置的多種LLM模型,實現推理+評測的一體化流程。