針對初級使用者,PAI提供了簡單易用的Web介面,便於體驗。您無需編程或準備資料集,只需輸入問題和模型回答,即可一鍵產生評測結果。同時,線上體驗也支援進階配置調整,以獲得更精準的評測。
前提條件
開通服務
登入PAI控制台,單擊立即開通,然後按照控制台操作指引,開通模型服務。

開通後,即可在概覽頁面查看Host和Token訪問參數,以及調用量等詳情。
線上體驗
登入PAI控制台,選擇線上體驗頁簽,根據如下說明,配置相關參數。
評測內容
參數
說明
評測模型
支援以下兩種模型:
pai-judge:模型規模較小,性價比更高。
pai-judge-plus:模型規模較大,推理效果更好。
評測模式
可以選擇單模型評測或者雙模型競技。
評測問題
輸入待評測的問題。
模型回答
輸入評測問題相對應的模型回答。
單模型:輸入一個模型回答。
雙模型:輸入兩個模型回答。
參考答案
輸入已知的參考答案。
對於確定性問題、數學類問題、翻譯等情境,參考答案可以提升評測準確度。
(可選)進階配置
參數
說明
評測情境
問題情境
問題情境會根據您輸入的評測問題內容自動識別對應的情境,您也可以手動指定情境。
情境包含文本改寫、角色扮演、代碼產生修改與分析等,每種情境具有不同的評測標準,協助球證模型打分更加準確。
情境描述
問題情境對應的描述。
評測標準
問題情境對應的評測標準,可自訂內容。
評測分數
評測標準
自訂球證模型打分的分數值。
取值範圍:[2, 10]
分檔含義
基於最高分數下,每個分數值的含義。
產生參數
Temperature
控制產生文本的隨機性。值越小,模型輸出越保守,值越大,模型輸出更加多樣化。
取值範圍:[0, 2)
Top_p
控制候選詞的選擇範圍。模型會從累計機率達到Top_p值的詞的集合中隨機播放下一個詞。
取值範圍:[0, 1]
單擊評測,在評測結果頁簽會流式返回球證模型的輸出結果。您可以對結果進行反饋,以協助我們改進球證模型的效果。
在Prompt預覽頁簽,線上體驗的參數會自動代入到Prompt模板中,您可以查看完整的Prompt,從而更好地理解球證模型的工作原理。
您也可以單擊隨機樣本,頁面會自動填滿參數,協助您快速體驗球證模型能力。
