Platform for AI (PAI) は、初心者が簡単にサービスを体験できるユーザーフレンドリーな Web インターフェイスを提供します。 プログラミングやデータセットの準備は必要ありません。 質問とモデルの回答を入力するだけで、数クリックで評価結果を生成できます。 オンライン体験では、詳細設定を変更して、より正確な評価を得ることもできます。
前提条件
サービスのアクティベート
PAI コンソール にログオンします。 [モデルの評価] ページで、[今すぐアクティベート] をクリックします。 次に、コンソールの指示に従ってモデルサービスをアクティベートします。

モデルサービスをアクティベートすると、[概要] タブで、Host パラメーターと Token パラメーターに関する情報、および呼び出し統計情報を表示できます。
サービスをオンラインで体験する
PAI コンソール にログオンします。 [モデルの評価] ページで、[プレイグラウンド] タブに切り替えて、パラメーターを構成します。 次の表にパラメーターを示します。
評価内容
パラメーター
説明
評価モデル
次の 2 つのモデルがサポートされています。
pai-judge: 費用対効果の高い small モデル。
pai-judge-plus: 推論結果が良好な large モデル。
評価モード
単一回答評価 または デュアルモデル比較 を選択できます。
質問
評価する質問を入力します。
モデルの回答
質問に対するモデルが提供する回答を入力します。
単一モデル: 単一モデルが提供する回答を入力します。
デュアルモデル: 2 つのモデルが提供する回答を入力します。
参照回答
既知の参照回答を入力します。
確定的な質問、数学の質問、翻訳などのシナリオでは、参照回答を使用すると評価の精度が向上します。
(オプション) 詳細設定
パラメーター
説明
評価シナリオ
質問シナリオ
評価の質問に基づいて、対応するシナリオが自動的に検出されます。 シナリオを手動で指定することもできます。
シナリオには、テキストの書き換え、役割の想定、コードの生成、変更、分析などがあります。 各シナリオには異なる評価基準があり、評価モデルのスコアリングをより正確にするのに役立ちます。
シナリオの説明
シナリオの説明。
評価基準
評価基準。 カスタムの評価基準を構成できます。
評価スコア
スコアの範囲
評価モデルのスコアの範囲。
有効値: [2,10]。
スコアの記述
各スコアのの意味。
生成パラメーター
Temperature
生成されるテキストのランダム性を制御します。 値が小さいほど、モデル出力はより決定論的になり、値が大きいほど、モデル出力はより多様になります。
有効値: [0,2)。
Top_p
候補語の選択範囲を制御します。 モデルは、累積確率が Top_p 値に達する単語のセットから次の単語をランダムに選択します。
有効値: [0,1]。
[評価] をクリックします。 評価モデルの評価結果は、[評価結果] タブにストリーミング方式で生成されます。 評価モデルの効果を高めるために、結果に関するフィードバックを提供できます。
[プロンプトプレビュー] タブでは、オンライン体験パラメーターがプロンプトテンプレートに自動的に挿入されます。 評価モデルの仕組みをより深く理解するために、完全なプロンプトを表示できます。
[ランダムな例を入力] をクリックします。 評価モデルの機能をすばやく体験できるように、ページでパラメーターが自動的に構成されます。
