パフォーマンス評価モジュールを使用して、AI Search Open Platform の検索拡張生成 (RAG) 開発パイプラインを総合的に評価します。この評価は、ユーザーの最初の質問から、RAG システムによる取得、大規模言語モデル (LLM) による回答の生成まで、プロセス全体を対象とします。
前提条件
AI Search Open Platform サービスを有効化していること。詳細については、「サービスの有効化」をご参照ください。
手順
-
AI Search Open Platform コンソールにログインします。
-
中国 (上海) リージョンを選択し、AI 検索オープンプラットフォーム に切り替えて、対象のワークスペースを選択します。
説明-
現在、AI Search Open Platform は中国 (上海) およびドイツ (フランクフルト) リージョンでのみ利用可能です。
-
中国 (杭州)、中国 (深圳)、中国 (北京)、中国 (張家口)、および中国 (青島) リージョンのユーザーは、VPC アドレスを使用して、異なるリージョンのサービスにアクセスできます。
-
ワークスペースは、データを分離および管理します。初めて AI Search Open Platform を有効化すると、システムは自動的にデフォルトのワークスペースを作成します。ワークスペースを作成することもできます。
-
-
ナビゲーションペインで、効果評価 を選択し、効果評価 をクリックします。
-
「評価タスクの作成」ページで、タスク名を入力し、サンプルデータで指定された形式に従って評価データセットをアップロードします。
重要-
評価データセットに含められる有効なエントリは最大 200 件です。この上限を超えると、システムはエラーを返します。
-
評価データセットをアップロードする際は、サンプルテンプレートに厳密に従ってください。参照回答は任意ですが、同じデータセット内で参照回答がある質問とない質問を混在させることはできません。
タスク名は 1~30 文字で、先頭は英字にする必要があり、英字、数字、アンダースコア (_) のみ使用できます。評価データセットは Excel ファイルである必要があります。タスクの課金は、パフォーマンス評価中に消費されたコンピューティングリソースに基づきます。
次の表に、評価テンプレートのフィールドと主要な評価メトリクスを示します。
パラメーター
説明
question
質問。
standard_answer
参照回答。このフィールドは任意で、評価レポートで返されるメトリクスに影響します。
-
参照回答が提供された場合、次の評価メトリクスが使用されます。
-
忠実性:取得されたドキュメントに対するモデル生成回答の事実整合性を測定します。値が 1 の場合は回答が忠実 (ハルシネーションなし) であることを示し、0 の場合はハルシネーションがあることを示します。
-
コンテキストの適合率:取得されたドキュメントが参照回答をどの程度正確にサポートしているかを測定します。値が 1 の場合は正確であることを示し、0 の場合は不正確であることを示します。
-
コンテキストの再現率:取得されたドキュメントが参照回答に必要な情報をどの程度完全にカバーしているかを測定します。値が 1 の場合は完全であることを示し、0 の場合は不完全であることを示します。
-
満足度:参照回答と比較した、モデル生成回答の全体的な品質を示す複合スコアです。
-
モデル生成回答にハルシネーションがなく、正確かつ完全である場合、満足度スコアは 1 になります。
-
モデル生成回答にハルシネーションはないものの、不正確または不完全である場合、満足度スコアは 0.5 になります。
-
モデル生成回答にハルシネーションが含まれる場合、満足度スコアは 0 になります。
-
-
総合スコア:忠実性、コンテキストの適合率、コンテキストの再現率、満足度から計算される複合スコアです。
-
-
参照回答が提供されない場合、次の評価メトリクスが使用されます。
-
コンテキストの関連性:取得されたドキュメントが質問にどの程度関連しているかを示します。値が 1 の場合は関連性があることを示し、0 の場合は関連性がないことを示します。
-
信頼性:モデル生成回答が信頼でき、提供された取得結果に基づいているかどうかを示すスコアです。
-
回答にハルシネーションがなく、関連する取得ドキュメントに基づいている場合、スコアは 1 になります。これには、関連するドキュメントが取得されなかった場合にモデルが正しく「回答できません」と応答するケースも含まれます。
-
回答にハルシネーションはないものの、関連性のないドキュメントに基づいている場合、または関連するドキュメントが取得されたにもかかわらずモデルが誤って「回答できません」と応答した場合、スコアは 0.5 になります。
-
回答にハルシネーションが含まれる場合、スコアは 0 になります。
-
-
忠実性:取得されたドキュメントに対するモデル生成回答の事実整合性を測定します。値が 1 の場合は回答が忠実 (ハルシネーションなし) であることを示し、0 の場合はハルシネーションがあることを示します。
-
総合スコア:コンテキストの関連性、忠実性、信頼性から計算される複合スコアです。
-
recall_docs
取得されたドキュメント。
model_answer
モデル生成回答。
-
-
パラメーターを設定した後、OK をクリックすると、評価タスクが作成されます。
評価タスクのステータスは次のとおりです。
-
評価中または失敗:評価タスクを削除できます。
-
成功:評価レポートを Excel 形式でダウンロードできます。レポートには2つのシートが含まれています。
-
Sheet1 - 評価タスク:評価タスクの概要です。平均メトリクス値は、評価に成功したすべての質問から計算されます。
Sheet2 - タスク詳細:各質問の詳細な評価データです。
評価タスクリストには、[タスク名]、[タスクステータス] (評価中や成功など)、[作成時刻]、[完了時刻]、[評価データ] (アップロードされたデータファイルの名前)、[操作] 列などのタスク情報が表形式で表示されます。タスクが完了すると、そのステータスは [成功] に変わります。[操作] 列で [レポートのダウンロード] をクリックして、評価レポートをダウンロードします。
-
-