AI Search Open Platform のパフォーマンス評価モジュールを使用して RAG 開発パイプラインを評価する - OpenSearch

パフォーマンス評価モジュールを使用して、AI Search Open Platform が提供する検索拡張生成 (RAG) 開発パイプラインを評価できます。評価は、ユーザーの質問から RAG システムによるコンテンツの取得、大規模言語モデル (LLM) による回答の生成まで、プロセス全体をカバーします。

前提条件

AI Search Open Platform サービスを有効化します。詳細については、「サービスを有効化する」をご参照ください。

手順

AI Search Open Platform コンソールにログオンします。
上海リージョンを選択し、[AI Search Open Platform] に切り替えてから、ターゲットワークスペースに切り替えます。
説明
- 現在、AI Search Open Platform 機能は、上海およびドイツ (フランクフルト) リージョンでのみ利用可能です。
- 杭州、深セン、北京、張家口、青島リージョンのユーザーは、VPC アドレスを使用してリージョンをまたいで AI Search Open Platform サービスを呼び出すことができます。
- ワークスペースは、データの分離と管理に使用されます。AI Search Open Platform サービスを初めて有効化すると、システムは自動的に Default ワークスペースを作成します。ワークスペースを作成することもできます。
左側のナビゲーションウィンドウで、[効果評価] を選択し、[評価タスクの作成] をクリックします。

[評価タスクの作成] ページで、タスク名を入力し、提供された [サンプルデータ] のフォーマットで評価データセットをアップロードします。

重要

評価データセットには、最大 200 件の有効なデータエントリを含めることができます。この制限を超えると、システムはエラーを報告します。
評価データセットをアップロードするには、サンプルテンプレートに厳密に従う必要があります。参照回答はオプションです。ただし、単一のデータセットの場合、すべての質問に参照回答を含めるか、または省略する必要があります。

次の表に、評価テンプレートと主要な評価メトリックを示します。

パラメーター	説明
question	質問。
standard_answer	参照回答。このパラメーターは空にすることができ、レポートで返される評価メトリックに影響します。参照回答が提供されている場合、評価メトリックは次のとおりです。 Faithfulness: 取得されたドキュメントとモデルが生成した回答との間のハルシネーション率。ハルシネーションの場合は 0、ハルシネーションがない場合は 1 です。 Context Precision: 参照回答と取得されたドキュメントとの間の精度。正確な場合は 1、不正確な場合は 0 です。 Context Recall: 取得されたドキュメントと参照回答との間の完全性。完全な取得の場合は 1、不完全な取得の場合は 0 です。 Satisfaction: モデルが生成した回答と参照回答の比較: モデルが生成した回答にハルシネーションがなく、正確かつ完全である場合、満足度スコアは 1 です。モデルが生成した回答にハルシネーションはないが、情報が不正確または不完全である場合、満足度スコアは 0.5 です。モデルが生成した回答にハルシネーションがある場合、満足度スコアは 0 です。 Comprehensive Score: Faithfulness、Context Precision、Context Recall、Satisfaction の総合スコア。参照回答が提供されていない場合、評価メトリックは次のとおりです。 Context Relevance: 質問と取得されたドキュメントとの間の関連性。関連性がある場合は 1、関連性がない場合は 0 です。 Credibility: 質問に対するモデルが生成した回答の信頼性。モデルが生成した回答にハルシネーションがなく、関連する取得結果に基づいて生成された場合 (または、関連する結果が取得されなかった場合に回答が「回答できません」である場合)、信頼性スコアは 1 です。モデルが生成した回答にハルシネーションはないが、関連性のない取得結果に基づいている場合、または関連する結果が取得されたにもかかわらず回答が「回答できません」である場合、信頼性スコアは 0.5 です。モデルが生成した回答にハルシネーションがある場合、信頼性スコアは 0 です。 Faithfulness: 取得されたドキュメントとモデルが生成した回答との間のハルシネーション率。ハルシネーションの場合は 0、ハルシネーションがない場合は 1 です。 Comprehensive Score: Context Relevance、Faithfulness、Credibility の総合スコア。
recall_docs	取得されたドキュメント。
model_answer	モデルによって生成された回答。

パラメーターを設定した後、[OK] をクリックして評価タスクを作成します。
以下は評価タスクのステータスです。
- 評価中または失敗: 評価タスクを削除できます。
- 成功: 評価レポートを Excel ファイルとしてダウンロードできます。レポートは 2 つの部分で構成されています。
  - Sheet1 - 評価タスク: 評価タスクの概要を提供します。このシートには、正常に評価されたすべての質問から計算された平均メトリック値が表示されます。
    Sheet2 - タスク詳細: 各質問の詳細な評価データを提供します。