評価タスクで会話型検索品質をベンチマークする - OpenSearch

このトピックでは、評価タスクを作成して対話型検索の効果を評価する方法について説明します。評価対象の対話型検索プロセスは、次の 3 つのステップで構成されます。(1) ユーザーが質問をする。(2) システムが関連コンテンツを取得する。(3) 大規模言語モデル (LLM) が回答を生成する。

使用方法

効果評価の料金は、評価中に消費されたコンピューティングリソースに基づいて課金されます。

OpenSearch コンソールにログオンします。
上部のナビゲーションバーで、インスタンスが存在するリージョンを選択します。左上隅で、Opensearch LLMベースの対話型検索エディションを選択します。
[インスタンス管理] ページで、管理するインスタンスを見つけ、[アクション] 列の管理をクリックします。インスタンスの詳細ページで、左側のペインの効果比較をクリックします。

評価タスクタブで、評価タスクの作成をクリックします。[評価タスクの作成] ページで、タスク名を入力し、評価データセットを選択して、パラメータの設定をクリックします。[パラメータの設定] パネルで、以下の表に記載されているパラメータを設定します。

パラメータ	説明
モデルの選択	対話型検索に使用するモデル。使用可能なモデルの詳細については、モデル管理を参照してください。説明使用可能なモデルとは、対話型検索の効果をテストするために使用できるモデルです。
プロンプト	対話型検索に使用するプロンプト。事前にプロンプトテンプレートを設定する必要があります。詳細については、プロンプトの管理を参照してください。

プロンプトパラメータ
パラメータ	タイプ	必須	有効な値	デフォルト値	説明
attitude	文字列	いいえ	-	normal	会話のトーン。デフォルト値：normal。有効な値： normal polite patience
rule	文字列	いいえ	-	simple	会話の詳細レベル。デフォルト値：detailed。有効な値： detailed stepbystep
noanswer	文字列	いいえ	-	sorry	システムが質問に対する回答を見つけられなかった場合に返される情報。デフォルト値：sorry。有効な値： sorry uncertain
language	文字列	いいえ	-	Chinese	回答の言語。デフォルト値：Chinese。有効な値： Chinese English Thai Korean
role	ブール値	いいえ	-	true	質問に回答するためのカスタムロールを有効にするかどうかを指定します。
role_name	文字列	いいえ	-	AI アシスタント	カスタムロール。例：AI アシスタント。
out_format	文字列	いいえ	-	text	回答の形式。デフォルト値：text。有効な値： text table list markdown

ドキュメント検索パラメータ
パラメータ	タイプ	必須	有効な値	デフォルト値	説明
filter	文字列	いいえ	-	-	ドキュメントをフィルタリングするために使用されるフィールド。例：filter = field = value。
top_n	整数	いいえ	(0, 50]	5	取得するドキュメントの数。
sf	浮動小数点数	いいえ	[0,+∞)	1.3	取得するドキュメントのベクトル類似度を決定するためのしきい値。値が大きいほど、ベクトル類似度は小さくなります。
dense_weight	浮動小数点数		(0,1)	0.7	密ベクトルの重み。このパラメータは、スパースベクトルモデルを選択した場合に利用可能です。スパースベクトルの重みは、次の方法で計算されます。1 - dense_weight パラメータの値。
formula	文字列	いいえ	-	ベクトル類似度	取得したドキュメントをソートする際に使用する式。
operator	文字列	いいえ	-	AND	テキスト検索中のテキストトークン間の演算子。

参照画像パラメータ
パラメータ	タイプ	必須	有効な値	デフォルト値	説明
sf	浮動小数点数	いいえ	[0,+∞)	1	参照画像のベクトル類似度を決定するためのしきい値。スパースベクトルモデルの場合、値が大きいほど、ベクトル類似度は大きくなります。密ベクトルモデルの場合、値が大きいほど、ベクトル類似度は小さくなります。
dense_weight	浮動小数点数	いいえ	(0,1)	0.7	密ベクトルの重み。このパラメータは、スパースベクトルモデルを選択した場合に利用可能です。スパースベクトルの重みは、次の方法で計算されます。1 - dense_weight パラメータの値。

クエリ理解パラメータ
パラメータ	タイプ	必須	有効な値	デフォルト値	説明
query_extend	ブール値	いいえ	-	false	クエリを拡張するかどうかを指定します。この機能を有効にすると、検索パフォーマンスを向上させることができます。
query_exten_num	整数	いいえ	(0,+∞)	5	拡張するクエリの数。

手動介入パラメータ
パラメータ	タイプ	必須	有効な値	デフォルト値	説明
sf	浮動小数点数	いいえ	[0,2]	0.3	手動介入のしきい値。デフォルト値：0.3。値が大きいほど、介入エントリの一致が容易になります。

その他のパラメータ
パラメータ	タイプ	必須	有効な値	デフォルト値	説明
return_hits	ブール値	いいえ	-	false	ドキュメント検索結果を返すかどうかを指定します。
csi_level	文字列	いいえ	-	strict	コンテンツモデレーションの設定。有効な値： none：コンテンツをモデレートしません。 loose：結果をモデレートし、制限付きコンテンツが検出された場合は結果をブロックします。この場合、結果は返されません。 strict：結果をモデレートし、制限付きコンテンツまたは疑わしいコンテンツが検出された場合は結果をブロックします。この場合、結果は返されません。
history_max	整数	いいえ	(0,20]	20	システムが結果を返す会話の最大ラウンド数。最大 20 ラウンドまで指定できます。
link	ブール値	いいえ	-	false	取得したドキュメントのソースを返すかどうかを指定します。

上記のパラメータを設定した後、OKをクリックします。評価が完了すると、システムは総合スコアを生成します。
評価レポートをクリックして、各 Q&A ペアの評価結果を表示します。評価結果が不正確な場合は、手動評価をクリックして、評価結果を手動で修正します。