このトピックでは、評価タスクを作成して対話型検索の効果を評価する方法について説明します。評価対象の対話型検索プロセスは、次の 3 つのステップで構成されます。(1) ユーザーが質問をする。(2) システムが関連コンテンツを取得する。(3) 大規模言語モデル (LLM) が回答を生成する。
使用方法
効果評価の料金は、評価中に消費されたコンピューティングリソースに基づいて課金されます。
手順
OpenSearch コンソールにログオンします。
上部のナビゲーションバーで、インスタンスが存在するリージョンを選択します。左上隅で、Opensearch LLMベースの対話型検索エディションを選択します。
[インスタンス管理] ページで、管理するインスタンスを見つけ、[アクション] 列の管理をクリックします。インスタンスの詳細ページで、左側のペインの効果比較をクリックします。
評価タスクタブで、評価タスクの作成をクリックします。[評価タスクの作成] ページで、タスク名を入力し、評価データセットを選択して、パラメータの設定をクリックします。[パラメータの設定] パネルで、以下の表に記載されているパラメータを設定します。
パラメータ
説明
モデルの選択
対話型検索に使用するモデル。使用可能なモデルの詳細については、モデル管理を参照してください。
説明使用可能なモデルとは、対話型検索の効果をテストするために使用できるモデルです。
プロンプト
対話型検索に使用するプロンプト。事前にプロンプトテンプレートを設定する必要があります。詳細については、プロンプトの管理を参照してください。
プロンプトパラメータ
パラメータ
タイプ
必須
有効な値
デフォルト値
説明
attitude
文字列
いいえ
-
normal
会話のトーン。デフォルト値:normal。有効な値:
normal
polite
patience
rule
文字列
いいえ
-
simple
会話の詳細レベル。デフォルト値:detailed。有効な値:
detailed
stepbystep
noanswer
文字列
いいえ
-
sorry
システムが質問に対する回答を見つけられなかった場合に返される情報。デフォルト値:sorry。有効な値:
sorry
uncertain
language
文字列
いいえ
-
Chinese
回答の言語。デフォルト値:Chinese。有効な値:
Chinese
English
Thai
Korean
role
ブール値
いいえ
-
true
質問に回答するためのカスタムロールを有効にするかどうかを指定します。
role_name
文字列
いいえ
-
AI アシスタント
カスタムロール。例:AI アシスタント。
out_format
文字列
いいえ
-
text
回答の形式。デフォルト値:text。有効な値:
text
table
list
markdown
ドキュメント検索パラメータ
パラメータ
タイプ
必須
有効な値
デフォルト値
説明
filter
文字列
いいえ
-
-
ドキュメントをフィルタリングするために使用されるフィールド。例:filter = field = value。
top_n
整数
いいえ
(0, 50]
5
取得するドキュメントの数。
sf
浮動小数点数
いいえ
[0,+∞)
1.3
取得するドキュメントのベクトル類似度を決定するためのしきい値。値が大きいほど、ベクトル類似度は小さくなります。
dense_weight
浮動小数点数
(0,1)
0.7
密ベクトルの重み。このパラメータは、スパースベクトルモデルを選択した場合に利用可能です。スパースベクトルの重みは、次の方法で計算されます。1 - dense_weight パラメータの値。
formula
文字列
いいえ
-
ベクトル類似度
取得したドキュメントをソートする際に使用する式。
operator
文字列
いいえ
-
AND
テキスト検索中のテキストトークン間の演算子。
参照画像パラメータ
パラメータ
タイプ
必須
有効な値
デフォルト値
説明
sf
浮動小数点数
いいえ
[0,+∞)
1
参照画像のベクトル類似度を決定するためのしきい値。スパースベクトルモデルの場合、値が大きいほど、ベクトル類似度は大きくなります。密ベクトルモデルの場合、値が大きいほど、ベクトル類似度は小さくなります。
dense_weight
浮動小数点数
いいえ
(0,1)
0.7
密ベクトルの重み。このパラメータは、スパースベクトルモデルを選択した場合に利用可能です。スパースベクトルの重みは、次の方法で計算されます。1 - dense_weight パラメータの値。
クエリ理解パラメータ
パラメータ
タイプ
必須
有効な値
デフォルト値
説明
query_extend
ブール値
いいえ
-
false
クエリを拡張するかどうかを指定します。この機能を有効にすると、検索パフォーマンスを向上させることができます。
query_exten_num
整数
いいえ
(0,+∞)
5
拡張するクエリの数。
手動介入パラメータ
パラメータ
タイプ
必須
有効な値
デフォルト値
説明
sf
浮動小数点数
いいえ
[0,2]
0.3
手動介入のしきい値。デフォルト値:0.3。値が大きいほど、介入エントリの一致が容易になります。
その他のパラメータ
パラメータ
タイプ
必須
有効な値
デフォルト値
説明
return_hits
ブール値
いいえ
-
false
ドキュメント検索結果を返すかどうかを指定します。
csi_level
文字列
いいえ
-
strict
コンテンツモデレーションの設定。有効な値:
none:コンテンツをモデレートしません。
loose:結果をモデレートし、制限付きコンテンツが検出された場合は結果をブロックします。この場合、結果は返されません。
strict:結果をモデレートし、制限付きコンテンツまたは疑わしいコンテンツが検出された場合は結果をブロックします。この場合、結果は返されません。
history_max
整数
いいえ
(0,20]
20
システムが結果を返す会話の最大ラウンド数。最大 20 ラウンドまで指定できます。
link
ブール値
いいえ
-
false
取得したドキュメントのソースを返すかどうかを指定します。
上記のパラメータを設定した後、OKをクリックします。評価が完了すると、システムは総合スコアを生成します。
評価レポートをクリックして、各 Q&A ペアの評価結果を表示します。評価結果が不正確な場合は、手動評価をクリックして、評価結果を手動で修正します。