すべてのプロダクト
Search
ドキュメントセンター

OpenSearch:評価タスクの管理

最終更新日:Dec 28, 2024

このトピックでは、評価タスクを作成して対話型検索の効果を評価する方法について説明します。評価対象の対話型検索プロセスは、次の 3 つのステップで構成されます。(1) ユーザーが質問をする。(2) システムが関連コンテンツを取得する。(3) 大規模言語モデル (LLM) が回答を生成する。

使用方法

効果評価の料金は、評価中に消費されたコンピューティングリソースに基づいて課金されます。

手順

  1. OpenSearch コンソールにログオンします。

  2. 上部のナビゲーションバーで、インスタンスが存在するリージョンを選択します。左上隅で、Opensearch LLMベースの対話型検索エディションを選択します。

  3. [インスタンス管理] ページで、管理するインスタンスを見つけ、[アクション] 列の管理をクリックします。インスタンスの詳細ページで、左側のペインの効果比較をクリックします。

  4. 評価タスクタブで、評価タスクの作成をクリックします。[評価タスクの作成] ページで、タスク名を入力し、評価データセットを選択して、パラメータの設定をクリックします。[パラメータの設定] パネルで、以下の表に記載されているパラメータを設定します。

    パラメータ

    説明

    モデルの選択

    対話型検索に使用するモデル。使用可能なモデルの詳細については、モデル管理を参照してください。

    説明

    使用可能なモデルとは、対話型検索の効果をテストするために使用できるモデルです。

    プロンプト

    対話型検索に使用するプロンプト。事前にプロンプトテンプレートを設定する必要があります。詳細については、プロンプトの管理を参照してください。

    プロンプトパラメータ

    パラメータ

    タイプ

    必須

    有効な値

    デフォルト値

    説明

    attitude

    文字列

    いいえ

    -

    normal

    • 会話のトーン。デフォルト値:normal。有効な値:

    • normal

    • polite

    • patience

    rule

    文字列

    いいえ

    -

    simple

    会話の詳細レベル。デフォルト値:detailed。有効な値:

    • detailed

    • stepbystep

    noanswer

    文字列

    いいえ

    -

    sorry

    システムが質問に対する回答を見つけられなかった場合に返される情報。デフォルト値:sorry。有効な値:

    • sorry

    • uncertain

    language

    文字列

    いいえ

    -

    Chinese

    回答の言語。デフォルト値:Chinese。有効な値:

    • Chinese

    • English

    • Thai

    • Korean

    role

    ブール値

    いいえ

    -

    true

    質問に回答するためのカスタムロールを有効にするかどうかを指定します。

    role_name

    文字列

    いいえ

    -

    AI アシスタント

    カスタムロール。例:AI アシスタント。

    out_format

    文字列

    いいえ

    -

    text

    回答の形式。デフォルト値:text。有効な値:

    • text

    • table

    • list

    • markdown

    ドキュメント検索パラメータ

    パラメータ

    タイプ

    必須

    有効な値

    デフォルト値

    説明

    filter

    文字列

    いいえ

    -

    -

    ドキュメントをフィルタリングするために使用されるフィールド。例:filter = field = value。

    top_n

    整数

    いいえ

    (0, 50]

    5

    取得するドキュメントの数。

    sf

    浮動小数点数

    いいえ

    [0,+∞)

    1.3

    取得するドキュメントのベクトル類似度を決定するためのしきい値。値が大きいほど、ベクトル類似度は小さくなります。

    dense_weight

    浮動小数点数

    (0,1)

    0.7

    密ベクトルの重み。このパラメータは、スパースベクトルモデルを選択した場合に利用可能です。スパースベクトルの重みは、次の方法で計算されます。1 - dense_weight パラメータの値。

    formula

    文字列

    いいえ

    -

    ベクトル類似度

    取得したドキュメントをソートする際に使用する式。

    operator

    文字列

    いいえ

    -

    AND

    テキスト検索中のテキストトークン間の演算子。

    参照画像パラメータ

    パラメータ

    タイプ

    必須

    有効な値

    デフォルト値

    説明

    sf

    浮動小数点数

    いいえ

    [0,+∞)

    1

    参照画像のベクトル類似度を決定するためのしきい値。スパースベクトルモデルの場合、値が大きいほど、ベクトル類似度は大きくなります。密ベクトルモデルの場合、値が大きいほど、ベクトル類似度は小さくなります。

    dense_weight

    浮動小数点数

    いいえ

    (0,1)

    0.7

    密ベクトルの重み。このパラメータは、スパースベクトルモデルを選択した場合に利用可能です。スパースベクトルの重みは、次の方法で計算されます。1 - dense_weight パラメータの値。

    クエリ理解パラメータ

    パラメータ

    タイプ

    必須

    有効な値

    デフォルト値

    説明

    query_extend

    ブール値

    いいえ

    -

    false

    クエリを拡張するかどうかを指定します。この機能を有効にすると、検索パフォーマンスを向上させることができます。

    query_exten_num

    整数

    いいえ

    (0,+∞)

    5

    拡張するクエリの数。

    手動介入パラメータ

    パラメータ

    タイプ

    必須

    有効な値

    デフォルト値

    説明

    sf

    浮動小数点数

    いいえ

    [0,2]

    0.3

    手動介入のしきい値。デフォルト値:0.3。値が大きいほど、介入エントリの一致が容易になります。

    その他のパラメータ

    パラメータ

    タイプ

    必須

    有効な値

    デフォルト値

    説明

    return_hits

    ブール値

    いいえ

    -

    false

    ドキュメント検索結果を返すかどうかを指定します。

    csi_level

    文字列

    いいえ

    -

    strict

    コンテンツモデレーションの設定。有効な値:

    • none:コンテンツをモデレートしません。

    • loose:結果をモデレートし、制限付きコンテンツが検出された場合は結果をブロックします。この場合、結果は返されません。

    • strict:結果をモデレートし、制限付きコンテンツまたは疑わしいコンテンツが検出された場合は結果をブロックします。この場合、結果は返されません。

    history_max

    整数

    いいえ

    (0,20]

    20

    システムが結果を返す会話の最大ラウンド数。最大 20 ラウンドまで指定できます。

    link

    ブール値

    いいえ

    -

    false

    取得したドキュメントのソースを返すかどうかを指定します。

  5. 上記のパラメータを設定した後、OKをクリックします。評価が完了すると、システムは総合スコアを生成します。

    評価レポートをクリックして、各 Q&A ペアの評価結果を表示します。評価結果が不正確な場合は、手動評価をクリックして、評価結果を手動で修正します。