すべてのプロダクト
Search
ドキュメントセンター

OpenSearch:評価データセットの管理

最終更新日:Nov 10, 2025

サンプルテンプレートに従って評価データセットを作成します。評価データセットには、少なくとも 50 件の質問と回答を含める必要があります。その後、評価タスクを通じて Q&A パフォーマンスを評価できます。

手順

  1. OpenSearch コンソール にログオンします。

  2. 宛先リージョンを選択し、[OpenSearch LLM ベースの対話型検索エディション] に切り替えます。

  3. インスタンスリストで、宛先インスタンスの右側にある [管理] をクリックします。左側のナビゲーションウィンドウで、[効果比較] を選択します。

  4. [評価データセット] タブで、[評価データセットの作成] をクリックし、評価データセット名を入力し、[データサンプル] に従って Excel または JSON 形式で評価データセットをアップロードします。

    説明

    正確な評価結果を得るには、評価データセットには少なくとも 50 件の質問を含める必要があります。

    image

    ダウンロード: 評価データセットをダウンロードします。

    削除: 評価タスクで評価データセットを削除します。

次のステップ

評価タスクの管理

テストデータセット

1. 大学ウェブサイト入学データセット

概要: 元のドキュメントライブラリは、中国人民大学入学ウェブサイトからのもので、内容は主に入学ポリシー、学科紹介などです。

出典: https://arxiv.org/abs/2406.05654

データセット: domainrag_xlsx_corpus.xlsx

Q&A セット: basic_qa_anslen1.xlsx

2. 保険約款に基づく質問応答

概要: 元のドキュメントライブラリのコンテンツは、さまざまな保険商品とそれに対応する約款からのものです。

出典: https://tianchi.aliyun.com/competition/entrance/532194/information

データセット: tianchi_doc_with_title.json

Q&A セット: dev_qa_sample_50_for_llm.xlsx

3. CRUD ニュースデータセット

概要: 元のドキュメントライブラリのコンテンツは、中国のニュースウェブサイト ( 2023 年 7 月以降のニュース) からのものです。

出典: https://arxiv.org/abs/2401.17043

データセット (コンソールのサイズ要件により 3 つの部分に分割):

crud_corpus_for_llm_1.json

crud_corpus_for_llm_2.json

crud_corpus_for_llm_3.json

Q&A セット: crud_1doc_qa_sample100_for_llm.xlsx