サンプルテンプレートに従って評価データセットを作成します。評価データセットには、少なくとも 50 件の質問と回答を含める必要があります。その後、評価タスクを通じて Q&A パフォーマンスを評価できます。
手順
OpenSearch コンソール にログオンします。
宛先リージョンを選択し、[OpenSearch LLM ベースの対話型検索エディション] に切り替えます。
インスタンスリストで、宛先インスタンスの右側にある [管理] をクリックします。左側のナビゲーションウィンドウで、[効果比較] を選択します。
[評価データセット] タブで、[評価データセットの作成] をクリックし、評価データセット名を入力し、[データサンプル] に従って Excel または JSON 形式で評価データセットをアップロードします。
説明正確な評価結果を得るには、評価データセットには少なくとも 50 件の質問を含める必要があります。

ダウンロード: 評価データセットをダウンロードします。
削除: 評価タスクで評価データセットを削除します。
次のステップ
テストデータセット
1. 大学ウェブサイト入学データセット
概要: 元のドキュメントライブラリは、中国人民大学入学ウェブサイトからのもので、内容は主に入学ポリシー、学科紹介などです。
出典: https://arxiv.org/abs/2406.05654
データセット: domainrag_xlsx_corpus.xlsx
Q&A セット: basic_qa_anslen1.xlsx
2. 保険約款に基づく質問応答
概要: 元のドキュメントライブラリのコンテンツは、さまざまな保険商品とそれに対応する約款からのものです。
出典: https://tianchi.aliyun.com/competition/entrance/532194/information
データセット: tianchi_doc_with_title.json
Q&A セット: dev_qa_sample_50_for_llm.xlsx
3. CRUD ニュースデータセット
概要: 元のドキュメントライブラリのコンテンツは、中国のニュースウェブサイト ( 2023 年 7 月以降のニュース) からのものです。
出典: https://arxiv.org/abs/2401.17043
データセット (コンソールのサイズ要件により 3 つの部分に分割):
Q&A セット: crud_1doc_qa_sample100_for_llm.xlsx