LLM 精度をベンチマークするための Q&A 評価データセットを構築する - OpenSearch

サンプルテンプレートに従って評価データセットを作成します。評価データセットには、少なくとも 50 件の質問と回答を含める必要があります。その後、評価タスクを通じて Q&A パフォーマンスを評価できます。

手順

OpenSearch コンソールにログオンします。
宛先リージョンを選択し、[OpenSearch LLM ベースの対話型検索エディション] に切り替えます。
インスタンスリストで、宛先インスタンスの右側にある [管理] をクリックします。左側のナビゲーションウィンドウで、[効果比較] を選択します。
[評価データセット] タブで、[評価データセットの作成] をクリックし、評価データセット名を入力し、[データサンプル] に従って Excel または JSON 形式で評価データセットをアップロードします。
説明
正確な評価結果を得るには、評価データセットには少なくとも 50 件の質問を含める必要があります。
ダウンロード: 評価データセットをダウンロードします。
削除: 評価タスクで評価データセットを削除します。