OpenSearch LLM-based Conversational Search Edition は、構造化データ、非構造化データ、Web ページ、テーブル、動画のインポートをサポートしています。コンソールですべてのデータソースを設定および管理できます。
データ構造
プライマリテーブルには固定のデータ構造があり、score、id、title、category、url、content、timestamp の 7 つのフィールドがあります。
|
フィールド |
データ型 |
説明 |
|
score |
FLOAT |
ドキュメントのスコアです。 |
|
id |
LITERAL |
ドキュメントの一意の ID です。 |
|
title |
TEXT |
ドキュメントのタイトルです。 |
|
category |
LITERAL_ARRAY |
ドキュメントのカテゴリです。 |
|
url |
LITERAL |
ドキュメントの URL です。 |
|
content |
TEXT |
ドキュメントの内容です。 |
|
timestamp |
INT |
ドキュメントの鮮度を示すタイムスタンプです。 |
-
構造化データをアップロードする場合、
score、title、category、url、timestampフィールドはオプションです。 -
scoreとtimestampフィールドは、ドキュメント検索とソートに影響します。 詳細については、ドキュメント検索パラメーターをご参照ください。 -
categoryフィールドは複数の値をサポートしています。 各値はコンマ (,) で区切ります。 詳細については、パラメーターの説明をご参照ください。
事前準備
-
OpenSearch コンソールにログインします。
-
対象リージョンを選択し、[OpenSearch LLM-based Conversational Search Edition] に切り替えます。
-
インスタンス管理ページで、対象インスタンスの右側にある [管理] をクリックし、左側のメニューで [設定センター] > [データ設定] を選択します。ここで、ビジネスニーズに基づいてデータのインポート方法を選択できます。
ファイルのインポート
[ファイルインポート] をクリックしてファイルインポートページを開きます。
-
非構造化データ:DOC、DOCX、PDF、HTML、TXT、PPT、PPTX、XLS、XLSX 形式のファイル、および MP4、AVI、MKV、MOV 形式の動画ファイルをアップロードできます。 ファイル 1 つあたりの最大サイズは 128 MB です。 一度に複数のファイルをアップロードできます。
説明Word ドキュメントに多数の画像が含まれている場合は、処理を高速化するために、アップロードする前に PDF 形式に変換してください。
-
構造化データ:UTF-8 でエンコードされた JSON または Excel 形式のファイルをアップロードできます。 ファイル 1 つあたりの最大サイズは 128 MB です。 一度に複数のファイルをアップロードできます。 必要なデータ形式については、[データサンプル] をダウンロードして確認してください。
説明-
テーブル名には、英字、数字、アンダースコア (_) のみを使用でき、20 文字以内にする必要があります。
-
フィールド名には、英字とアンダースコア (_) のみを使用でき、アンダースコアで始めることはできず、30 文字以内にする必要があります。
-
各 Excel ファイルでは、最大 30 個のフィールドの書き込みとクエリが可能です。 追加のフィールドは無視されます。
-
API を使用してドキュメントをバッチでプッシュするには、ドキュメントのプッシュをご参照ください。
Web ページのインポート
[Web ページ URL インポート] をクリックし、[Web ページインポート] タブを選択して、Web ページの URL を入力します。 URL を 1 行に 1 つずつ入力します。 次に、[インポート] をクリックしてインポートを完了します。
Web サイトからのインポート
-
[Web ページ URL インポート] をクリックし、[Web サイトインポート] タブを選択して、[タスクの作成] をクリックします。 [Web サイト URL] と [カテゴリ] の名前を入力します。 必要に応じて、URL フィルタリング、XPath セレクター、CSS セレクターを設定することもできます。
説明-
Web サイト URL:クロールする Web サイトの URL です。
-
カテゴリ:指定された URL からのコンテンツのカテゴリ名です。
-
URL フィルタリング:URL をフィルタリングするための正規表現です。 デフォルトでは、このルールは指定された Web サイト URL 配下のすべてのページに一致します。 たとえば、Web サイトの URL が
http://www.abc.com/の場合、デフォルトの正規表現はhttp://www\\.abc\\.com/.*です。 -
XPath セレクター:抽出するコンテンツを指定する XPath セレクターです。 たとえば、
<div>タグ内のすべてのコンテンツを抽出するには、このパラメーターを//divに設定します。 -
CSS セレクター:抽出するコンテンツを指定する CSS セレクターです。 たとえば、
<div class="content">Web page content</div>からコンテンツを抽出するには、このパラメーターをdiv.contentに設定します。 -
.png、.jpg、または .jpeg で終わる URL はサポートされていません。
-
-
タスクが完了したら、クロールされた Web ページの数を確認できます。 次に、[OK] をクリックしてインポートを完了します。
テーブルのインポート
詳細については、テーブルベースの Q&A をご参照ください。
データのクエリと管理
ドキュメントがアップロードされると、Q&A テストページでドキュメントの総数を確認し、Q&A の有効性をテストできます。 また、プライマリキーを使用してドキュメントの検索、編集、削除ができます。
-
データの表示
[id] フィールドにプライマリキーを入力し、[検索] をクリックしてドキュメントの詳細を表示します。
-
データの削除
ドキュメントを削除するには、[id] フィールドにプライマリキーを入力し、[削除] をクリックし、[OK] をクリックして確定します。
ストレージ容量を超えると、削除が失敗する場合があります。 容量を拡張してから再試行してください。
-
データの編集
[id] フィールドにプライマリキーを入力し、[編集] をクリックして編集可能なフィールドを変更します。
使用上の注意
-
プライマリキー
idは一意である必要があります。 重複するプライマリキーを持つデータをインポートすると、新しいデータが既存のデータを上書きします。 -
構造化データファイル 1 つあたりの最大サイズは 128 MB です。
-
非構造化データファイル 1 つあたりの最大サイズは 128 MB です。
-
データがアップロードされた後、検索可能になるまでの時間は、その時点のデータ更新量によって異なります。