LLM ベース対話型検索へのファイルと Web ページからのデータインポート - OpenSearch

OpenSearch LLM-based Conversational Search Edition では、構造化データ、非構造化データ、Web ページ、テーブルなど、さまざまなデータをインポートできます。このトピックでは、OpenSearch コンソールでデータをインポートする方法について説明します。

データ構造

プライマリテーブルは、スコア、ID、タイトル、カテゴリ、URL、コンテンツ、タイムスタンプという固定のデータ構造を使用します。

フィールド	タイプ	説明
score	FLOAT	ドキュメントのスコア。
id	LITERAL	ドキュメントの一意の ID。
title	TEXT	ドキュメントのタイトル。
category	LITERAL_ARRAY	ドキュメントのカテゴリ。
url	LITERAL	ドキュメントの URL。
content	TEXT	ドキュメントのコンテンツ。
timestamp	INT	ドキュメントのタイムスタンプ。ドキュメントの新しさを示します。

説明

構造化データをアップロードする場合、スコア、タイトル、カテゴリ、URL、タイムスタンプの各フィールドはオプションです。
スコアフィールドとタイムスタンプフィールドは、ドキュメントの取得に関連しています。これら 2 つのフィールドの構成方法の詳細については、「ドキュメント取得パラメーター」をご参照ください。
カテゴリフィールドの値には、カンマ (,) で区切られた複数の項目を含めることができます。詳細については、「カスタムパラメーター」をご参照ください。

準備

OpenSearch コンソールにログオンします。
上部のナビゲーションバーで、インスタンスが存在するリージョンを選択します。左上隅で、[opensearch Llm-based Conversational Search Edition] を選択します。
インスタンス管理ページで、管理するインスタンスを見つけ、[アクション] 列の [管理] をクリックします。左側のペインで、[構成センター] > [データ構成] を選択し、ビジネス要件に基づいてデータインポート方法を選択します。

ファイルのアップロード

[ファイルのインポート] をクリックします。 [ファイルのインポート] パネルが表示されます。

非構造化データ：DOC、DOCX、PDF、HTML、TXT、PPT、PPTX 形式のファイルをアップロードできます。 1 つのファイルのサイズは 128 MB を超えることはできません。複数のファイルを同時にアップロードできます。
説明
Word ファイルに画像が多すぎる場合は、アップロードを高速化するためにファイル形式を PDF に変換することをお勧めします。
構造化データ：UTF-8 でエンコードされた JSON ファイルまたは Excel ファイルをアップロードできます。 1 つのファイルのサイズは 128 MB を超えることはできません。複数のファイルを同時にアップロードできます。 データサンプル をクリックして、データ形式を表示できます。
説明
- テーブル名には、文字、数字、アンダースコア (_) を使用できます。名前は最大 20 文字までです。
- フィールド名には、文字とアンダースコア (_) を使用でき、アンダースコア (_) で始めることはできません。名前は最大 30 文字までです。
- 各 Excel ファイルの最大 30 個のフィールドをインポートしてクエリできます。超過したフィールドは無視されます。

PushKnowledgeDocuments API 操作を呼び出して、複数のドキュメントを一度にプッシュできます。

Web ページからのデータのインポート

Web ページ URL のインポートWeb ページのインポートインポート をクリックします。 [Web ページ URL のインポート] パネルのタブで、URL を 1 行に 1 つずつ入力し、をクリックします。

网页链接.png

Web サイトからのデータのインポート

[Web ページ URL のインポート] をクリックします。 [Web ページ URL のインポート] パネルで、[Web サイトのインポート] タブをクリックします。 [Web サイトのインポート] タブで、[タスクの作成] をクリックします。 [タスクの作成] ダイアログボックスで、[Web サイト URL] パラメーターと [カテゴリ] パラメーターを構成し、[OK] をクリックします。ビジネス要件に基づいて、URL フィルタリング、XPath セレクター、CSS セレクターのパラメーターを構成できます。
説明
- Web サイト URL：コンテンツをインポートする Web サイトの URL。
- カテゴリ：インポートするコンテンツのカテゴリ。
- URL フィルタリング：URL フィルタリングルール。デフォルトのルールは、Web サイト URL で始まる正規表現です。たとえば、Web サイト URL が http://www.abc.com/ の場合、デフォルトの正規表現は http://www\.abc\.com/.* です。
- XPath セレクター：インポートする要素を指定するセレクター。たとえば、div タグのコンテンツをインポートする場合、このパラメーターを //div に設定します。
- CSS セレクター：インポートする要素を指定するセレクター。たとえば、<div class="content">Web ページコンテンツ</div> 形式のデータをインポートする場合、このパラメーターを div.content に設定します。
- .png、.jpg、.jpeg で終わる URL はサポートされていません。
パラメーターを構成した後、[OK] をクリックします。クロールされた Web ページの数を確認できます。次に、[OK] をクリックして Web サイトのコンテンツをインポートします。

テーブルのインポート

詳細については、「テーブルベースの対話型検索の実装」をご参照ください。

データのクエリ

ドキュメントがアップロードされると、[データクエリ] セクションでドキュメントの総数を確認できます。また、Q&A テストページで Q&A テストを実行することもできます。さらに、プライマリキーに基づいてドキュメントを表示または削除できます。

ドキュメントの表示
ドロップダウンリストから id フィールドを選択し、ドキュメントの ID を入力して、検索アイコンをクリックしてドキュメントを見つけます。次に、ドキュメントの詳細を表示できます。
ドキュメントの削除
ドロップダウンリストから id フィールドを選択し、ドキュメントの ID を入力して、検索アイコンをクリックしてドキュメントを見つけます。 [アクション] 列の [その他] > 削除を選択してドキュメントを削除します。
ストレージ容量が不足している場合、ドキュメントの削除は失敗します。まずストレージ容量を拡張する必要があります。
ドキュメントの編集
ドロップダウンリストから id フィールドを選択し、ドキュメントの ID を入力して、[検索] アイコンをクリックしてドキュメントを見つけます。[アクション] 列の [編集] をクリックして、ドキュメントの編集可能なフィールドを変更します。

使用上の注意

各ドキュメントのプライマリキー値は一意です。 2 つのドキュメントのプライマリキー値が同じ場合、新しいドキュメントは以前にインポートされたドキュメントを上書きします。
一度にアップロードする構造化データのサイズは 2 MB を超えることはできません。
アップロードする非構造化データファイルのサイズは 128 MB を超えることはできません。
データがアップロードされた後、データをクエリできるようになるまでの待機時間は、更新されるデータ量によって異なります。