OpenSearch LLM-based Conversational Search Edition では、構造化データ、非構造化データ、Web ページ、テーブルなど、さまざまなデータをインポートできます。このトピックでは、OpenSearch コンソールでデータをインポートする方法について説明します。
データ構造
プライマリテーブルは、スコア、ID、タイトル、カテゴリ、URL、コンテンツ、タイムスタンプという固定のデータ構造を使用します。
フィールド | タイプ | 説明 |
score | FLOAT | ドキュメントのスコア。 |
id | LITERAL | ドキュメントの一意の ID。 |
title | TEXT | ドキュメントのタイトル。 |
category | LITERAL_ARRAY | ドキュメントのカテゴリ。 |
url | LITERAL | ドキュメントの URL。 |
content | TEXT | ドキュメントのコンテンツ。 |
timestamp | INT | ドキュメントのタイムスタンプ。ドキュメントの新しさを示します。 |
構造化データをアップロードする場合、スコア、タイトル、カテゴリ、URL、タイムスタンプの各フィールドはオプションです。
スコアフィールドとタイムスタンプフィールドは、ドキュメントの取得に関連しています。 これら 2 つのフィールドの構成方法の詳細については、「ドキュメント取得パラメーター」をご参照ください。
カテゴリフィールドの値には、カンマ (,) で区切られた複数の項目を含めることができます。 詳細については、「カスタムパラメーター」をご参照ください。
準備
OpenSearch コンソール にログオンします。
上部のナビゲーションバーで、インスタンスが存在するリージョンを選択します。 左上隅で、[opensearch Llm-based Conversational Search Edition] を選択します。
インスタンス管理ページで、管理するインスタンスを見つけ、[アクション] 列の [管理] をクリックします。 左側のペインで、[構成センター] > [データ構成] を選択し、ビジネス要件に基づいてデータインポート方法を選択します。
ファイルのアップロード
[ファイルのインポート] をクリックします。 [ファイルのインポート] パネルが表示されます。

非構造化データ:DOC、DOCX、PDF、HTML、TXT、PPT、PPTX 形式のファイルをアップロードできます。 1 つのファイルのサイズは 128 MB を超えることはできません。 複数のファイルを同時にアップロードできます。
説明Word ファイルに画像が多すぎる場合は、アップロードを高速化するためにファイル形式を PDF に変換することをお勧めします。
構造化データ:UTF-8 でエンコードされた JSON ファイルまたは Excel ファイルをアップロードできます。 1 つのファイルのサイズは 128 MB を超えることはできません。 複数のファイルを同時にアップロードできます。 データ サンプル をクリックして、データ形式を表示できます。
説明テーブル名には、文字、数字、アンダースコア (_) を使用できます。 名前は最大 20 文字までです。
フィールド名には、文字とアンダースコア (_) を使用でき、アンダースコア (_) で始めることはできません。 名前は最大 30 文字までです。
各 Excel ファイルの最大 30 個のフィールドをインポートしてクエリできます。 超過したフィールドは無視されます。
PushKnowledgeDocuments API 操作を呼び出して、複数のドキュメントを一度にプッシュできます。
Web ページからのデータのインポート
Web ページ URL のインポートWeb ページのインポートインポート をクリックします。 [Web ページ URL のインポート] パネルの タブで、URL を 1 行に 1 つずつ入力し、 をクリックします。

Web サイトからのデータのインポート
[Web ページ URL のインポート] をクリックします。 [Web ページ URL のインポート] パネルで、[Web サイトのインポート] タブをクリックします。 [Web サイトのインポート] タブで、[タスクの作成] をクリックします。 [タスクの作成] ダイアログボックスで、[Web サイト URL] パラメーターと [カテゴリ] パラメーターを構成し、[OK] をクリックします。 ビジネス要件に基づいて、URL フィルタリング、XPath セレクター、CSS セレクターのパラメーターを構成できます。
説明Web サイト URL:コンテンツをインポートする Web サイトの URL。
カテゴリ:インポートするコンテンツのカテゴリ。
URL フィルタリング:URL フィルタリングルール。 デフォルトのルールは、Web サイト URL で始まる正規表現です。 たとえば、Web サイト URL が http://www.abc.com/ の場合、デフォルトの正規表現は http://www\.abc\.com/.* です。
XPath セレクター:インポートする要素を指定するセレクター。 たとえば、div タグのコンテンツをインポートする場合、このパラメーターを //div に設定します。
CSS セレクター:インポートする要素を指定するセレクター。 たとえば、<div class="content">Web ページコンテンツ</div> 形式のデータをインポートする場合、このパラメーターを div.content に設定します。
.png、.jpg、.jpeg で終わる URL はサポートされていません。
パラメーターを構成した後、[OK] をクリックします。クロールされた Web ページの数を確認できます。次に、[OK] をクリックして Web サイトのコンテンツをインポートします。

テーブルのインポート
詳細については、「テーブルベースの対話型検索の実装」をご参照ください。
データのクエリ
ドキュメントがアップロードされると、[データクエリ] セクションでドキュメントの総数を確認できます。 また、Q&A テスト ページで Q&A テストを実行することもできます。 さらに、プライマリキーに基づいてドキュメントを表示または削除できます。
ドキュメントの表示
ドロップダウンリストから id フィールドを選択し、ドキュメントの ID を入力して、検索 アイコンをクリックしてドキュメントを見つけます。 次に、ドキュメントの詳細を表示できます。

ドキュメントの削除
ドロップダウンリストから id フィールドを選択し、ドキュメントの ID を入力して、検索アイコンをクリックしてドキュメントを見つけます。 [アクション] 列の [その他] > 削除 を選択してドキュメントを削除します。
ストレージ容量が不足している場合、ドキュメントの削除は失敗します。 まずストレージ容量を拡張する必要があります。

ドキュメントの編集
ドロップダウン リストから id フィールドを選択し、ドキュメントの ID を入力して、[検索] アイコンをクリックしてドキュメントを見つけます。[アクション] 列の [編集] をクリックして、ドキュメントの編集可能なフィールドを変更します。

使用上の注意
各ドキュメントのプライマリキー値は一意です。 2 つのドキュメントのプライマリキー値が同じ場合、新しいドキュメントは以前にインポートされたドキュメントを上書きします。
一度にアップロードする構造化データのサイズは 2 MB を超えることはできません。
アップロードする非構造化データファイルのサイズは 128 MB を超えることはできません。
データがアップロードされた後、データをクエリできるようになるまでの待機時間は、更新されるデータ量によって異なります。