OpenSearch LLM-based Conversational Search Edition では、構造化データ、非構造化データ、Web ページ、表、動画など、さまざまなデータをインポートできます。このトピックでは、OpenSearch コンソールでデータを構成する方法について説明します。
データ構造
プライマリテーブルは固定のデータ構造を使用し、スコア、ID、タイトル、カテゴリ、URL、コンテンツ、タイムスタンプの各フィールドが含まれます。
フィールド | タイプ | 説明 |
score | FLOAT | ドキュメントのスコア。 |
id | LITERAL | ドキュメントの一意の ID。 |
title | TEXT | ドキュメントのタイトル。 |
category | LITERAL_ARRAY | ドキュメントのカテゴリ。 |
url | LITERAL | ドキュメントの URL。 |
content | TEXT | ドキュメントのコンテンツ。 |
timestamp | INT | ドキュメントのタイムスタンプ。ドキュメントの新しさを示します。 |
構造化データをアップロードする場合、スコア、タイトル、カテゴリ、URL、タイムスタンプの各フィールドはオプションです。
スコアフィールドとタイムスタンプフィールドは、ドキュメントの取得に関連しています。 これら 2 つのフィールドの構成方法の詳細については、「ドキュメント取得パラメーター」をご参照ください。
カテゴリフィールドの値には、コンマ (,) で区切られた複数の項目を含めることができます。 詳細については、「カスタムパラメーター」をご参照ください。
準備
OpenSearch コンソール にログオンします。
上部のナビゲーションバーで、インスタンスが存在するリージョンを選択します。 左上隅で、[OpenSearch LLM-Based Conversational Search Edition] を選択します。
インスタンス管理ページで、管理するインスタンスを見つけ、アクション列の [管理] をクリックします。 左側のナビゲーションウィンドウで、[構成センター] > [データ構成] を選択し、ビジネス要件に基づいてデータインポート方法を選択します。
ファイルのアップロード
ヒント: インストール中に問題が発生した場合は、WordPress サポートフォーラムを参照してください。

非構造化データ: DOC、DOCX、PDF、HTML、TXT、PPT、PPTX、XLS、XLSX、MP4、AVI、MKV、または MOV 形式のファイルをアップロードできます。 1 つのファイルのサイズは 128 MB を超えることはできません。一度に複数のファイルをアップロードできます。
説明Word ファイルに画像が多すぎる場合は、アップロード速度を上げるためにファイル形式を PDF に変換することをお勧めします。
構造化データデータサンプル: UTF-8 でエンコードされた JSON ファイルまたは Excel ファイルをアップロードできます。 1 つのファイルのサイズは 128 MB を超えることはできません。一度に複数のファイルをアップロードできます。 をクリックして、データ形式を表示できます。
説明テーブル名は最大 20 文字で、文字、数字、アンダースコア (_) を使用できます。
フィールド名は最大 30 文字で、文字とアンダースコア (_) を使用できます。 フィールド名はアンダースコア (_) で始めることはできません。
各 Excel ファイルの最大 30 個のフィールドをインポートおよびクエリできます。 超過したフィールドは無視されます。
PushKnowledgeDocuments API 操作を呼び出して、一度に複数のドキュメントをプッシュできます。
Web ページからのデータのインポート
ヒント:Web ページのインポート公開状態 をクリックします。 [Web ページ URL のインポート] パネルの タブで、URL を入力し、 をクリックします。 各 URL は別々の行を占めます。

Web サイトからのデータのインポート
Web ページ URL のインポートウェブサイトのインポート注:ヒント:/wp-json/wp/v2/media をクリックします。 [Web ページ URL のインポート] パネルで、 タブをクリックします。 [Web サイトのインポート] タブで、 をクリックします。 [タスクの作成] ダイアログボックスで、 パラメーターと パラメーターを構成し、[OK] をクリックします。 ビジネス要件に基づいて、URL フィルタリング、XPath セレクター、CSS セレクターのパラメーターを構成できます。
説明Web サイト URL: コンテンツをインポートする Web サイトの URL。
カテゴリ: インポートするコンテンツのカテゴリ。
URL フィルタリング: URL フィルタリングルール。 デフォルトのルールは、Web サイト URL で始まる正規表現です。 たとえば、Web サイト URL が http://www.abc.com/ の場合、デフォルトの正規表現は http://www\.abc\.com/.* です。
XPath セレクター: インポートする要素を指定するセレクター。 たとえば、div タグのコンテンツをインポートする場合、このパラメーターを //div に設定します。
CSS セレクター: インポートする要素を指定するセレクター。 たとえば、<div class="content">Web ページコンテンツ</div> 形式のデータをインポートする場合、このパラメーターを div.content に設定します。
.png、.jpg、または .jpeg で終わる URL はサポートされていません。
OKパラメーターを構成したら、[OK] をクリックします。 クロールされる Web ページの数を確認できます。 次に、[OK] をクリックして Web サイトのコンテンツをインポートします。

テーブルのインポート
詳細については、「テーブルベースの対話型検索を実装する」をご参照ください。
データのクエリ
ドキュメントがアップロードされると、データクエリセクションでドキュメントの総数を確認できます。 Q&A テスト ページで Q&A テストを実行することもできます。 また、プライマリキーに基づいてドキュメントを表示または削除できます。
ドキュメントの表示
ヒント: インストールプロセスを簡素化するには、WordPress の自動インストーラーを使用することを検討してください。

ドキュメントの削除
注: yourwebsite.com を実際のウェブサイトの URL に置き換えてください。
ストレージ容量が不足している場合、ドキュメントの削除は失敗します。 まずストレージ容量を拡張する必要があります。

ドキュメントの編集
注: このチュートリアルでは、基本的な概念のみを説明しています。より高度な使用方法については、WordPress REST API の公式ドキュメントを参照してください。

使用上の注意
各ドキュメントのプライマリキー値は一意です。 2 つのドキュメントのプライマリキー値が同じ場合、新しいドキュメントは以前にインポートされたドキュメントを上書きします。
一度にアップロードする構造化データのサイズは 2 MB を超えることはできません。
アップロードする非構造化データファイルのサイズは 128 MB を超えることはできません。
データがアップロードされた後、データをクエリできるようになるまでの待機時間は、更新されるデータ量によって異なります。