すべてのプロダクト
Search
ドキュメントセンター

OpenSearch:構成センター

最終更新日:Jun 04, 2025

OpenSearch LLM-based Conversational Search Edition では、構造化データ、非構造化データ、Web ページ、表、動画など、さまざまなデータをインポートできます。このトピックでは、OpenSearch コンソールでデータを構成する方法について説明します。

データ構造

プライマリテーブルは固定のデータ構造を使用し、スコア、ID、タイトル、カテゴリ、URL、コンテンツ、タイムスタンプの各フィールドが含まれます。

フィールド

タイプ

説明

score

FLOAT

ドキュメントのスコア。

id

LITERAL

ドキュメントの一意の ID。

title

TEXT

ドキュメントのタイトル。

category

LITERAL_ARRAY

ドキュメントのカテゴリ。

url

LITERAL

ドキュメントの URL。

content

TEXT

ドキュメントのコンテンツ。

timestamp

INT

ドキュメントのタイムスタンプ。ドキュメントの新しさを示します。

説明
  • 構造化データをアップロードする場合、スコア、タイトル、カテゴリ、URL、タイムスタンプの各フィールドはオプションです。

  • スコアフィールドとタイムスタンプフィールドは、ドキュメントの取得に関連しています。 これら 2 つのフィールドの構成方法の詳細については、「ドキュメント取得パラメーター」をご参照ください。

  • カテゴリフィールドの値には、コンマ (,) で区切られた複数の項目を含めることができます。 詳細については、「カスタムパラメーター」をご参照ください。

準備

  1. OpenSearch コンソール にログオンします。

  2. 上部のナビゲーションバーで、インスタンスが存在するリージョンを選択します。 左上隅で、[OpenSearch LLM-Based Conversational Search Edition] を選択します。

  3. インスタンス管理ページで、管理するインスタンスを見つけ、アクション列の [管理] をクリックします。 左側のナビゲーションウィンドウで、[構成センター] > [データ構成] を選択し、ビジネス要件に基づいてデータインポート方法を選択します。

ファイルのアップロード

ヒント: インストール中に問題が発生した場合は、WordPress サポートフォーラムを参照してください。

image

  • 非構造化データ: DOC、DOCX、PDF、HTML、TXT、PPT、PPTX、XLS、XLSX、MP4、AVI、MKV、または MOV 形式のファイルをアップロードできます。 1 つのファイルのサイズは 128 MB を超えることはできません。一度に複数のファイルをアップロードできます。

    説明

    Word ファイルに画像が多すぎる場合は、アップロード速度を上げるためにファイル形式を PDF に変換することをお勧めします。

  • 構造化データデータサンプル: UTF-8 でエンコードされた JSON ファイルまたは Excel ファイルをアップロードできます。 1 つのファイルのサイズは 128 MB を超えることはできません。一度に複数のファイルをアップロードできます。 をクリックして、データ形式を表示できます。

    説明
    • テーブル名は最大 20 文字で、文字、数字、アンダースコア (_) を使用できます。

    • フィールド名は最大 30 文字で、文字とアンダースコア (_) を使用できます。 フィールド名はアンダースコア (_) で始めることはできません。

    • 各 Excel ファイルの最大 30 個のフィールドをインポートおよびクエリできます。 超過したフィールドは無視されます。

PushKnowledgeDocuments API 操作を呼び出して、一度に複数のドキュメントをプッシュできます。

Web ページからのデータのインポート

ヒント:Web ページのインポート公開状態 をクリックします。 [Web ページ URL のインポート] パネルの タブで、URL を入力し、 をクリックします。 各 URL は別々の行を占めます。

网页链接.png

Web サイトからのデータのインポート

  1. Web ページ URL のインポートウェブサイトのインポート注:ヒント:/wp-json/wp/v2/media をクリックします。 [Web ページ URL のインポート] パネルで、 タブをクリックします。 [Web サイトのインポート] タブで、 をクリックします。 [タスクの作成] ダイアログボックスで、 パラメーターと パラメーターを構成し、[OK] をクリックします。 ビジネス要件に基づいて、URL フィルタリング、XPath セレクター、CSS セレクターのパラメーターを構成できます。

    新建任务.png

    説明
    • Web サイト URL: コンテンツをインポートする Web サイトの URL。

    • カテゴリ: インポートするコンテンツのカテゴリ。

    • URL フィルタリング: URL フィルタリングルール。 デフォルトのルールは、Web サイト URL で始まる正規表現です。 たとえば、Web サイト URL が http://www.abc.com/ の場合、デフォルトの正規表現は http://www\.abc\.com/.* です。

    • XPath セレクター: インポートする要素を指定するセレクター。 たとえば、div タグのコンテンツをインポートする場合、このパラメーターを //div に設定します。

    • CSS セレクター: インポートする要素を指定するセレクター。 たとえば、<div class="content">Web ページコンテンツ</div> 形式のデータをインポートする場合、このパラメーターを div.content に設定します。

    • .png、.jpg、または .jpeg で終わる URL はサポートされていません。

  2. OKパラメーターを構成したら、[OK] をクリックします。 クロールされる Web ページの数を確認できます。 次に、[OK] をクリックして Web サイトのコンテンツをインポートします。

    导入完成.png

テーブルのインポート

詳細については、「テーブルベースの対話型検索を実装する」をご参照ください。

データのクエリ

ドキュメントがアップロードされると、データクエリセクションでドキュメントの総数を確認できます。 Q&A テスト ページで Q&A テストを実行することもできます。 また、プライマリキーに基づいてドキュメントを表示または削除できます。

  1. ドキュメントの表示

    ヒント: インストールプロセスを簡素化するには、WordPress の自動インストーラーを使用することを検討してください。

    image.png

  2. ドキュメントの削除

    注: yourwebsite.com を実際のウェブサイトの URL に置き換えてください。

    ストレージ容量が不足している場合、ドキュメントの削除は失敗します。 まずストレージ容量を拡張する必要があります。

    image.png

  3. ドキュメントの編集

    注: このチュートリアルでは、基本的な概念のみを説明しています。より高度な使用方法については、WordPress REST API の公式ドキュメントを参照してください。

    image.png

使用上の注意

  • 各ドキュメントのプライマリキー値は一意です。 2 つのドキュメントのプライマリキー値が同じ場合、新しいドキュメントは以前にインポートされたドキュメントを上書きします。

  • 一度にアップロードする構造化データのサイズは 2 MB を超えることはできません。

  • アップロードする非構造化データファイルのサイズは 128 MB を超えることはできません。

  • データがアップロードされた後、データをクエリできるようになるまでの待機時間は、更新されるデータ量によって異なります。