すべてのプロダクト
Search
ドキュメントセンター

OpenSearch:データのインポート

最終更新日:Feb 15, 2025

OpenSearch LLM-based Conversational Search Edition では、構造化データ、非構造化データ、Web ページ、テーブルなど、さまざまなデータをインポートできます。このトピックでは、OpenSearch コンソールでデータをインポートする方法について説明します。

データ構造

プライマリテーブルは、スコア、ID、タイトル、カテゴリ、URL、コンテンツ、タイムスタンプという固定のデータ構造を使用します。

フィールド

タイプ

説明

score

FLOAT

ドキュメントのスコア。

id

LITERAL

ドキュメントの一意の ID。

title

TEXT

ドキュメントのタイトル。

category

LITERAL_ARRAY

ドキュメントのカテゴリ。

url

LITERAL

ドキュメントの URL。

content

TEXT

ドキュメントのコンテンツ。

timestamp

INT

ドキュメントのタイムスタンプ。ドキュメントの新しさを示します。

説明
  • 構造化データをアップロードする場合、スコア、タイトル、カテゴリ、URL、タイムスタンプの各フィールドはオプションです。

  • スコアフィールドとタイムスタンプフィールドは、ドキュメントの取得に関連しています。 これら 2 つのフィールドの構成方法の詳細については、「ドキュメント取得パラメーター」をご参照ください。

  • カテゴリフィールドの値には、カンマ (,) で区切られた複数の項目を含めることができます。 詳細については、「カスタムパラメーター」をご参照ください。

準備

  1. OpenSearch コンソール にログオンします。

  2. 上部のナビゲーションバーで、インスタンスが存在するリージョンを選択します。 左上隅で、[opensearch Llm-based Conversational Search Edition] を選択します。

  3. インスタンス管理ページで、管理するインスタンスを見つけ、[アクション] 列の [管理] をクリックします。 左側のペインで、[構成センター] > [データ構成] を選択し、ビジネス要件に基づいてデータインポート方法を選択します。

ファイルのアップロード

[ファイルのインポート] をクリックします。 [ファイルのインポート] パネルが表示されます。

image

  • 非構造化データ:DOC、DOCX、PDF、HTML、TXT、PPT、PPTX 形式のファイルをアップロードできます。 1 つのファイルのサイズは 128 MB を超えることはできません。 複数のファイルを同時にアップロードできます。

    説明

    Word ファイルに画像が多すぎる場合は、アップロードを高速化するためにファイル形式を PDF に変換することをお勧めします。

  • 構造化データ:UTF-8 でエンコードされた JSON ファイルまたは Excel ファイルをアップロードできます。 1 つのファイルのサイズは 128 MB を超えることはできません。 複数のファイルを同時にアップロードできます。 データ サンプル をクリックして、データ形式を表示できます。

    説明
    • テーブル名には、文字、数字、アンダースコア (_) を使用できます。 名前は最大 20 文字までです。

    • フィールド名には、文字とアンダースコア (_) を使用でき、アンダースコア (_) で始めることはできません。 名前は最大 30 文字までです。

    • 各 Excel ファイルの最大 30 個のフィールドをインポートしてクエリできます。 超過したフィールドは無視されます。

PushKnowledgeDocuments API 操作を呼び出して、複数のドキュメントを一度にプッシュできます。

Web ページからのデータのインポート

Web ページ URL のインポートWeb ページのインポートインポート をクリックします。 [Web ページ URL のインポート] パネルの タブで、URL を 1 行に 1 つずつ入力し、 をクリックします。

网页链接.png

Web サイトからのデータのインポート

  1. [Web ページ URL のインポート] をクリックします。 [Web ページ URL のインポート] パネルで、[Web サイトのインポート] タブをクリックします。 [Web サイトのインポート] タブで、[タスクの作成] をクリックします。 [タスクの作成] ダイアログボックスで、[Web サイト URL] パラメーターと [カテゴリ] パラメーターを構成し、[OK] をクリックします。 ビジネス要件に基づいて、URL フィルタリング、XPath セレクター、CSS セレクターのパラメーターを構成できます。

    新建任务.png

    説明
    • Web サイト URL:コンテンツをインポートする Web サイトの URL。

    • カテゴリ:インポートするコンテンツのカテゴリ。

    • URL フィルタリング:URL フィルタリングルール。 デフォルトのルールは、Web サイト URL で始まる正規表現です。 たとえば、Web サイト URL が http://www.abc.com/ の場合、デフォルトの正規表現は http://www\.abc\.com/.* です。

    • XPath セレクター:インポートする要素を指定するセレクター。 たとえば、div タグのコンテンツをインポートする場合、このパラメーターを //div に設定します。

    • CSS セレクター:インポートする要素を指定するセレクター。 たとえば、<div class="content">Web ページコンテンツ</div> 形式のデータをインポートする場合、このパラメーターを div.content に設定します。

    • .png、.jpg、.jpeg で終わる URL はサポートされていません。

  2. パラメーターを構成した後、[OK] をクリックします。クロールされた Web ページの数を確認できます。次に、[OK] をクリックして Web サイトのコンテンツをインポートします。

    导入完成.png

テーブルのインポート

詳細については、「テーブルベースの対話型検索の実装」をご参照ください。

データのクエリ

ドキュメントがアップロードされると、[データクエリ] セクションでドキュメントの総数を確認できます。 また、Q&A テスト ページで Q&A テストを実行することもできます。 さらに、プライマリキーに基づいてドキュメントを表示または削除できます。

  1. ドキュメントの表示

    ドロップダウンリストから id フィールドを選択し、ドキュメントの ID を入力して、検索 アイコンをクリックしてドキュメントを見つけます。 次に、ドキュメントの詳細を表示できます。

    image.png

  2. ドキュメントの削除

    ドロップダウンリストから id フィールドを選択し、ドキュメントの ID を入力して、検索アイコンをクリックしてドキュメントを見つけます。 [アクション] 列の [その他] > 削除 を選択してドキュメントを削除します。

    ストレージ容量が不足している場合、ドキュメントの削除は失敗します。 まずストレージ容量を拡張する必要があります。

    image.png

  3. ドキュメントの編集

    ドロップダウン リストから id フィールドを選択し、ドキュメントの ID を入力して、[検索] アイコンをクリックしてドキュメントを見つけます。[アクション] 列の [編集] をクリックして、ドキュメントの編集可能なフィールドを変更します。

    image.png

使用上の注意

  • 各ドキュメントのプライマリキー値は一意です。 2 つのドキュメントのプライマリキー値が同じ場合、新しいドキュメントは以前にインポートされたドキュメントを上書きします。

  • 一度にアップロードする構造化データのサイズは 2 MB を超えることはできません。

  • アップロードする非構造化データファイルのサイズは 128 MB を超えることはできません。

  • データがアップロードされた後、データをクエリできるようになるまでの待機時間は、更新されるデータ量によって異なります。