データ設定 - OpenSearch - Alibaba Cloud ドキュメントセンター

データ構造

プライマリテーブルには固定のデータ構造があり、score、id、title、category、url、content、timestamp の 7 つのフィールドがあります。

フィールド	データ型	説明
score	FLOAT	ドキュメントのスコアです。
id	LITERAL	ドキュメントの一意の ID です。
title	TEXT	ドキュメントのタイトルです。
category	LITERAL_ARRAY	ドキュメントのカテゴリです。
url	LITERAL	ドキュメントの URL です。
content	TEXT	ドキュメントの内容です。
timestamp	INT	ドキュメントの鮮度を示すタイムスタンプです。

説明

構造化データをアップロードする場合、score、title、category、url、timestamp フィールドはオプションです。
score と timestamp フィールドは、ドキュメント検索とソートに影響します。詳細については、ドキュメント検索パラメーターをご参照ください。
category フィールドは複数の値をサポートしています。各値はコンマ (,) で区切ります。詳細については、パラメーターの説明をご参照ください。

事前準備

OpenSearch コンソールにログインします。
対象リージョンを選択し、[OpenSearch LLM-based Conversational Search Edition] に切り替えます。
インスタンス管理ページで、対象インスタンスの右側にある [管理] をクリックし、左側のメニューで [設定センター] > [データ設定] を選択します。ここで、ビジネスニーズに基づいてデータのインポート方法を選択できます。

ファイルのインポート

[ファイルインポート] をクリックしてファイルインポートページを開きます。

非構造化データ：DOC、DOCX、PDF、HTML、TXT、PPT、PPTX、XLS、XLSX 形式のファイル、および MP4、AVI、MKV、MOV 形式の動画ファイルをアップロードできます。ファイル 1 つあたりの最大サイズは 128 MB です。一度に複数のファイルをアップロードできます。

説明
Word ドキュメントに多数の画像が含まれている場合は、処理を高速化するために、アップロードする前に PDF 形式に変換してください。
構造化データ：UTF-8 でエンコードされた JSON または Excel 形式のファイルをアップロードできます。ファイル 1 つあたりの最大サイズは 128 MB です。一度に複数のファイルをアップロードできます。必要なデータ形式については、[データサンプル] をダウンロードして確認してください。
説明
- テーブル名には、英字、数字、アンダースコア (_) のみを使用でき、20 文字以内にする必要があります。
- フィールド名には、英字とアンダースコア (_) のみを使用でき、アンダースコアで始めることはできず、30 文字以内にする必要があります。
- 各 Excel ファイルでは、最大 30 個のフィールドの書き込みとクエリが可能です。追加のフィールドは無視されます。

API を使用してドキュメントをバッチでプッシュするには、ドキュメントのプッシュをご参照ください。

Web ページのインポート

[Web ページ URL インポート] をクリックし、[Web ページインポート] タブを選択して、Web ページの URL を入力します。 URL を 1 行に 1 つずつ入力します。次に、[インポート] をクリックしてインポートを完了します。

Web サイトからのインポート

[Web ページ URL インポート] をクリックし、[Web サイトインポート] タブを選択して、[タスクの作成] をクリックします。 [Web サイト URL] と [カテゴリ] の名前を入力します。必要に応じて、URL フィルタリング、XPath セレクター、CSS セレクターを設定することもできます。
説明
- Web サイト URL：クロールする Web サイトの URL です。
- カテゴリ：指定された URL からのコンテンツのカテゴリ名です。
- URL フィルタリング：URL をフィルタリングするための正規表現です。デフォルトでは、このルールは指定された Web サイト URL 配下のすべてのページに一致します。たとえば、Web サイトの URL が http://www.abc.com/ の場合、デフォルトの正規表現は http://www\\.abc\\.com/.* です。
- XPath セレクター：抽出するコンテンツを指定する XPath セレクターです。たとえば、<div> タグ内のすべてのコンテンツを抽出するには、このパラメーターを //div に設定します。
- CSS セレクター：抽出するコンテンツを指定する CSS セレクターです。たとえば、<div class="content">Web page content</div> からコンテンツを抽出するには、このパラメーターを div.content に設定します。
- .png、.jpg、または .jpeg で終わる URL はサポートされていません。
タスクが完了したら、クロールされた Web ページの数を確認できます。次に、[OK] をクリックしてインポートを完了します。

テーブルのインポート

詳細については、テーブルベースの Q&A をご参照ください。

データのクエリと管理

ドキュメントがアップロードされると、Q&A テストページでドキュメントの総数を確認し、Q&A の有効性をテストできます。また、プライマリキーを使用してドキュメントの検索、編集、削除ができます。

データの表示

[id] フィールドにプライマリキーを入力し、[検索] をクリックしてドキュメントの詳細を表示します。
データの削除

ドキュメントを削除するには、[id] フィールドにプライマリキーを入力し、[削除] をクリックし、[OK] をクリックして確定します。

ストレージ容量を超えると、削除が失敗する場合があります。容量を拡張してから再試行してください。
データの編集

[id] フィールドにプライマリキーを入力し、[編集] をクリックして編集可能なフィールドを変更します。

使用上の注意

プライマリキー id は一意である必要があります。重複するプライマリキーを持つデータをインポートすると、新しいデータが既存のデータを上書きします。
構造化データファイル 1 つあたりの最大サイズは 128 MB です。
非構造化データファイル 1 つあたりの最大サイズは 128 MB です。
データがアップロードされた後、検索可能になるまでの時間は、その時点のデータ更新量によって異なります。