すべてのプロダクト
Search
ドキュメントセンター

OpenSearch:用語

最終更新日:Dec 28, 2024

インスタンス管理

用語

説明

インスタンス

インスタンスは、データソーススキーマ、インデックススキーマ、データ属性など、データ構成のセットです。インスタンスは検索サービスとして機能します。

ドキュメント

ドキュメントは、構造化データの検索単位です。ドキュメントには1つ以上のフィールドを含めることができ、主キーフィールドが必要です。OpenSearchは、主キーフィールドの値に基づいて一意のドキュメントを識別します。新しいドキュメントの主キー値が既存のドキュメントと同じ場合、既存のドキュメントは新しいドキュメントによって上書きされます。

フィールド

フィールドはドキュメントの構成要素です。フィールドは、フィールド名とフィールド値で構成されます。

プラグイン

データインポート中のデータ処理を支援するために、OpenSearchはさまざまな組み込みデータ処理プラグインを提供しています。アプリケーションのスキーマを定義したり、データソースを設定したりする際に、これらのプラグインを使用することを選択できます。

ソースデータ

OpenSearchにプッシュされる元のデータ。1つ以上のソースフィールドが含まれています。

ソースフィールド

ソースフィールドは、ソースデータの最小単位です。ソースフィールドは、フィールド名とフィールド値で構成されます。サポートされているデータ型の詳細については、アプリケーションスキーマとインデックススキーマを参照してください。

インデックス

インデックスは、検索を高速化するために使用されるデータ構造です。1つのインスタンスに複数のインデックスを作成できます。

複合インデックス

TEXTやSHORT_TEXTなどのテキスト型の複数のフィールドに複合インデックスを作成できます。たとえば、タイトルベースの検索とタイトルと本文に基づく包括的な検索の両方をサポートするフォーラム検索サービスを作成する必要がある場合は、タイトルにtitle_searchインデックスを作成し、タイトルと本文の両方にデフォルトの複合インデックスを作成できます。このように、タイトルベースの検索はtitle_searchインデックスに基づいて実装されます。タイトルと本文に基づく包括的な検索は、デフォルトの複合インデックスに基づいて実装されます。

インデックスフィールド

インデックスフィールドは、クエリ句で使用できます。高性能なデータ検索を実現するには、インデックスフィールドを定義する必要があります。

属性フィールド

属性フィールドは、クエリのFILTER句SORT句AGGREGATE句、およびDISTINCT句で使用して、フィルタリングや統計などの機能を実装できます。

デフォルト表示フィールド

デフォルト表示フィールドは検索結果に表示されます。APIパラメータであるfetch_fieldsを使用して、各検索リクエストで返すフィールドを指定できます。プログラムでfetch_fieldsパラメータを設定すると、デフォルト表示フィールドの構成は無視され、fetch_fieldsパラメータで指定されたフィールドが検索結果に表示されることに注意してください。プログラムでfetch_fieldsパラメータを設定しない場合、デフォルト表示フィールドが検索結果に表示されます。

トークン化

この機能は、ドキュメント内の文をトークンに分割するために使用されます。フィールドのデータ型がTEXTの場合、システムは文を意味のあるトークンに分割します。フィールドのデータ型がSHORT_TEXTの場合、システムは文を単一の漢字に分割します。たとえば、データ型がTEXTの場合、「浙江大学」は2つのトークン「浙江」と「大学」に分割されます。データ型がSHORT_TEXTの場合、「浙江大学」は4つの漢字「浙」、「江」、「大」、「学」に変換されます。

ターム

タームは、トークン化後のトークンまたはトークンのセットです。

インデックス構築

トークン化後、タームに基づいてインデックスが構築されます。これにより、OpenSearchは検索リクエストに基づいて特定のドキュメントを高速に見つけることができます。検索エンジンは、転置インデックスと順方向インデックスの2種類のリンクリストを構築できます。

転置インデックス

転置インデックスは、タームをドキュメントのセット内の場所に対応付けるリンクリストです。転置インデックスはクエリ句で使用されます。例:term1->doc1,doc2,doc3およびterm2->doc1,doc2。

順方向インデックス

順方向インデックスは、ドキュメントをフィールドに対応付けるリンクリストです。順方向インデックスはFILTER句で使用されます。順方向インデックスは転置インデックスほど効率的ではありません。例:doc1->id,type,create_time。

検索

ドキュメントがOpenSearchにプッシュされると、ドキュメント内のフィールド値はクエリキーワードに基づいて個々のタームに変換されます。OpenSearchは、タームに基づいて構築された転置インデックスを検索して、一致するドキュメントを見つけます。

検索量

検索されたドキュメントの数。

データ同期

用語

説明

データソース

プッシュされるデータのソース。OpenSearchは現在、ApsaraDB for RDS、MaxCompute、およびPolarDBからのデータ同期をサポートしています。

再インデックス

この機能は、データの再インデックスを行います。アプリケーションスキーマとデータソースを設定または変更した後、インデックスを作成する必要があります。

クォータ管理

用語

説明

ドキュメント容量

インスタンス内のテーブルのドキュメントの合計サイズの累積値。累積サイズは、フィールド値に基づいて計算されます。各フィールド値は文字列に変換されて累積サイズが計算されます。

QPS

1秒あたりのクエリ数。

LCU

論理計算ユニット(LCU)は、検索サービスの計算能力を測定するために使用される単位です。1 LCUは、検索クラスター内の10ミリコアの計算能力を示します。ミリコアはCPUリソースの単位です。各ミリコアは1コアの1000分の1です。

スケーリング

ビジネス要件に基づいて、インスタンスの構成を迅速にアップグレードまたはダウングレードできます。小規模な仕様はすぐに有効になります。共有インスタンスから専用インスタンスへの変換など、インスタンスタイプの変更は、変更が承認された後にのみ有効になります。

検索

用語

説明

ソート式

ソート式は、検索結果のソートを制御するために記述できる式です。基本的な数学演算、数学関数、および組み込み関数を使用してソート式を記述できます。

概算ソート式

検索結果は、最初に概算ソート式を使用してソートされます。システムは、概算ソート式に基づいてドキュメントの一致スコアを計算し、計算されたスコアに基づいてドキュメントをソートします。

精密ソート式

システムは、概算ソートに基づいてソートされた上位N個の結果を選択し、精密ソート式を使用してより正確な方法で結果の一致スコアを計算します。次に、システムは計算されたスコアに基づいて結果をソートします。

検索結果サマリー

一般に、テキストコンテンツの長さは長くなります。ユーザーがドキュメントの主要なコンテンツを理解できるように、検索結果にはドキュメントのコンテンツの一部のみが表示されます。

クエリ分析

現在、類義語、スペル修正、ストップワード、タームウェイトなどの機能がサポートされています。システムは検索意図を識別できます。