重要なコンセプトと技術用語の説明 - OpenSearch - Alibaba Cloud - OpenSearch

この用語集では、OpenSearch Industry Algorithm Edition の基本概念を機能別に定義しています。

インスタンス管理

用語	説明
instance	検索サービスの最上位コンテナです。インスタンスには、データソーススキーマ、インデックススキーマ、データ属性など、すべてのデータ構成が含まれており、単一の検索サービスエンドポイントとして機能します。インスタンスは、リレーショナルデータベースシステムにおけるデータベースに相当します。
document	検索可能なデータの基本単位で、リレーショナルデータベーステーブルの行に相当します。ドキュメントは 1 つ以上のフィールドを含み、プライマリキーを持つ必要があります。OpenSearch はプライマリキーを使用して各ドキュメントを一意に識別します。既存のドキュメントと同じプライマリキーを持つ新しいドキュメントをプッシュすると、既存のドキュメントは上書きされます。
field	ドキュメント内の単一の名前–値ペアです。フィールドはドキュメントの構成要素であり、どのようなデータを格納し、どのように検索またはフィルターできるかを決定します。
plugins	OpenSearch が提供する組み込みのデータ処理プラグインで、データインポート時にデータを変換するために使用します。スキーマ定義時またはデータソース設定時にプラグインを選択します。
source data	処理前の OpenSearch にプッシュされる生データです。ソースデータには、1 つ以上のソースフィールドが含まれます。
source field	ソースデータの最小単位である単一の名前–値ペアです。サポートされているデータの型については、「アプリケーションスキーマとインデックススキーマ」をご参照ください。
index	データ取得を高速化するためのデータ構造です。1 つのインスタンスには複数のインデックスを設定できます。OpenSearch は内部で転置インデックスとフォワードインデックスの 2 種類のインデックスを使用します。
composite index	TEXT 型または SHORT_TEXT 型の複数のフィールドにまたがって構築されるインデックスです。たとえば、フォーラム検索サービスでは、タイトルのみを対象とする検索用に `title_search` インデックスを使用し、タイトルと本文の両方を対象とする包括的な検索用にデフォルトの複合インデックスを使用できます。
index field	クエリ句に参加するように定義されたフィールドです。パフォーマンス専有型の全文取得を行うには、インデックスフィールドの定義が必要です。
attribute field	FILTER、SORT、AGGREGATE、および DISTINCT 句で使用されるフィールドです。属性フィールドは、全文取得には参加せずに検索結果のフィルタリング、ソート、統計集計を可能にします。
default display field	検索結果でデフォルトで返されるフィールドのセットです。`fetch_fields` API パラメーターを使用して、リクエストごとにこのデフォルトを上書きできます。`fetch_fields` が設定されている場合、デフォルト表示フィールドの構成は無視され、指定されたフィールドのみが返されます。
tokenization	テキストフィールドの値をインデックス用の個別の term に分割するプロセスです。テキストの分割方法はフィールドの型によって異なります。TEXT フィールドは意味のある単語レベルの term に分割され、SHORT_TEXT フィールドは文字単位で分割されます。たとえば、中国語のフレーズ「浙江大学」は TEXT フィールドでは「浙江」と「大学」に分割されますが、SHORT_TEXT フィールドでは「浙」「江」「大」「学」に分割されます。形態素解析を行わないと、完全一致の文字列検索しか機能しないため、全文検索を実現するには形態素解析が不可欠です。
term	形態素解析によって生成される単一のトークンです。term は転置インデックスの構築に使用されます。
index building	形態素解析後に term からインデックスを構築するプロセスです。OpenSearch は転置インデックス（取得用）とフォワードインデックス（フィルタリング用）の 2 種類のインデックスを構築します。
inverted index	各 term をそれを含むドキュメントにマッピングするデータ構造です。転置インデックスはクエリ句検索を実現します。たとえば、「quick brown fox」と「quick fox jumps」という 2 つのドキュメントがある場合、転置インデックスは次のようにマッピングします：`quick → doc1, doc2` / `brown → doc1` / `fox → doc1, doc2` / `jumps → doc2`。
forward index	各ドキュメントをそのフィールド値にマッピングするデータ構造です。フォワードインデックスは FILTER 句操作を実現します。取得効率は転置インデックスより劣りますが、ドキュメントごとのフィールド値を読み取る操作（例：`doc1 → id, type, create_time`）には必要不可欠です。
retrieval	検索リクエストに一致するドキュメントを検出するプロセスです。OpenSearch はクエリのキーワードを term に変換し、転置インデックスを参照して一致するすべてのドキュメントを検索します。
retrieval amount	取得されるドキュメントの件数です。

インデックスフィールド、属性フィールド、ソースフィールド、デフォルト表示フィールドはそれぞれ異なる目的を持ちます。インデックスフィールドは全文取得に使用されます。属性フィールドはフィルタリング、ソート、集約に使用されます。ソースフィールドはデータソースからの生入力フィールドです。デフォルト表示フィールドは検索結果で返される内容を制御します。この違いを理解することで、スキーマを適切に設計できます。

データ同期

用語	説明
data source	OpenSearch にデータをプッシュする外部システムです。サポートされているソースは、ApsaraDB for RDS、MaxCompute、PolarDB です。
reindexing	すべてのインデックスをゼロから再構築するプロセスです。アプリケーションスキーマおよびデータソースを構成または変更した後は、インデックスの再作成が必要です。

クォータ管理

用語	説明
document capacity	インスタンス内のすべてのドキュメントの累積ストレージサイズで、各フィールド値を文字列に変換してサイズを合算して算出されます。
QPS	1 秒あたりのクエリ数 (QPS) — インスタンスが 1 秒間に処理する検索リクエストの数です。
LCU	論理計算ユニット (LCU) — 検索サービスの計算能力を測定する単位です。1 LCU は、検索クラスター内の 10 ミリコア分の計算能力を示します。ミリコアは CPU コアの千分の 1 です。
scaling	インスタンスの計算および容量構成を調整することです。小規模な仕様変更は即時に適用されます。共有インスタンスから専有インスタンスへの切り替えなど、インスタンスタイプの変更を伴う場合は承認後にのみ適用されます。

検索

用語	説明
sort expression	検索結果のランキングを制御するユーザー定義の式です。ソート式では、基本的な算術演算、数学関数、ビルトイン関数がサポートされています。
rough sort expression	第 1 段階のランキング式です。OpenSearch はこの式を使用して取得された各ドキュメントのマッチングスコアを計算し、スコア順に結果をソートします。上位 N 件の結果が高度ソート段階に渡されます。
fine sort expression	基本ソートの上位 N 件の結果に適用される第 2 段階のランキング式です。高度ソート式は、より正確なスコアリングを適用して最終的なランキングを洗練させますが、計算コストが高くなります。
search result summary	各検索結果とともに表示されるドキュメント本文の短い抜粋で、ユーザーが全文を読まずにその関連性を判断できるようにします。
query analysis	生の検索クエリに適用される取得前の機能セットです。サポートされている機能には、同義語展開、スペル修正、ストップワードフィルタリング、term の重み調整があります。これらの機能により、キーワードの完全一致ではなくユーザーの意図を解釈することで検索品質が向上します。