組み込みおよびカスタムテキストアナライザのリファレンス - OpenSearch

N-gramアナライザー

説明： このアナライザーは、テキストをN個の連続する文字のシーケンスにトークン化します。2-gramと3-gramをサポートし、非セマンティック検索シナリオに適しています。

重要

専用アプリケーションでのみ利用可能で、フィールドタイプは SHORT_TEXT である必要があります。

例：

2-gram

If the document field contains "Open Search", the tokenized result is 'op','pe','en','n ',' s','se','ea','ar','rc','ch'

3-gram

If the document field contains "Open Search", the tokenized result is 'ope','pen','en ','n s',' se','sea','ear','arc','rch'

キーワードアナライザー

説明：このアナライザーはテキストをトークン化しません。タグ、キーワード、またはトークン化すべきではない文字列や数値コンテンツなど、完全に一致する検索が必要なシナリオに適しています。

注意：このアナライザーは、LITERAL、INT、LITERAL_ARRAY、および INT_ARRAY タイプのフィールドに適用されます。

例：

For example, if a document field contains "chrysanthemum tea", the document can be retrieved only if you search for "chrysanthemum tea".

中国語汎用アナライザー

説明：この汎用アナライザーは、中国語のセマンティクスに基づいてテキストを検索単位にトークン化し、ほとんどの業界に適しています。

注意：このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。

例：

For example, if a document field contains "菊花茶", the document can be retrieved if you search for "菊花茶", "菊花", "茶", or "花茶".

中国語 E コマースアナライザー

説明：このアナライザーは、E コマース業界向けに最適化されています。

注意：このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。

例：

For example, if a document field contains "Dabao SOD lotion", the document can be retrieved if you search for "Dabao", "sod", "sod lotion", "SOD lotion", or "lotion".

中国語単一文字アナライザー

説明：このアナライザーは、テキストを単一の中国語文字と単語にトークン化します。著者名や店舗名の検索など、非セマンティックな中国語検索シナリオに適しています。

注意：このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。

例：

For example, if a document field contains "菊花茶", the document can be retrieved if you search for "菊花茶", "菊花", "茶", "花茶", "菊花", "花", or "菊茶".

ファジーアナライザー

説明：このアナライザーは、ピンイン、単一文字、および文字による検索をサポートします。また、数字、文字、ピンインのプレフィックスおよびサフィックスマッチングもサポートしますが、中国語テキストはサポートしません。フィールド長は100バイトに制限されています。詳細については、「ファジー検索」をご参照ください。

注意：このアナライザーは、SHORT_TEXT タイプのフィールドにのみ適用されます。

例：

For example, if a document field contains "chrysanthemum tea", the document can be retrieved if you search for "chrysanthemum tea", "chrysanthemum", "tea", "flower tea", "chrysanthemum", "flower", "chrysanthemum tea", "ju", "juhua", "juhuacha", "j", "jh", or "jhc".
For example, if a document field contains the phone number "138****5678", use "^138" to search for phone numbers that start with "138", and use "5678$" to search for phone numbers that end with "5678".
For example, if a document field contains "OpenSearch", the document can be retrieved by searching for a single letter or a combination of letters from the word.

英語単語ステミングアナライザー

説明：このアナライザーは、英語のセマンティック検索シナリオに適しています。デフォルトでは、トークン化された各英単語を語幹に変換し、複数形を処理します。

注意：このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。このアナライザーは、クエリ分析構成をサポートしていません。

例：

For example, if a document field contains "英文分词器 english analyzer", the document can be retrieved if you search for "英文分词器", "english", "analyz", "analyzer", "analyzers", "analyze", "analyzed", or "analyzing".
(Note: Consecutive Chinese characters are treated as a single token by English analyzers.)

英語非ステミング単語アナライザー

説明：このアナライザーは、スペースと句読点に基づいてテキストをトークン化します。書籍のタイトルや著者名の検索など、英語のセマンティクスに基づかない検索シナリオに適しています。

例：

For example, if a document field contains "英文分词器 english analyzer", the document can be retrieved if you search for "英文分词器", "english", or "analyzer".
(Note: Consecutive Chinese characters are treated as a single token by English analyzers.)

英語きめ細かなアナライザー

説明：このアナライザーは、英語のセマンティクスに基づいてテキストを検索単位にトークン化し、一般的な業界アプリケーションに適しています。

注意：このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。

専用アプリケーションでのみ利用可能です。

例：

If a document field contains "dataprocess", the analysis result is "data process". In this case, the document can be retrieved if you search for "dataprocess", "data process", "data", or "process".

完全ピンインスペルアナライザー

説明：このアナライザーを使用すると、完全なピンインスペルまたはピンインの最初の文字を使用して、短いテキスト内の中国語文字を検索できます。映画のタイトルや著者名など、完全または短縮ピンインを使用する検索に適しています。完全なピンインを使用して文字を検索するには、部分的なスペルではなく、中国語文字の完全なピンインを入力する必要があります。

注意：このアナライザーは、SHORT_TEXT タイプのフィールドにのみ適用されます。

例：

For example: If the content of a document field is "Da Nei Mi Tan 007", the document can be retrieved when you search for "d", "dn", "dnm", "dnmt", "dnmt007", "da", "danei", "daneimi", or "daneimitan". The document cannot be retrieved when you search for "an" or "anei".

短縮ピンインアナライザー

説明：このアナライザーを使用すると、ピンインの最初の文字を使用して、短いテキスト内の中国語文字を取得できます。人名や映画のタイトルなど、ピンインの頭文字による検索が必要なシナリオに適しています。

注意：このアナライザーは、SHORT_TEXT タイプのフィールドに適用されます。

例：

For example, if a document field contains "Da Nei Mi Tan 007", a search for "d", "dn", "dnm", "dnmt", "dnmt0", "dnmt007", "m", "mt", "mt007", or "007" retrieves the document.

シンプルアナライザー

説明：このアナライザーは、検索を完全に制御できます。システム組み込みのアナライザーでは要件を満たせない特殊なシナリオに適しています。ドキュメントをプッシュしたり検索を実行したりする際は、タブ文字 ('\t') を使用してフィールドコンテンツまたは検索クエリを区切ります。フィールドコンテンツと検索クエリが同じ方法でトークン化されていることを確認してください。そうしないと、ドキュメントは取得できません。

例：

For example: If the content of a field is "chrysanthemum\tflower tea\thao", the document can be retrieved only when you search for "chrysanthemum", "flower tea", "chrysanthemum\tflower tea", "flower tea\thao", "chrysanthemum\thao", or "chrysanthemum\tflower tea\thao".

数値アナライザー

説明：このアナライザーは、時間間隔または数値範囲に基づく検索に適しています。

注意：このアナライザーは、INT および TIMESTAMP タイプのフィールドに適用されます。

例：

query=default:'OpenSearch' AND index:[number1,number2]
// In this example, index is the name of the index for which the numerical value analyzer is configured.

地理位置情報アナライザー

説明：このアナライザーは、地理位置情報範囲クエリが必要なシナリオに適しています。

注意：これは geo_point フィールドタイプにのみ適用されます。

例：

query=spatial_index:'circle(116.5806 39.99624, 1000)'
// Queries points within a circle to find nearby locations within a few kilometers.

ITコンテンツアナライザー

説明： この業界固有のアナライザーは、IT業界のコンテンツ向けに設計されています。汎用アナライザーとは異なる方法で IT関連用語をトークン化します。

注意：これは TEXT および SHORT_TEXT フィールドタイプにのみ適用されます。

例：

Example: Original content: C++ array usage notes
General analysis: C++ array usage notes
IT content analysis: C++ array usage notes

E コマース全般分析

説明：この業界固有のアナライザーは、E コマース業界向けに設計されています。Alibaba DAMO Academy の自然言語処理 (NLP) テクノロジーと長年の業界経験を活用し、E コマースにおける一般的な課題を解決するクエリ分析機能を提供します。

注意：

このアナライザーは、TEXT タイプのフィールドに適用されます。

E コマース拡張仕様を使用する専用アプリケーションでのみ利用可能です。

例：

Example: Original text: Small Gold Tube Concealer Cream
General analysis: "Small Gold Tube" "Concealer" "Cream"
E-commerce analysis: "Small Gold Tube" "Concealer" "Cream"

タイ語汎用アナライザー

説明：この汎用アナライザーは、タイ語テキストを検索単位にトークン化し、一般的な業界アプリケーションに適しています。

注意：このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。

専用アプリケーションでのみ利用可能です。

例：

If the content of a document field is "" and it is tokenized as "   ", the document can be retrieved when you search for "" or "".

タイ語 E コマースアナライザー

説明：このアナライザーは、タイ語の E コマースシナリオ向けに設計されています。

注意：このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。

専用アプリケーションでのみ利用可能です。

例：

If the value of a field in a document is "" and the tokenization result is " ", the document can be retrieved by searching for "", "", or "".

ベトナム語汎用アナライザー

説明：このアナライザーは、一般的な業界におけるベトナム語テキスト分析に適しています。

注意：このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。

専用アプリケーションでのみ利用可能です。

インドネシア語汎用アナライザー

説明： このアナライザーは、一般的な業界におけるインドネシア語テキスト分析に適しています。

注意： このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。

専用アプリケーションでのみ利用可能です。

ゲーム業界の一般的な分析

説明：このアナライザーは、ゲーム業界向けに設計されています。

注意：これは TEXT および SHORT_TEXT タイプのフィールドにのみ適用されます。

ゲーム業界向けに強化された専用アプリケーションでのみ利用可能です。

例：

If a document field contains "Genshin equipment" and is tokenized into "Genshin" and "equipment", a search for "Genshin equipment", "Genshin", or "equipment" retrieves the document.

英語 E コマース汎用アナライザー

説明：このアナライザーは、E コマース業界における英語テキスト分析に適しています。

注意：これは TEXT フィールドタイプにのみ適用されます。

EC 業界テンプレートの専用アプリケーションでのみ利用可能です。

中国語文字アナライザー

説明：このアナライザーは、テキストを単一の中国語文字、数字、英字、句読点にトークン化します。非セマンティック検索シナリオに適しています。

注意：このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。

専用アプリケーションでのみ利用可能です。

例：

For example: If the document field content is "开放搜索OpenSearch123.", the document can be retrieved by searching for "开", "放", "搜", "索", "O", "p", "e", "n", "S", "e", "a", "r", "c", "h", or "."

韓国語汎用アナライザー

説明：このアナライザーは、一般的な業界における韓国語テキスト分析に適しています。

注意：このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。

専用アプリケーションでのみ利用可能です。

例：

If the content of a document field is "" and the tokenization result is "  ", the document can be retrieved by searching for "", "", or "".

韓国語 E コマースアナライザー

説明：このアナライザーは、E コマース業界における韓国語テキスト分析向けに設計されています。

注意：このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。

専用アプリケーションでのみ利用可能です。

例：

If a document field contains "" and is tokenized into "  ", the document can be retrieved by a search for "", "", or "".

日本語汎用アナライザー

説明：このアナライザーは、一般的な業界における日本語テキスト分析に適しています。

注意：これは TEXT および SHORT_TEXT フィールドタイプにのみ適用されます。

専用アプリケーションでのみ利用可能です。

例：

If the document field content is "メキシコアグーチ" and the tokenization result is "メキシコ アグーチ", the document can be retrieved by searching for "メキシコ" or "アグーチ".

日本語 E コマースアナライザー

説明：このアナライザーは、E コマース業界における日本語テキスト向けに設計されています。

注意：このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。

専用アプリケーションでのみ利用可能です。

例：

If a document field's content is "ラウンドネックスーツ" and the tokenization result is "ラウンド ネック スーツ", the document can be retrieved by a search for "ラウンド", "ネック", or "スーツ".

カスタムテキストアナライザー

説明：このアナライザーは、汎用アナライザー、E コマースアナライザー、人名アナライザーなどの業界固有のアナライザーと、カスタム介入エントリを組み合わせます。詳細については、「カスタムテキストアナライザー」をご参照ください。

注意：これは TEXT および SHORT_TEXT フィールドタイプにのみ適用されます。

分析テスト

業界固有のアナライザーとカスタムアナライザーの分析結果をテストできます。OpenSearch コンソールで、[検索アルゴリズムセンター] > [取得構成] > [アナライザー管理] に移動し、[分析テスト] タブをクリックします。次の図に例を示します。

シナリオ

中国語のセマンティック検索には、中国語セマンティックアナライザーを使用します。
短いテキストの中国語検索、または正確なソートが不要な非セマンティックシナリオでは、中国語単一文字アナライザーを使用して取得リコールを改善します。
ピンイン検索には、ファジーアナライザーを使用します。
英語での検索には、英語ステミングアナライザーを使用します。
一部のシナリオでは、中国語セマンティックアナライザーと単一文字アナライザーを組み合わせて使用することで、より良い検索結果を得ることができます。たとえば、クエリ query=title_index:'菊花茶' OR sws_title_index:'菊花茶' を高度ソート式 text_relevance(title)×5+field_proximity(sws_title) と組み合わせます。この組み合わせにより、「菊花茶」の個々の文字が分離されていても、それらを含むドキュメントが取得され、「菊花茶」という正確なフレーズを含むドキュメントがより高くランク付けされます。

注意事項

インデックスフィールドでサポートされているフィールドタイプ
INT、INT_ARRAY、TEXT、SHORT_TEXT、LITERAL、LITERAL_ARRAY、TIMESTAMP、および GEO_POINT
インデックスフィールドでサポートされていないフィールドタイプ
FLOAT、FLOAT_ARRAY、DOUBLE、および DOUBLE_ARRAY
TEXT フィールドに検索結果のサマリーが構成されている場合、前述の例の「花茶」などの拡張検索単位のフレーズはハイライトされません。
中国語単一文字アナライザーは、数字と英単語を単一のトークンとして扱います。たとえば、テキスト「hello world」の場合、「hello」で検索するとドキュメントが取得されますが、「he」で検索しても取得されません。部分的な単語の一致に基づいてドキュメントを取得するには、ファジーアナライザーを使用します。
デフォルトでは、アプリケーションスキーマのプライマリテーブルのプライマリキーは、「id」という名前のインデックスフィールドとして設定されています。この構成は変更できません。

N-gramアナライザー

キーワードアナライザー

中国語汎用アナライザー

中国語 E コマースアナライザー

中国語単一文字アナライザー

ファジーアナライザー

英語単語ステミングアナライザー

英語非ステミング単語アナライザー

英語きめ細かなアナライザー

完全ピンインスペルアナライザー

短縮ピンインアナライザー

シンプルアナライザー

数値アナライザー

地理位置情報アナライザー

ITコンテンツアナライザー

E コマース 全般分析

タイ語汎用アナライザー

タイ語 E コマースアナライザー

ベトナム語汎用アナライザー

インドネシア語汎用アナライザー

ゲーム業界の一般的な分析

英語 E コマース汎用アナライザー

中国語文字アナライザー

韓国語汎用アナライザー

韓国語 E コマースアナライザー

日本語汎用アナライザー

日本語 E コマースアナライザー

カスタムテキストアナライザー

分析テスト

シナリオ

注意事項

E コマース全般分析