すべてのプロダクト
Search
ドキュメントセンター

OpenSearch:テキストアナライザー

最終更新日:Nov 13, 2025

N-gram アナライザ

説明: このアナライザは、テキストを N 個の連続する文字のシーケンスにトークン化します。2-gram と 3-gram をサポートし、非セマンティック検索シナリオに適しています。

重要

このアナライザは、専用アプリケーションでのみ利用可能で、フィールドタイプが SHORT_TEXT である必要があります。

例:

  • 2-gram

    ドキュメントフィールドに "Open Search" が含まれている場合、トークン化された結果は 'op','pe','en','n ',' s','se','ea','ar','rc','ch' です
  • 3-gram

    ドキュメントフィールドに "Open Search" が含まれている場合、トークン化された結果は 'ope','pen','en ','n s',' se','sea','ear','arc','rch' です

キーワードアナライザー

説明: このアナライザはテキストをトークン化しません。タグ、キーワード、またはトークン化すべきでない文字列や数値コンテンツなど、完全に一致する必要があるシナリオに適しています。

: このアナライザは、LITERAL、INT、LITERAL_ARRAY、および INT_ARRAY 型のフィールドに適用されます。

:

たとえば、ドキュメントフィールドに "chrysanthemum tea" が含まれている場合、"chrysanthemum tea" で検索した場合にのみドキュメントを取得できます。

中国語向け汎用アナライザー

説明: この汎用アナライザは、中国語のセマンティクスに基づいてテキストを検索単位にトークン化し、ほとんどの業界に適しています。

: このアナライザは、TEXT 型および SHORT_TEXT 型のフィールドに適用されます。

:

たとえば、ドキュメントフィールドに "chrysanthemum tea" が含まれている場合、"chrysanthemum tea"、"chrysanthemum"、"tea"、または "flower tea" で検索するとドキュメントを取得できます。

中国語向けEコマースアナライザー

説明: このアナライザは、E コマース業界向けに最適化されています。

: このアナライザは、TEXT 型および SHORT_TEXT 型のフィールドに適用されます。

:

たとえば、ドキュメントフィールドに "Dabao SOD lotion" が含まれている場合、"Dabao"、"sod"、"sod lotion"、"SOD lotion"、または "lotion" で検索するとドキュメントを取得できます。

中国語向け単一文字アナライザ

説明: このアナライザは、テキストを単一の中国語の文字と言葉にトークン化します。作成者名や店舗名の検索など、非セマンティックな中国語検索シナリオに適しています。

: このアナライザは、TEXT 型および SHORT_TEXT 型のフィールドに適用されます。

:

たとえば、ドキュメントフィールドに "chrysanthemum tea" が含まれている場合、"chrysanthemum tea"、"chrysanthemum"、"tea"、"flower tea"、"chrysanthemum"、"flower"、または "chrysanthemum tea" で検索するとドキュメントを取得できます。

あいまい検索アナライザー

説明: このアナライザは、ピンイン、単一文字、およびアルファベットによる検索をサポートします。また、数字、アルファベット、ピンインのプレフィックスおよびサフィックスマッチングもサポートしますが、中国語テキストはサポートしません。フィールドの長さは 100 バイトに制限されています。詳細については、「あいまい検索」をご参照ください。

: このアナライザは、SHORT_TEXT 型のフィールドにのみ適用されます。

:

たとえば、ドキュメントフィールドに "chrysanthemum tea" が含まれている場合、"chrysanthemum tea"、"chrysanthemum"、"tea"、"flower tea"、"chrysanthemum"、"flower"、"chrysanthemum tea"、"ju"、"juhua"、"juhuacha"、"j"、"jh"、または "jhc" で検索するとドキュメントを取得できます。
たとえば、ドキュメントフィールドに電話番号 "138****5678" が含まれている場合、"^138" を使用して "138" で始まる電話番号を検索し、"5678$" を使用して "5678" で終わる電話番号を検索します。
たとえば、ドキュメントフィールドに "OpenSearch" が含まれている場合、単語から単一の文字または文字の組み合わせで検索することでドキュメントを取得できます。

英語向け語幹アナライザー

説明: このアナライザは、英語のセマンティック検索シナリオに適しています。デフォルトでは、トークン化された各英単語をその語根形にステミングし、複数形を処理します。

: このアナライザは、TEXT 型および SHORT_TEXT 型のフィールドに適用されます。このアナライザは、クエリ分析設定をサポートしていません。

:

たとえば、ドキュメントフィールドに "English tokenizer english analyzer" が含まれている場合、"English tokenizer"、"english"、"analyz"、"analyzer"、"analyzers"、"analyze"、"analyzed"、または "analyzing" で検索するとドキュメントを取得できます。
(注: 連続する中国語の文字は、英語のアナライザによって単一のトークンとして扱われます。)

英語向け非語幹単語アナライザー

説明: このアナライザは、スペースと句読点に基づいてテキストをトークン化します。書籍のタイトルや作成者名の検索など、英語のセマンティクスに基づかない検索シナリオに適しています。

: このアナライザは、TEXT 型および SHORT_TEXT 型のフィールドに適用されます。このアナライザは、クエリ分析設定をサポートしていません。

:

たとえば、ドキュメントフィールドに "English tokenizer english analyzer" が含まれている場合、"English tokenizer"、"english"、または "analyzer" で検索するとドキュメントを取得できます。
(注: 連続する中国語の文字は、英語のアナライザによって単一のトークンとして扱われます。)

英語向け細粒度アナライザ

説明: このアナライザは、英語のセマンティクスに基づいてテキストを検索単位にトークン化し、一般的な業界アプリケーションに適しています。

: このアナライザは、TEXT 型および SHORT_TEXT 型のフィールドに適用されます。

このアナライザは、専用アプリケーションでのみ利用可能です。

:

ドキュメントフィールドに "dataprocess" が含まれている場合、分析結果は "data process" になります。この場合、"dataprocess"、"data process"、"data"、または "process" で検索するとドキュメントを取得できます。

完全ピンインアナライザー

説明: このアナライザを使用すると、短いテキスト内の中国語の文字を、その完全なピンインスペルまたはピンインの最初の文字を使用して検索できます。映画名や作成者名の検索など、完全または省略されたピンインを使用する検索に適しています。完全なピンインを使用して文字を検索するには、中国語の文字の完全なピンインを入力する必要があり、部分的なスペルでは検索できません。

: このアナライザは、SHORT_TEXT 型のフィールドにのみ適用されます。

:

例: ドキュメントフィールドの内容が "Imperial Secret Agent 007" の場合、"d"、"dn"、"dnm"、"dnmt"、"dnmt007"、"da"、"danei"、"daneimi"、または "daneimitan" で検索するとドキュメントを取得できます。"an" または "anei" で検索してもドキュメントは取得できません。

ピンイン省略アナライザ

説明: このアナライザを使用すると、短いテキスト内の中国語の文字を、そのピンインの最初の文字を使用して取得できます。人名や映画名など、ピンインの頭文字による検索が必要なシナリオに適しています。

: このアナライザは、SHORT_TEXT 型のフィールドに適用されます。

:

たとえば、ドキュメントフィールドに "Imperial Secret Agent 007" が含まれている場合、"d"、"dn"、"dnm"、"dnmt"、"dnmt0"、"dnmt007"、"m"、"mt"、"mt007"、または "007" で検索するとドキュメントが取得されます。

シンプルアナライザー

説明: このアナライザは、検索を完全に制御できます。システムの組み込みアナライザが要件を満たせない特殊なシナリオに適しています。ドキュメントをプッシュしたり検索を実行したりするときは、タブ文字 ('\t') を使用してフィールドの内容や検索クエリを区切ります。フィールドの内容と検索クエリが同じ方法でトークン化されていることを確認してください。そうしないと、ドキュメントを取得できません。

: このアナライザは、TEXT 型および SHORT_TEXT 型のフィールドに適用されます。このアナライザは、クエリ分析設定をサポートしていません。

:

例: フィールドの内容が "chrysanthemum\tflower tea\thao" の場合、"chrysanthemum"、"flower tea"、"chrysanthemum\tflower tea"、"flower tea\thao"、"chrysanthemum\thao"、または "chrysanthemum\tflower tea\thao" で検索した場合にのみドキュメントを取得できます。

数値アナライザ

説明: このアナライザは、時間間隔や数値範囲に基づく検索に適しています。

: このアナライザは、INT 型および TIMESTAMP 型のフィールドに適用されます。

:

query=default:'OpenSearch' AND index:[number1,number2]
// この例では、indexは数値アナライザーが構成されているインデックスの名前です。

地理位置情報アナライザー

説明: このアナライザは、地理的位置範囲クエリを必要とするシナリオに適しています。

: これは geo_point フィールドタイプにのみ適用されます。

:

query=spatial_index:'circle(116.5806 39.99624, 1000)'
// 円内のポイントをクエリして、数キロメートル以内の近くの場所を検索します。

ITコンテンツアナライザー

説明: この業界特化型アナライザは、IT 業界のコンテンツ向けに設計されています。IT 関連の用語を汎用アナライザとは異なる方法でトークン化します。

: これは TEXT および SHORT_TEXT フィールドタイプにのみ適用されます。

:

例: 元のコンテンツ: C++ array usage notes
汎用分析: C++ array usage notes
IT コンテンツ分析: C++ array usage notes

汎用 E コマース分析

説明: この業界特化型アナライザは、E コマース業界向けに設計されています。Alibaba DAMO Academy の自然言語処理 (NLP) 技術と長年の業界経験を活用して、E コマースにおける一般的な問題点を解決するクエリ分析機能を提供します。

:

このアナライザーは、TEXTタイプのフィールドに適用されます。

このアナライザは、E コマース業界拡張仕様の専用アプリケーションでのみ利用可能です。

:

例: 元のテキスト: Small Gold Tube Concealer Cream
汎用分析: "Small Gold Tube" "Concealer" "Cream"
E コマース分析: "Small Gold Tube" "Concealer" "Cream"

タイ語向け汎用アナライザー

説明: この汎用アナライザは、タイ語のテキストを検索単位にトークン化し、一般的な業界アプリケーションに適しています。

: このアナライザは、TEXT 型および SHORT_TEXT 型のフィールドに適用されます。

このアナライザは、専用アプリケーションでのみ利用可能です。

:

ドキュメントフィールドの内容が "" で、"   " としてトークン化されている場合、"" または "" で検索するとドキュメントを取得できます。

タイ語向けEコマースアナライザー

説明: このアナライザは、タイ語の E コマースシナリオ向けに設計されています。

: このアナライザは、TEXT 型および SHORT_TEXT 型のフィールドに適用されます。

このアナライザは、専用アプリケーションでのみ利用可能です。

:

ドキュメント内のフィールドの値が "" で、トークン化結果が " " の場合、""、""、または "" で検索することでドキュメントを取得できます。

ベトナム語向け汎用アナライザー

説明: このアナライザは、一般産業におけるベトナム語のテキスト分析に適しています。

: このアナライザは、TEXT 型および SHORT_TEXT 型のフィールドに適用されます。

このアナライザは、専用アプリケーションでのみ利用可能です。

ゲーム業界向け汎用分析

説明: このアナライザは、ゲーム業界向けに設計されています。

: これは TEXT 型および SHORT_TEXT 型のフィールドにのみ適用されます。

このアナライザは、ゲーム業界拡張仕様の専用アプリケーションでのみ利用可能です。

:

ドキュメントフィールドに "Genshin equipment" が含まれており、"Genshin" と "equipment" にトークン化されている場合、"Genshin equipment"、"Genshin"、または "equipment" で検索するとドキュメントが取得されます。

英語 E コマース向け汎用アナライザ

説明: このアナライザは、E コマース業界における英語のテキスト分析に適しています。

: これは TEXT フィールドタイプにのみ適用されます。

このアナライザは、E コマース向け業界特化拡張版の専用アプリケーションでのみ利用可能です。

中国語向け文字アナライザー

説明: このアナライザは、テキストを単一の中国語の文字、数字、英字、句読点にトークン化します。非セマンティック検索シナリオに適しています。

: このアナライザは、TEXT 型および SHORT_TEXT 型のフィールドに適用されます。

このアナライザは、専用アプリケーションでのみ利用可能です。

:

例: ドキュメントフィールドの内容が "开放搜索OpenSearch123." の場合、"开"、"放"、"搜"、"索"、"O"、"p"、"e"、"n"、"S"、"e"、"a"、"r"、"c"、"h"、または "." で検索することでドキュメントを取得できます。

韓国語向け汎用アナライザー

説明: このアナライザは、一般産業における韓国語のテキスト分析に適しています。

: このアナライザは、TEXT 型および SHORT_TEXT 型のフィールドに適用されます。

このアナライザは、専用アプリケーションでのみ利用可能です。

:

ドキュメントフィールドの内容が "" で、トークン化結果が "  " の場合、""、""、または "" で検索することでドキュメントを取得できます。

韓国語向けEコマースアナライザー

説明: このアナライザは、E コマース業界における韓国語のテキスト分析向けに設計されています。

: このアナライザは、TEXT 型および SHORT_TEXT 型のフィールドに適用されます。

このアナライザは、専用アプリケーションでのみ利用可能です。

:

ドキュメントフィールドに "" が含まれており、"  " にトークン化されている場合、""、""、または "" で検索するとドキュメントが取得されます。

日本語向け汎用アナライザー

説明: このアナライザは、一般産業における日本語のテキスト分析に適しています。

: これは TEXT および SHORT_TEXT フィールドタイプにのみ適用されます。

このアナライザは、専用アプリケーションでのみ利用可能です。

:

ドキュメントフィールドの内容が "メキシコアグーチ" で、トークン化結果が "メキシコ アグーチ" の場合、"メキシコ" または "アグーチ" で検索することでドキュメントを取得できます。

日本語向けEコマースアナライザー

説明: このアナライザは、E コマース業界の日本語テキスト向けに設計されています。

: このアナライザは、TEXT 型および SHORT_TEXT 型のフィールドに適用されます。

このアナライザは、専用アプリケーションでのみ利用可能です。

:

ドキュメントフィールドの内容が "ラウンドネックスーツ" で、トークン化結果が "ラウンド ネック スーツ" の場合、"ラウンド"、"ネック"、または "スーツ" で検索することでドキュメントを取得できます。

カスタムテキストアナライザー

説明: このアナライザは、汎用アナライザ、E コマースアナライザ、人名アナライザなどの業界特化型アナライザと、カスタム介入エントリを組み合わせたものです。詳細については、「カスタムテキストアナライザ」をご参照ください。

: これは TEXT および SHORT_TEXT フィールドタイプにのみ適用されます。

分析テスト

業界特化型アナライザとカスタムアナライザの分析結果をテストできます。OpenSearch コンソールで、検索アルゴリズムセンター > 取得設定 > アナライザ管理に移動し、[分析テスト] タブをクリックします。次の図に例を示します。

4

シナリオ

  • 中国語でのセマンティック検索には、中国語セマンティックアナライザを使用します。

  • 短いテキストの中国語検索や、正確なソートが不要な非セマンティックシナリオでは、中国語単一文字アナライザを使用して取得再現率を向上させます。

  • ピンイン検索には、あいまいアナライザを使用します。

  • 英語での検索には、英語ステミングアナライザを使用します。

  • 一部のシナリオでは、中国語セマンティックアナライザと単一文字アナライザを併用することで、より良い検索結果を得ることができます。たとえば、クエリ query=title_index:'chrysanthemum tea' OR sws_title_index:'chrysanthemum tea' と高度ソート式 text_relevance(title)×5+field_proximity(sws_title) を組み合わせます。この組み合わせにより、"chrysanthemum tea" の個々の文字が離れていても含まれているドキュメントが取得され、"chrysanthemum tea" という正確なフレーズを持つドキュメントがより上位にランク付けされます。

使用上の注意

  • インデックスフィールドでサポートされているフィールドタイプ

    INT、INT_ARRAY、TEXT、SHORT_TEXT、LITERAL、LITERAL_ARRAY、TIMESTAMP、GEO_POINT

    インデックスフィールドでサポートされていないフィールドタイプ

    FLOAT、FLOAT_ARRAY、DOUBLE、DOUBLE_ARRAY

  • TEXT フィールドに検索結果のサマリーが設定されている場合、上記の例の "flower tea" のような拡張検索単位の一部のフレーズはハイライトされません。

  • 中国語単一文字アナライザは、数字と英単語を単一のトークンとして扱います。たとえば、テキスト "hello world" の場合、"hello" で検索するとドキュメントが取得されますが、"he" では取得されません。部分的な単語の一致に基づいてドキュメントを取得するには、あいまいアナライザを使用します。

  • デフォルトでは、アプリケーションスキーマのプライマリテーブルのプライマリキーは "id" という名前のインデックスフィールドとして設定されます。この構成は変更できません。