OpenSearch のテキストアナライザは、インデックス作成時にフィールド値をトークンに分割する方法と、検索クエリを解析する方法を制御します。各フィールドに適したアナライザを選択することが、どのクエリでドキュメントを取得できるかを直接決定します。
アナライザの概要
次の表は、利用可能なすべてのアナライザをまとめたものです。詳細なリファレンスセクションを読む前に、この表を使用してオプションを絞り込んでください。
| アナライザ | サポートされるフィールドタイプ | 最適な用途 | 利用可用性 |
|---|---|---|---|
| キーワードアナライザ | LITERAL、ARRAY、INT | 完全一致検索、タグ、ID、文字列全体 | — |
| 中国語汎用アナライザ | TEXT、SHORT_TEXT | 中国語の汎用全文検索 | — |
| 中国語 E コマースアナライザ | TEXT、SHORT_TEXT | 中国の製品カタログ検索 | — |
| 中国語シングルキャラクターアナライザ | TEXT、SHORT_TEXT | 非セマンティックな中国語検索、著者名、店舗名 | — |
| ファジーアナライザ | SHORT_TEXT | ピンイン検索、プレフィックス/サフィックス検索、一文字検索 | — |
| 英語ワードステミングアナライザ | TEXT、SHORT_TEXT | ステミング付き英語全文検索 | — |
| 英語非ステミングワードアナライザ | TEXT、SHORT_TEXT | 非セマンティックな英語検索、書籍タイトル、著者名 | — |
| 英語詳細分析アナライザ | TEXT、SHORT_TEXT | 複合語分割付き英語全文検索 | 排他的アプリケーション |
| ピンイン完全スペルアナライザ | SHORT_TEXT | ピンイン完全スペルまたは頭文字短縮ピンイン検索 | — |
| ピンイン短縮スペルアナライザ | SHORT_TEXT | 頭文字短縮ピンイン検索 | — |
| シンプルアナライザ | TEXT、SHORT_TEXT | タブ区切り用語によるカスタムトークン化 | — |
| 数値アナライザ | INT、TIMESTAMP | 時間間隔および数値範囲クエリ | — |
| 地理位置情報アナライザ | GEO_POINT | 地理位置情報クエリ | — |
| IT コンテンツアナライザ | TEXT、SHORT_TEXT | IT 固有の専門用語 (例:c++) を含む技術コンテンツ | — |
| 中国語 E コマース汎用アナライザ | TEXT | NLP を使用した中国語 E コマース製品検索 | E コマース業界特化型拡張版 |
| タイ語汎用アナライザ | TEXT、SHORT_TEXT | タイ語全文検索 | 排他的アプリケーション |
| タイ語 E コマースアナライザ | TEXT、SHORT_TEXT | タイ語 E コマース製品検索 | 排他的アプリケーション |
| ベトナム語汎用アナライザ | TEXT、SHORT_TEXT | ベトナム語全文検索 | 排他的アプリケーション |
| ゲーム汎用アナライザ | TEXT、SHORT_TEXT | ゲーム業界コンテンツ検索 | ゲーム業界特化型拡張版 |
| 英語 E コマース汎用アナライザ | TEXT | 英語 E コマース製品検索 | E コマース業界特化型拡張版 |
| 中国語キャラクターアナライザ | TEXT、SHORT_TEXT | 文字レベルの非セマンティックな中国語検索 | 排他的アプリケーション |
| テキスト用カスタムアナライザ | TEXT、SHORT_TEXT | 組み込みアナライザでは要件を満たせないシナリオ | — |
アナライザリファレンス
キーワードアナライザ
フィールド値全体を分割せずに単一のトークンとして出力します。タグ、キーワード、ID、または全体として扱う必要がある任意の文字列の完全一致検索に使用します。
サポートされるフィールドタイプ: LITERAL、ARRAY、INT
例: フィールド値が 菊花茶 の場合、ユーザーが 菊花茶 で検索した場合にのみドキュメントが取得されます。
中国語汎用アナライザ
中国語のセマンティクスに基づいて、中国語テキストを検索単位に分割します。これは、ほとんどの中国語全文検索のユースケースで推奨される出発点です。
サポートされるフィールドタイプ: TEXT、SHORT_TEXT
例: フィールド値が 菊花茶 の場合、ユーザーが 菊花茶、菊花、茶、または 花茶 で検索するとドキュメントが取得されます。
中国語 E コマースアナライザ
中国語の E コマース製品検索用に調整された業界特化型アナライザです。小売カタログで一般的な製品名、ブランド名、および中国語と英語が混在する用語を処理します。
サポートされるフィールドタイプ: TEXT、SHORT_TEXT
例: フィールド値が 大宝SOD蜜 の場合、ユーザーが 大宝、sod、sod蜜、SOD蜜、または 蜜 で検索するとドキュメントが取得されます。
中国語シングルキャラクターアナライザ
中国語テキストを個々の文字および複数文字の単語に分割します。セマンティックな意味が不要で、より高い再現率が優先される場合 (たとえば、著者名や店舗名の検索) に使用します。
サポートされるフィールドタイプ: TEXT、SHORT_TEXT
例: フィールド値が 菊花茶 の場合、ユーザーが 菊花茶、菊花、茶、花茶、菊、花、または 菊茶 で検索するとドキュメントが取得されます。
このアナライザは、数字と英単語を単一のトークンとして扱います。heで検索しても、フィールドにhelloが含まれるドキュメントは取得されません。部分的な英単語の一致をサポートするには、代わりにファジーアナライザを使用してください。
ファジーアナライザ
ピンイン、プレフィックス/サフィックス、および単一単語または単一文字の検索をサポートします。フィールドは 100 バイトを超えてはなりません。
サポートされるフィールドタイプ: SHORT_TEXT
中国語テキストは、プレフィックスまたはサフィックス検索をサポートしていません。プレフィックスおよびサフィックス検索は、文字、数字、およびピンインにのみ適用されます。詳細については、「ファジー検索」をご参照ください。
例:
ピンイン付き中国語: フィールド値が
菊花茶の場合、ユーザーが菊花茶、菊花、茶、花茶、菊、花、菊茶、ju、juhua、juhuacha、j、jh、またはjhcで検索するとドキュメントが取得されます。数字のプレフィックス/サフィックス: フィールド値が
138****5678の場合、^138で検索すると138で始まるすべての数字が取得され、5678$で検索すると5678で終わるすべての数字が取得されます。ラテン文字列: フィールド値が
OpenSearchの場合、値に含まれる任意の単一文字または文字の組み合わせで検索するとドキュメントが取得されます。
英語ワードステミングアナライザ
各英単語をその語根形に還元し、活用形のバリエーションを横断した検索を可能にします。連続する中国語の文字は単一のトークンとして扱われます。
サポートされるフィールドタイプ: TEXT、SHORT_TEXT
例: フィールド値が 英文分词器 english analyzer の場合、ユーザーが 英文分词器、english、analyz、analyzer、analyzers、analyze、analyzed、または analyzing で検索するとドキュメントが取得されます。
英語非ステミングワードアナライザ
ステミングを適用せずに、スペースと句読点でテキストを分割します。書籍のタイトルや著者名など、非セマンティックな英語検索に使用します。連続する中国語の文字は単一のトークンとして扱われます。
サポートされるフィールドタイプ: TEXT、SHORT_TEXT
例: フィールド値が 英文分词器 english analyzer の場合、ユーザーが 英文分词器、english、または analyzer で検索するとドキュメントが取得されます。
英語詳細分析アナライザ
英語テキストを検索単位で分割し、複合語をその構成要素に分割します。これは、業界全体のユースケースに対応する汎用的な英語アナライザです。
サポートされるフィールドタイプ: TEXT、SHORT_TEXT
利用可用性: 排他的アプリケーションのみ。
例: フィールド値が dataprocess の場合、分析結果は data process になります。ユーザーが dataprocess、data process、data、または process で検索するとドキュメントが取得されます。
ピンイン完全スペルアナライザ
ユーザーは、ピンインの完全なスペルまたは各音節の最初の文字 (短縮ピンイン) を入力して中国語テキストを検索できます。ユーザーは完全なピンイン音節を入力する必要があります。部分的な音節は一致しません。
サポートされるフィールドタイプ: SHORT_TEXT
例: フィールド値が 大内密探007 の場合、ユーザーが d、dn、dnm、dnmt、dnmt007、da、danei、daneimi、または daneimitan で検索するとドキュメントが取得されます。an または anei で検索してもドキュメントは取得されません。
ピンイン短縮スペルアナライザ
ユーザーは、各ピンイン音節の最初の文字を入力して中国語テキストを検索できます。ピンイン完全スペルアナライザとは異なり、部分的な音節の入力がサポートされています。
サポートされるフィールドタイプ: SHORT_TEXT
例: フィールド値が 大内密探007 の場合、ユーザーが d、dn、dnm、dnmt、dnmt0、damt007、m、mt、mt007、または 007 で検索するとドキュメントが取得されます。
シンプルアナライザ
トークン化を完全に制御できます。フィールド値と検索クエリの用語は、タブ文字 (\t) で区切る必要があります。フィールド値とクエリは同じ分割方法を使用する必要があります。そうしないと、ドキュメントを取得できません。
サポートされるフィールドタイプ: TEXT、SHORT_TEXT
例: フィールド値が 菊\t花茶\thao の場合、ユーザーが 菊、花茶、菊\t花茶、花茶\thao、菊\thao、または 菊\t花茶\thao で検索するとドキュメントが取得されます。
数値アナライザ
範囲クエリのために、数値およびタイムスタンプフィールドをインデックス化します。
サポートされるフィールドタイプ: INT、TIMESTAMP
例:
query=default:'开放搜索' AND index:[number1,number2]この例では、index は数値アナライザで設定されたインデックスフィールドの名前です。
地理位置情報アナライザ
半径検索などの地理位置情報クエリのために、GEO_POINT フィールドをインデックス化します。
サポートされるフィールドタイプ: GEO_POINT
例:
query=spatial_index:'circle(116.5806 39.99624, 1000)'このクエリは、半径が数キロメートルになる円内のドキュメントを取得します。
IT コンテンツアナライザ
技術的な IT コンテンツ向けの業界特化型アナライザです。中国語汎用アナライザと比較して、IT 固有の文字シーケンスを異なる方法で処理します。たとえば、c++ を分割せずに単一のトークンとして保持します。
サポートされるフィールドタイプ: TEXT、SHORT_TEXT
例:
| 入力 | 汎用アナライザの結果 | IT コンテンツアナライザの結果 |
|---|---|---|
c++数组使用注意事项 | c ++ 数组使用注意事项 | c++ 数组使用注意事项 |
中国語 E コマース汎用アナライザ
中国語の E コマース製品検索向けの業界特化型アナライザです。DAMO アカデミーの自然言語処理 (NLP) 技術を使用して、汎用アナライザよりも詳細な分割を生成します。
サポートされるフィールドタイプ: TEXT
利用可用性: E コマース業界特化型拡張版のみ。
例:
| 入力 | 汎用アナライザの結果 | E コマース汎用アナライザの結果 |
|---|---|---|
小金管遮瑕膏 | 小金管遮瑕膏 | 小金管 遮瑕 膏 |
タイ語汎用アナライザ
汎用的なタイ語全文検索のために、タイ語テキストを検索単位に分割します。
サポートされるフィールドタイプ: TEXT、SHORT_TEXT
利用可用性: 排他的アプリケーションのみ。
例: フィールド値が の場合、分析結果は になります。ユーザーが または で検索するとドキュメントが取得されます。
タイ語 E コマースアナライザ
E コマース製品検索シナリオのために、タイ語テキストを分割します。
サポートされるフィールドタイプ: TEXT、SHORT_TEXT
利用可用性: 排他的アプリケーションのみ。
例: フィールド値が の場合、分析結果は になります。ユーザーが 、、または で検索するとドキュメントが取得されます。
ベトナム語汎用アナライザ
汎用的なベトナム語全文検索のために、ベトナム語テキストを分割します。
サポートされるフィールドタイプ: TEXT、SHORT_TEXT
利用可用性: 排他的アプリケーションのみ。
ゲーム汎用アナライザ
ゲームコンテンツ用に調整された業界特化型アナライザです。
サポートされるフィールドタイプ: TEXT、SHORT_TEXT
利用可用性: ゲーム業界特化型拡張版のみ。
例: フィールド値が 原神装备 の場合、分析結果は 原神 装备 になります。ユーザーが 原神装备、原神、または 装备 で検索するとドキュメントが取得されます。
英語 E コマース汎用アナライザ
英語の E コマース製品検索向けの業界特化型アナライザです。
サポートされるフィールドタイプ: TEXT
利用可用性: E コマース業界特化型拡張版のみ。
中国語キャラクターアナライザ
テキストを個々の中国語の文字、英字、数字、および句読点に分割します。文字レベルの非セマンティックな検索に使用します。
サポートされるフィールドタイプ: TEXT、SHORT_TEXT
利用可用性: 排他的アプリケーションのみ。
例: フィールド値が 开放搜索OpenSearch123 の場合、ユーザーが個々の文字または英字 (开、放、搜、索、O、p、e、n、S、e、a、r、c、h、または .) のいずれかで検索するとドキュメントが取得されます。
テキスト用カスタムアナライザ
業界特化型アナライザ (汎用アナライザ、E コマースアナライザ、または人名アナライザ) とカスタム介入エントリを組み合わせます。設定の詳細については、「カスタムアナライザ」をご参照ください。
サポートされるフィールドタイプ: TEXT、SHORT_TEXT
アナライザの選択
以下のガイダンスを使用して、ユースケースに適したアナライザを選択してください。
中国語全文検索
ほとんどのシナリオでは、中国語汎用アナライザまたは中国語 E コマースアナライザから始めることを推奨します。
厳密なランキングが不要で、再現率が重要な場合 (短いテキストや非セマンティックなコンテンツなど) は、中国語シングルキャラクターアナライザを使用します。
より良いランキングのためのアナライザの組み合わせ
同じフィールドをセマンティックアナライザと文字レベルアナライザの両方でインデックス化することで、より多くのドキュメントを取得しつつ、セマンティックに関連する結果をより高くランク付けします。例:
query=title_index:'菊花茶' OR sws_title_index:'菊花茶'詳細ソート式:
text_relevance(title)*5+field_proximity(sws_title)この設定により、ユーザーは xx菊xx花xx茶xx を含むすべてのドキュメントを取得できます。さらに、菊花茶 を含むドキュメントが最初にランク付けされます。
ピンイン検索
ピンインベースの検索にはファジーアナライザを使用します。
英語全文検索
活用形の単語を一致させるには、英語ワードステミングアナライザを使用します。
アナライザのテスト
アナライザが特定の入力をどのように分割するかを確認するには、OpenSearch コンソールの単語分析テストツールを使用します。
OpenSearch コンソールにログインします。
左側のナビゲーションウィンドウで、[検索アルゴリズムセンター] > [検索設定] を選択します。
[基本設定] ページで、左側のペインにある [アナライザ管理] をクリックします。
[アナライザ管理] ページで、対象のアナライザを見つけ、[操作] 列の [単語分析テスト] をクリックします。

注意事項
インデックスフィールドタイプ: 次のフィールドタイプはインデックス設定をサポートしています:INT、INT_ARRAY、TEXT、SHORT_TEXT、LITERAL、LITERAL_ARRAY、TIMESTAMP、および GEO_POINT。 次のタイプはサポートしていません:FLOAT、FLOAT_ARRAY、DOUBLE、および DOUBLE_ARRAY。
検索結果のハイライト: TEXT フィールドの場合、
菊花茶から派生した花茶のような拡張検索単位に属する用語は、検索結果の概要で HTML ハイライトタグで囲まれない場合があります。1 文字アナライザと英単語: このアナライザは、数字と英単語を単一のトークンとして扱います。
heを検索しても、フィールドにhelloが含まれるドキュメントは取得できません。英単語の部分一致をサポートするには、代わりにファジーアナライザを使用してください。プライマリキーインデックスフィールド: プライマリテーブルのプライマリキーは、自動的に
idという名前のインデックスフィールドとして設定されます。このフィールドは変更できません。