OpenSearch Retrieval Engine Edition は、英語テキストフィールド向けに3つの組み込みアナライザを提供しています。ステミング、完全一致、または複合語の分割が必要かどうかに基づいて選択してください。
アナライザの選択
| アナライザ | 識別子 | トークン化の動作 | 最適な用途 |
|---|---|---|---|
| 英語単語ステミングアナライザ | eng_standard | 単語をそのルート形式に還元します (例: "analyzed"、"analyzing" → analyz) | セマンティック検索 — 単語のバリアントを自動的に照合 |
| ステミングなし英語単語アナライザ | eng_nostem | スペースと句読点で分割し、ステミングは適用しません | 完全一致検索 — 名前、タイトル、識別子 |
| 英語最小粒度アナライザ | en_min | スペースなしで書かれた複合語を分割します (例: dataprocess → data、process) | あらゆる業界の一般的な英語テキスト |
これら3つのアナライザはすべて、TEXT データの型のフィールドにのみ適用されます。
英語単語ステミングアナライザ
eng_standard は、インデックス作成前に各英単語をそのルート形式にステミングします。検索は、同じルートのあらゆる活用形に一致します。
このアナライザは、検索で単語のバリアントを自動的に照合させたい場合に使用します。たとえば、ユーザーが「analyze」または「analyzed」を検索したときに、「analyzing」に関するドキュメントを見つける場合などです。
同じフィールド内の連続する中国語文字は、単一のトークンとして扱われます。
"英文分词器 english analyzer" の生成されるトークン:
| 入力語句 | インデックス化されたトークン |
|---|---|
英文分词器 | 英文分词器 (単一のトークンとして扱われる) |
english | english |
analyzer | analyz |
以下のいずれかを検索すると、ドキュメントに一致します: 英文分词器、english、analyz、analyzer、analyzers、analyze、analyzed、analyzing。
スキーマの設定:
ご利用の TEXT フィールドのスキーマを設定する際に、analyzer を eng_standard に設定します。
ステミングなし英語単語アナライザ
eng_nostem は、テキストをスペースと句読点で分割し、ステミングを適用しません。各トークンは記述されたとおりに正確に一致します。
このアナライザは、正確な単語形式が重要なフィールド (書籍のタイトル、著者名、プロダクト名、または「authorized」と「authorize」が同じドキュメントに一致すべきではないコンテンツなど) に使用します。
同じフィールド内の連続する中国語文字は、単一のトークンとして扱われます。
"英文分词器 english analyzer" の生成されるトークン:
| 入力語句 | インデックス化されたトークン |
|---|---|
英文分词器 | 英文分词器 (単一のトークンとして扱われる) |
english | english |
analyzer | analyzer |
英文分词器、english、または analyzer を検索すると、ドキュメントに一致します。analyze または analyzers を検索しても一致しません。
スキーマの設定:
ご利用の TEXT フィールドのスキーマを設定する際に、analyzer を eng_nostem に設定します。
英語最小粒度アナライザ
en_min は、英語テキストを最も細かい粒度のトークンに分割し、スペースなしで書かれた複合語も含まれます。検索単位を使用して、連続した文字列内の単語の境界を識別します。
このアナライザは、ユーザーが複合形式または個々の単語のいずれかを使用して検索する可能性がある一般的な英語コンテンツ (技術ドキュメント、プロダクトの説明、ユーザー生成コンテンツなど) に使用します。
"dataprocess" の生成されるトークン:
| 入力 | インデックス化されたトークン |
|---|---|
dataprocess | dataprocess、data、process |
dataprocess、data process、data、または process を検索すると、ドキュメントに一致します。
スキーマの設定:
ご利用の TEXT フィールドのスキーマを設定する際に、analyzer を en_min に設定します。