Referensi untuk Semua Text Analyzer Bawaan dan Kustom - OpenSearch

N-gram analyzer

Description: Analyzer ini melakukan tokenisasi teks menjadi rangkaian N karakter berurutan dan mendukung 2-gram serta 3-gram, cocok untuk skenario pencarian non-semantis.

Penting

Hanya tersedia untuk aplikasi dedicated dan memerlukan tipe field berupa SHORT_TEXT.

Example:

2-gram

Jika field dokumen berisi "Open Search", hasil tokenisasinya adalah 'op','pe','en','n ',' s','se','ea','ar','rc','ch'

3-gram

Jika field dokumen berisi "Open Search", hasil tokenisasinya adalah 'ope','pen','en ','n s',' se','sea','ear','arc','rch'

Keyword analyzer

Description: Analyzer ini tidak melakukan tokenisasi teks dan cocok untuk skenario yang memerlukan kecocokan eksak, seperti tag, kata kunci, atau konten string dan numerik yang tidak boleh ditokenisasi.

Note: Analyzer ini berlaku untuk field dengan tipe LITERAL, INT, LITERAL_ARRAY, dan INT_ARRAY.

Contoh:

Misalnya, jika field dokumen berisi "chrysanthemum tea", dokumen hanya dapat diambil jika Anda mencari "chrysanthemum tea".

General analyzer for Chinese

Description: Analyzer serbaguna ini melakukan tokenisasi teks menjadi unit pencarian berdasarkan semantik bahasa Tiongkok dan cocok untuk sebagian besar industri.

Note: Analyzer ini berlaku untuk field dengan tipe TEXT dan SHORT_TEXT.

Example:

Misalnya, jika field dokumen berisi "菊花茶", dokumen dapat diambil jika Anda mencari "菊花茶", "菊花", "茶", atau "花茶".

E-commerce analyzer for Chinese

Description: Analyzer ini dioptimalkan untuk industri E-dagang.

Note: Analyzer ini berlaku untuk field dengan tipe TEXT dan SHORT_TEXT.

Example:

Misalnya, jika field dokumen berisi "Dabao SOD lotion", dokumen dapat diambil jika Anda mencari "Dabao", "sod", "sod lotion", "SOD lotion", atau "lotion".

Single-character analyzer for Chinese

Description: Analyzer ini melakukan tokenisasi teks menjadi karakter Tiongkok tunggal dan kata-kata, cocok untuk skenario pencarian Tiongkok non-semantis seperti pencarian nama penulis atau nama toko.

Note: Analyzer ini berlaku untuk field dengan tipe TEXT dan SHORT_TEXT.

Example:

Misalnya, jika field dokumen berisi "菊花茶", dokumen dapat diambil jika Anda mencari "菊花茶", "菊花", "茶", "花茶", "菊花", "花", atau "菊茶".

Fuzzy analyzer

Description: Analyzer ini mendukung pencarian berdasarkan pinyin, karakter tunggal, dan huruf, serta pencocokan awalan (prefix) dan akhiran (suffix) untuk angka, huruf, dan pinyin—namun tidak untuk teks Tiongkok. Panjang field dibatasi hingga 100 byte. Untuk informasi lebih lanjut, lihat Fuzzy searches.

Note: Analyzer ini hanya berlaku untuk field dengan tipe SHORT_TEXT.

Example:

Misalnya, jika field dokumen berisi "chrysanthemum tea", dokumen dapat diambil jika Anda mencari "chrysanthemum tea", "chrysanthemum", "tea", "flower tea", "chrysanthemum", "flower", "chrysanthemum tea", "ju", "juhua", "juhuacha", "j", "jh", atau "jhc".
Misalnya, jika field dokumen berisi nomor telepon "138****5678", gunakan "^138" untuk mencari nomor telepon yang dimulai dengan "138", dan gunakan "5678$" untuk mencari nomor telepon yang diakhiri dengan "5678".
Misalnya, jika field dokumen berisi "OpenSearch", dokumen dapat diambil dengan mencari satu huruf atau kombinasi huruf dari kata tersebut.

Word stemming analyzer for English

Description: Analyzer ini cocok untuk skenario pencarian semantis dalam bahasa Inggris. Secara default, analyzer ini mengubah setiap kata bahasa Inggris yang telah ditokenisasi ke bentuk dasarnya dan menangani bentuk jamak.

Note: Analyzer ini berlaku untuk field dengan tipe TEXT dan SHORT_TEXT serta tidak mendukung konfigurasi query analysis.

Example:

Misalnya, jika field dokumen berisi "英文分词器 english analyzer", dokumen dapat diambil jika Anda mencari "英文分词器", "english", "analyz", "analyzer", "analyzers", "analyze", "analyzed", atau "analyzing".
(Catatan: Karakter Tiongkok berurutan diperlakukan sebagai satu token oleh analyzer bahasa Inggris.)

Unstemmed word analyzer for English

Description: Analyzer ini melakukan tokenisasi teks berdasarkan spasi dan tanda baca, cocok untuk skenario pencarian non-semantis dalam bahasa Inggris seperti pencarian judul buku atau nama penulis.

Note: Analyzer ini berlaku untuk field dengan tipe TEXT dan SHORT_TEXT serta tidak mendukung konfigurasi query analysis.

Example:

Misalnya, jika field dokumen berisi "英文分词器 english analyzer", dokumen dapat diambil jika Anda mencari "英文分词器", "english", atau "analyzer".
(Catatan: Karakter Tiongkok berurutan diperlakukan sebagai satu token oleh analyzer bahasa Inggris.)

Fine-grained analyzer for English

Description: Analyzer ini melakukan tokenisasi teks menjadi unit pencarian berdasarkan semantik bahasa Inggris dan cocok untuk aplikasi industri umum.

Note: Analyzer ini berlaku untuk field dengan tipe TEXT dan SHORT_TEXT.

Hanya tersedia untuk aplikasi dedicated.

Example:

Jika field dokumen berisi "dataprocess", hasil analisisnya adalah "data process". Dalam kasus ini, dokumen dapat diambil jika Anda mencari "dataprocess", "data process", "data", atau "process".

Full pinyin spelling analyzer

Description: Analyzer ini memungkinkan pencarian karakter Tiongkok dalam teks pendek menggunakan ejaan pinyin lengkap atau huruf pertama dari pinyin-nya, cocok untuk pencarian berbasis pinyin lengkap atau singkatan seperti nama film atau nama penulis. Untuk mencari karakter menggunakan pinyin lengkap, masukkan ejaan pinyin lengkap dari karakter tersebut, bukan ejaan sebagian.

Note: Analyzer ini hanya berlaku untuk field dengan tipe SHORT_TEXT.

Example:

Misalnya: Jika konten field dokumen adalah "Da Nei Mi Tan 007", dokumen dapat diambil saat Anda mencari "d", "dn", "dnm", "dnmt", "dnmt007", "da", "danei", "daneimi", atau "daneimitan". Dokumen tidak dapat diambil saat Anda mencari "an" atau "anei".

Abbreviated pinyin analyzer

Description: Analyzer ini memungkinkan pengambilan karakter Tiongkok dalam teks pendek menggunakan huruf pertama dari pinyin-nya, cocok untuk pencarian berbasis inisial pinyin seperti nama orang atau nama film.

Note: Analyzer ini berlaku untuk field dengan tipe SHORT_TEXT.

Example:

Misalnya, jika field dokumen berisi "Da Nei Mi Tan 007", pencarian dengan "d", "dn", "dnm", "dnmt", "dnmt0", "dnmt007", "m", "mt", "mt007", atau "007" akan mengambil dokumen tersebut.

Simple analyzer

Description: Analyzer ini memberikan kontrol penuh atas pencarian, cocok untuk skenario khusus di mana analyzer bawaan sistem tidak memenuhi kebutuhan. Saat mendorong dokumen atau melakukan pencarian, gunakan karakter tab ('\t') untuk memisahkan konten field atau kueri pencarian. Pastikan konten field dan kueri pencarian ditokenisasi secara konsisten; jika tidak, dokumen tidak dapat diambil.

Note: Analyzer ini berlaku untuk field dengan tipe TEXT dan SHORT_TEXT serta tidak mendukung konfigurasi query analysis.

Example:

Misalnya: Jika konten field adalah "chrysanthemum\tflower tea\thao", dokumen hanya dapat diambil saat Anda mencari "chrysanthemum", "flower tea", "chrysanthemum\tflower tea", "flower tea\thao", "chrysanthemum\thao", atau "chrysanthemum\tflower tea\thao".

Numeric analyzer

Description: Analyzer ini cocok untuk pencarian berdasarkan interval waktu atau rentang numerik.

Note: Analyzer ini berlaku untuk field dengan tipe INT dan TIMESTAMP.

Example:

query=default:'OpenSearch' AND index:[number1,number2]
// Pada contoh ini, index adalah nama indeks yang dikonfigurasi dengan numeric analyzer.

Geo-location analyzer

Description: Analyzer ini cocok untuk skenario yang memerlukan kueri rentang lokasi geografis.

Catatan: Ini hanya berlaku untuk tipe bidang geo_point.

Example:

query=spatial_index:'circle(116.5806 39.99624, 1000)'
// Mengkueri titik-titik dalam lingkaran untuk menemukan lokasi terdekat dalam jarak beberapa kilometer.

IT content analyzer

Description: Analyzer spesifik industri ini dirancang untuk konten di industri IT dan melakukan tokenisasi istilah terkait IT secara berbeda dibandingkan analyzer serbaguna.

Catatan: Ini hanya berlaku untuk tipe bidang TEXT dan SHORT_TEXT.

Example:

Contoh: Konten asli: C++ array usage notes
Analisis umum: C++ array usage notes
Analisis konten IT: C++ array usage notes

General E-commerce analysis

Description: Analyzer spesifik industri ini dirancang untuk industri E-dagang dan menggunakan teknologi natural language processing (NLP) dari Akademi DAMO Alibaba serta pengalaman bertahun-tahun di industri untuk menyediakan kemampuan analisis kueri yang mengatasi masalah umum di E-dagang.

Note:

Analyzer ini berlaku untuk field dengan tipe TEXT.

Hanya tersedia untuk aplikasi khusus yang menggunakan spesifikasi Enhanced E-dagang.

Example:

Contoh: Teks asli: Small Gold Tube Concealer Cream
Analisis umum: "Small Gold Tube" "Concealer" "Cream"
Analisis E-dagang: "Small Gold Tube" "Concealer" "Cream"

General analyzer for Thai

Description: Analyzer serbaguna ini melakukan tokenisasi teks Thailand menjadi unit pencarian dan cocok untuk aplikasi industri umum.

Note: Analyzer ini berlaku untuk field dengan tipe TEXT dan SHORT_TEXT.

Hanya tersedia untuk aplikasi dedicated.

Example:

Jika konten field dokumen adalah "แหล่งดึงดูดนักท่องเที่ยว" dan ditokenisasi sebagai "แหล่ง ดึง ดูด นักท่องเที่ยว", dokumen dapat diambil saat Anda mencari "นักท่องเที่ยว" atau "แหล่งดึงดูดนักท่องเที่ยว".

E-commerce analyzer for Thai

Description: Analyzer ini dirancang untuk skenario E-dagang berbahasa Thailand.

Note: Analyzer ini berlaku untuk field dengan tipe TEXT dan SHORT_TEXT.

Hanya tersedia untuk aplikasi dedicated.

Example:

Jika nilai field dalam dokumen adalah "หน้าจอโทรศัพท์" dan hasil tokenisasinya adalah "หน้าจอ โทรศัพท์", dokumen dapat diambil dengan mencari "หน้าจอโทรศัพท์", "หน้าจอ", atau "โทรศัพท์".

General analyzer for Vietnamese

Description: Analyzer ini cocok untuk analisis teks Vietnam di industri umum.

Note: Analyzer ini berlaku untuk field dengan tipe TEXT dan SHORT_TEXT.

Hanya tersedia untuk aplikasi dedicated.

General analyzer for Indonesian

Description: Analyzer ini cocok untuk analisis teks Indonesia di industri umum.

Note: Analyzer ini berlaku untuk field dengan tipe TEXT dan SHORT_TEXT.

Hanya tersedia untuk aplikasi dedicated.

General analysis for the gaming industry

Description: Analyzer ini dirancang untuk industri gaming.

Note: Analyzer ini hanya berlaku untuk field dengan tipe TEXT dan SHORT_TEXT.

Hanya tersedia untuk aplikasi dedicated yang ditingkatkan untuk industri gaming.

Example:

Jika field dokumen berisi "Genshin equipment" dan ditokenisasi menjadi "Genshin" dan "equipment", pencarian dengan "Genshin equipment", "Genshin", atau "equipment" akan mengambil dokumen tersebut.

General analyzer for English E-commerce

Description: Analyzer ini cocok untuk analisis teks bahasa Inggris di industri E-dagang.

Catatan: Ini hanya berlaku untuk tipe bidang TEXT.

Hanya tersedia untuk aplikasi dedicated dari Edisi Peningkatan Spesifik Industri untuk E-commerce.

Character analyzer for Chinese

Description: Analyzer ini melakukan tokenisasi teks menjadi karakter Tiongkok tunggal, angka, huruf Inggris, dan tanda baca, cocok untuk skenario pencarian non-semantis.

Note: Analyzer ini berlaku untuk field dengan tipe TEXT dan SHORT_TEXT.

Hanya tersedia untuk aplikasi dedicated.

Example:

Misalnya: Jika konten field dokumen adalah "开放搜索OpenSearch123.", dokumen dapat diambil dengan mencari "开", "放", "搜", "索", "O", "p", "e", "n", "S", "e", "a", "r", "c", "h", atau "."

General analyzer for Korean

Description: Analyzer ini cocok untuk analisis teks Korea di industri umum.

Note: Analyzer ini berlaku untuk field dengan tipe TEXT dan SHORT_TEXT.

Hanya tersedia untuk aplikasi dedicated.

Example:

Jika konten field dokumen adalah "인제군의교육" dan hasil tokenisasinya adalah "인제군 의 교육", dokumen dapat diambil dengan mencari "인제군의교육", "의", atau "교육".

E-commerce analyzer for Korean

Description: Analyzer ini dirancang untuk analisis teks Korea di industri E-dagang.

Note: Analyzer ini berlaku untuk field dengan tipe TEXT dan SHORT_TEXT.

Hanya tersedia untuk aplikasi dedicated.

Example:

Jika field dokumen berisi "스포츠캐주얼신발" dan ditokenisasi menjadi "스포츠 캐주얼 신발", dokumen dapat diambil dengan pencarian "스포츠", "캐주얼", atau "신발".

General analyzer for Japanese

Description: Analyzer ini cocok untuk analisis teks Jepang di industri umum.

Catatan: Ini hanya berlaku untuk tipe bidang TEXT dan SHORT_TEXT.

Hanya tersedia untuk aplikasi dedicated.

Example:

Jika konten field dokumen adalah "メキシコアグーチ" dan hasil tokenisasinya adalah "メキシコ アグーチ", dokumen dapat diambil dengan mencari "メキシコ" atau "アグーチ".

E-commerce analyzer for Japanese

Description: Analyzer ini dirancang untuk teks Jepang di industri E-dagang.

Note: Analyzer ini berlaku untuk field dengan tipe TEXT dan SHORT_TEXT.

Hanya tersedia untuk aplikasi dedicated.

Example:

Jika konten field dokumen adalah "ラウンドネックスーツ" dan hasil tokenisasinya adalah "ラウンド ネック スーツ", dokumen dapat diambil dengan pencarian "ラウンド", "ネック", atau "スーツ".

Custom text analyzer

Description: Analyzer ini menggabungkan analyzer spesifik industri—seperti analyzer umum, analyzer E-dagang, atau analyzer nama orang—dengan entri intervensi kustom. Untuk informasi lebih lanjut, lihat Custom text analyzers.

Catatan: Ini hanya berlaku untuk tipe bidang TEXT dan SHORT_TEXT.

Analyze tests

Anda dapat menguji hasil analisis dari analyzer spesifik industri dan kustom. Di Konsol OpenSearch, navigasi ke Search Algorithm Center > Retrieval Configuration > Analyzer Management dan klik tab Analysis Test. Gambar berikut menunjukkan contohnya.

Scenarios

Untuk pencarian semantis dalam bahasa Tiongkok, gunakan analyzer semantis Tiongkok.
Untuk pencarian teks pendek Tiongkok atau skenario non-semantis di mana pengurutan presisi tidak diperlukan, gunakan analyzer karakter tunggal Tiongkok untuk meningkatkan recall pengambilan.
Untuk pencarian Pinyin, gunakan fuzzy analyzer.
Untuk pencarian dalam bahasa Inggris, gunakan analyzer stemming bahasa Inggris.
Dalam beberapa skenario, Anda dapat menggabungkan analyzer semantis Tiongkok dan analyzer karakter tunggal untuk mendapatkan hasil pencarian yang lebih baik. Misalnya, gabungkan kueri query=title_index:'菊花茶' OR sws_title_index:'菊花茶' dengan ekspresi penyortiran halus text_relevance(title)×5+field_proximity(sws_title). Kombinasi ini mengambil dokumen yang berisi karakter individual "菊花茶" meskipun terpisah, dan memberi peringkat lebih tinggi pada dokumen yang berisi frasa eksak "菊花茶".

Usage notes

Tipe field yang didukung untuk bidang indeks
INT, INT_ARRAY, TEXT, SHORT_TEXT, LITERAL, LITERAL_ARRAY, TIMESTAMP, dan GEO_POINT
Tipe field yang tidak didukung untuk bidang indeks
FLOAT, FLOAT_ARRAY, DOUBLE, dan DOUBLE_ARRAY
Jika ringkasan hasil pencarian dikonfigurasi untuk field TEXT, beberapa frasa dalam unit pencarian diperluas—seperti "花茶" pada contoh sebelumnya—tidak disorot.
Analyzer karakter tunggal Tiongkok memperlakukan angka dan kata bahasa Inggris sebagai satu token. Misalnya, untuk teks "hello world", pencarian "hello" akan mengambil dokumen, tetapi pencarian "he" tidak. Untuk mengambil dokumen berdasarkan kecocokan sebagian kata, gunakan fuzzy analyzer.
Secara default, kunci utama tabel utama dalam skema aplikasi diatur sebagai bidang indeks bernama "id". Konfigurasi ini tidak dapat diubah.