Text analyzer OpenSearch mengontrol cara nilai bidang dipecah menjadi token selama pengindeksan dan bagaimana kueri pencarian diurai. Pemilihan analyzer yang tepat untuk setiap bidang secara langsung menentukan kueri mana yang dapat mengambil dokumen.
Ikhtisar analyzer
Tabel berikut merangkum semua analyzer yang tersedia. Gunakan tabel ini untuk mempersempit pilihan sebelum membaca bagian referensi terperinci.
| Analyzer | Jenis bidang yang didukung | Paling cocok untuk | Ketersediaan |
|---|---|---|---|
| Keyword analyzer | LITERAL, ARRAY, INT | Pencarian kecocokan eksak; tag, ID, string utuh | — |
| General analyzer for Chinese | TEXT, SHORT_TEXT | Pencarian teks lengkap bahasa Tiongkok umum | — |
| E-commerce analyzer for Chinese | TEXT, SHORT_TEXT | Pencarian katalog produk Tiongkok | — |
| Single character analyzer for Chinese | TEXT, SHORT_TEXT | Pencarian Tiongkok non-semantis; nama penulis atau toko | — |
| Fuzzy analyzer | SHORT_TEXT | Pencarian Pinyin; pencarian awalan/akhiran; pencarian satu huruf | — |
| Word stemming analyzer for English | TEXT, SHORT_TEXT | Pencarian teks lengkap bahasa Inggris dengan stemming | — |
| Unstemmed word analyzer for English | TEXT, SHORT_TEXT | Pencarian bahasa Inggris non-semantis; judul buku, nama penulis | — |
| Analyzer for fine-grained analysis for English | TEXT, SHORT_TEXT | Pencarian teks lengkap bahasa Inggris dengan pemisahan kata majemuk | Exclusive applications |
| Full pinyin spelling analyzer | SHORT_TEXT | Pencarian Pinyin lengkap atau Pinyin singkat berdasarkan huruf pertama | — |
| Abbreviated pinyin spelling analyzer | SHORT_TEXT | Pencarian Pinyin singkat berdasarkan huruf pertama | — |
| Simple analyzer | TEXT, SHORT_TEXT | Tokenisasi kustom dengan istilah yang dipisahkan tab | — |
| Numerical value analyzer | INT, TIMESTAMP | Kueri rentang waktu dan rentang numerik | — |
| Geo-location analyzer | GEO_POINT | Kueri lokasi geografis | — |
| IT content analyzer | TEXT, SHORT_TEXT | Konten teknis dengan terminologi spesifik IT (misalnya, c++) | — |
| General analyzer for E-commerce for Chinese | TEXT | Pencarian produk E-dagang Tiongkok menggunakan NLP | Industry-specific Enhanced Edition for E-commerce |
| General analyzer for Thai | TEXT, SHORT_TEXT | Pencarian teks lengkap bahasa Thailand | Exclusive applications |
| Analyzer for E-commerce for Thai | TEXT, SHORT_TEXT | Pencarian produk E-dagang Thailand | Exclusive applications |
| General analyzer for Vietnamese | TEXT, SHORT_TEXT | Pencarian teks lengkap bahasa Vietnam | Exclusive applications |
| General analyzer for Gaming | TEXT, SHORT_TEXT | Pencarian konten industri game | Industry-specific Enhanced Edition for Gaming |
| General analyzer for E-commerce for English | TEXT | Pencarian produk E-dagang bahasa Inggris | Industry-specific Enhanced Edition for E-commerce |
| Character analyzer for Chinese | TEXT, SHORT_TEXT | Pencarian Tiongkok non-semantis tingkat karakter | Exclusive applications |
| Custom analyzer for text | TEXT, SHORT_TEXT | Skenario di mana analyzer bawaan tidak memenuhi kebutuhan | — |
Referensi analyzer
Keyword analyzer
Menghasilkan seluruh nilai bidang sebagai satu token tanpa segmentasi apa pun. Gunakan untuk pencarian kecocokan eksak pada tag, kata kunci, ID, atau string apa pun yang harus diperlakukan sebagai satu kesatuan.
Jenis bidang yang didukung: LITERAL, ARRAY, INT
Example: Jika nilai bidang adalah 菊花茶, dokumen hanya akan diambil ketika pengguna mencari 菊花茶.
General analyzer for Chinese
Memecah teks Tiongkok menjadi unit pencarian berdasarkan semantik bahasa Tiongkok. Ini merupakan titik awal yang direkomendasikan untuk sebagian besar kasus penggunaan pencarian teks lengkap bahasa Tiongkok.
Jenis bidang yang didukung: TEXT, SHORT_TEXT
Example: Jika nilai bidang adalah 菊花茶, dokumen akan diambil ketika pengguna mencari 菊花茶, 菊花, 茶, atau 花茶.
E-commerce analyzer for Chinese
Analyzer spesifik industri yang dioptimalkan untuk pencarian produk E-dagang Tiongkok. Analyzer ini menangani nama produk, nama merek, dan istilah campuran Tiongkok-Inggris yang umum dalam katalog ritel.
Jenis bidang yang didukung: TEXT, SHORT_TEXT
Example: Jika nilai bidang adalah 大宝SOD蜜, dokumen akan diambil ketika pengguna mencari 大宝, sod, sod蜜, SOD蜜, atau 蜜.
Single character analyzer for Chinese
Memecah teks Tiongkok menjadi karakter individual serta kata multi-karakter. Gunakan saat makna semantis tidak diperlukan dan recall yang lebih tinggi diutamakan — misalnya, saat mencari nama penulis atau nama toko.
Jenis bidang yang didukung: TEXT, SHORT_TEXT
Example: Jika nilai bidang adalah 菊花茶, dokumen akan diambil ketika pengguna mencari 菊花茶, 菊花, 茶, 花茶, 菊, 花, atau 菊茶.
Analyzer ini memperlakukan angka dan kata bahasa Inggris sebagai satu token. Pencarianhetidak akan mengambil dokumen yang bidangnya berisihello. Untuk mendukung pencocokan parsial kata bahasa Inggris, gunakan fuzzy analyzer sebagai gantinya.
Fuzzy analyzer
Mendukung pencarian Pinyin, awalan/akhiran, serta kata atau huruf tunggal. Panjang bidang tidak boleh melebihi 100 byte.
Jenis bidang yang didukung: SHORT_TEXT
Teks Tiongkok tidak mendukung pencarian awalan atau akhiran. Pencarian awalan dan akhiran hanya berlaku untuk huruf, angka, dan Pinyin. Untuk detailnya, lihat Fuzzy search.
Contoh:
Chinese with pinyin: Jika nilai bidang adalah
菊花茶, dokumen akan diambil ketika pengguna mencari菊花茶,菊花,茶,花茶,菊,花,菊茶,ju,juhua,juhuacha,j,jh, ataujhc.Prefix/suffix on numbers: Jika nilai bidang adalah
138****5678, pencarian^138akan mengambil semua nomor yang diawali dengan138; pencarian5678$akan mengambil semua nomor yang diakhiri dengan5678.Latin strings: Jika nilai bidang adalah
OpenSearch, dokumen akan diambil ketika pengguna mencari huruf tunggal atau kombinasi huruf apa pun yang terdapat dalam nilai tersebut.
Word stemming analyzer for English
Mereduksi setiap kata bahasa Inggris ke bentuk dasarnya, sehingga memungkinkan pencarian lintas varian infleksional. Karakter Tiongkok berurutan diperlakukan sebagai satu token.
Jenis bidang yang didukung: TEXT, SHORT_TEXT
Example: Jika nilai bidang adalah 英文分词器 english analyzer, dokumen akan diambil ketika pengguna mencari 英文分词器, english, analyz, analyzer, analyzers, analyze, analyzed, atau analyzing.
Unstemmed word analyzer for English
Memecah teks berdasarkan spasi dan tanda baca tanpa menerapkan stemming. Gunakan untuk pencarian bahasa Inggris non-semantis seperti judul buku atau nama penulis. Karakter Tiongkok berurutan diperlakukan sebagai satu token.
Jenis bidang yang didukung: TEXT, SHORT_TEXT
Example: Jika nilai bidang adalah 英文分词器 english analyzer, dokumen akan diambil ketika pengguna mencari 英文分词器, english, atau analyzer.
Analyzer for fine-grained analysis for English
Memecah teks bahasa Inggris berdasarkan unit pencarian dan memisahkan kata majemuk menjadi komponennya. Ini adalah analyzer bahasa Inggris tujuan umum untuk kasus penggunaan lintas industri.
Jenis bidang yang didukung: TEXT, SHORT_TEXT
Ketersediaan: Hanya untuk aplikasi eksklusif.
Example: Jika nilai bidang adalah dataprocess, hasil analisisnya adalah data process. Dokumen akan diambil ketika pengguna mencari dataprocess, data process, data, atau process.
Full pinyin spelling analyzer
Memungkinkan pengguna menemukan teks Tiongkok dengan memasukkan ejaan Pinyin lengkap atau huruf pertama setiap suku kata (Pinyin singkat). Pengguna harus mengetik suku kata Pinyin lengkap — suku kata parsial tidak akan cocok.
Jenis bidang yang didukung: SHORT_TEXT
Example: Jika nilai bidang adalah 大内密探007, dokumen akan diambil ketika pengguna mencari d, dn, dnm, dnmt, dnmt007, da, danei, daneimi, atau daneimitan. Pencarian an atau anei tidak akan mengambil dokumen tersebut.
Abbreviated pinyin spelling analyzer
Memungkinkan pengguna menemukan teks Tiongkok dengan memasukkan huruf pertama setiap suku kata Pinyin. Berbeda dengan full pinyin spelling analyzer, entri suku kata parsial didukung.
Jenis bidang yang didukung: SHORT_TEXT
Example: Jika nilai bidang adalah 大内密探007, dokumen akan diambil ketika pengguna mencari d, dn, dnm, dnmt, dnmt0, damt007, m, mt, mt007, atau 007.
Simple analyzer
Memberikan kontrol penuh atas tokenisasi. Istilah dalam nilai bidang dan kueri pencarian harus dipisahkan oleh karakter tab (\t). Nilai bidang dan kueri harus menggunakan segmentasi yang sama; jika tidak, dokumen tidak dapat diambil.
Jenis bidang yang didukung: TEXT, SHORT_TEXT
Example: Jika nilai bidang adalah 菊\t花茶\thao, dokumen akan diambil ketika pengguna mencari 菊, 花茶, 菊\t花茶, 花茶\thao, 菊\thao, atau 菊\t花茶\thao.
Numerical value analyzer
Mengindeks bidang numerik dan timestamp untuk kueri rentang.
Jenis bidang yang didukung: INT, TIMESTAMP
Contoh:
query=default:'开放搜索' AND index:[number1,number2]Dalam contoh ini, index adalah nama bidang indeks yang dikonfigurasi dengan numerical value analyzer.
Geo-location analyzer
Mengindeks bidang GEO_POINT untuk kueri lokasi geografis seperti pencarian radius.
Jenis bidang yang didukung: GEO_POINT
Contoh:
query=spatial_index:'circle(116.5806 39.99624, 1000)'Kueri ini mengambil dokumen dalam lingkaran yang radiusnya bisa mencapai beberapa kilometer.
IT content analyzer
Analyzer spesifik industri untuk konten teknis IT. Dibandingkan dengan general analyzer for Chinese, analyzer ini menangani rangkaian karakter spesifik IT secara berbeda — misalnya, mempertahankan c++ sebagai satu token alih-alih memisahkannya.
Jenis bidang yang didukung: TEXT, SHORT_TEXT
Contoh:
| Input | Hasil Alat Analisis Umum | Hasil IT content analyzer |
|---|---|---|
c++数组使用注意事项 | c ++ 数组使用注意事项 | c++ 数组使用注意事项 |
General analyzer for E-commerce for Chinese
Analyzer spesifik industri untuk pencarian produk E-dagang Tiongkok. Analyzer ini menggunakan teknologi natural language processing (NLP) dari Akademi DAMO untuk menghasilkan segmentasi yang lebih detail dibandingkan general analyzer.
Jenis bidang yang didukung: TEXT
Ketersediaan: Hanya untuk Industry-specific Enhanced Edition for E-commerce.
Contoh:
| Input | Hasil Alat Analisis Umum | Hasil Alat Analisis E-dagang Umum |
|---|---|---|
小金管遮瑕膏 | 小金管遮瑕膏 | 小金管 遮瑕 膏 |
General analyzer for Thai
Memecah teks Thailand menjadi unit pencarian untuk pencarian teks lengkap bahasa Thailand tujuan umum.
Jenis bidang yang didukung: TEXT, SHORT_TEXT
Ketersediaan: Hanya untuk aplikasi eksklusif.
Example: Jika nilai bidang adalah แหล่งดึงดูดนักท่องเที่ยว, hasil analisisnya adalah แหล่ง ดึง ดูด นักท่องเที่ยว. Dokumen akan diambil ketika pengguna mencari นักท่องเที่ยว atau แหล่งดึงดูดนักท่องเที่ยว.
Analyzer for E-commerce for Thai
Memecah teks Thailand untuk skenario pencarian produk E-dagang.
Jenis bidang yang didukung: TEXT, SHORT_TEXT
Ketersediaan: Hanya untuk aplikasi eksklusif.
Example: Jika nilai bidang adalah หน้าจอโทรศัพท์, hasil analisisnya adalah น้าจอ โทรศัพท์. Dokumen akan diambil ketika pengguna mencari หน้าจอโทรศัพท์, หน้าจอ, atau โทรศัพท์.
General analyzer for Vietnamese
Memecah teks Vietnam untuk pencarian teks lengkap bahasa Vietnam tujuan umum.
Jenis bidang yang didukung: TEXT, SHORT_TEXT
Ketersediaan: Hanya untuk aplikasi eksklusif.
General analyzer for Gaming
Analyzer spesifik industri yang dioptimalkan untuk konten game.
Jenis bidang yang didukung: TEXT, SHORT_TEXT
Ketersediaan: Hanya untuk Industry-specific Enhanced Edition for Gaming.
Example: Jika nilai bidang adalah 原神装备, hasil analisisnya adalah 原神 装备. Dokumen akan diambil ketika pengguna mencari 原神装备, 原神, atau 装备.
General analyzer for E-commerce for English
Analyzer spesifik industri untuk pencarian produk E-dagang bahasa Inggris.
Jenis bidang yang didukung: TEXT
Ketersediaan: Hanya untuk Industry-specific Enhanced Edition for E-commerce.
Character analyzer for Chinese
Memecah teks menjadi karakter Tiongkok individual, huruf Inggris, angka, dan tanda baca. Gunakan untuk pencarian non-semantis tingkat karakter.
Jenis bidang yang didukung: TEXT, SHORT_TEXT
Ketersediaan: Hanya untuk aplikasi eksklusif.
Example: Jika nilai bidang adalah 开放搜索OpenSearch123, dokumen akan diambil ketika pengguna mencari karakter atau huruf individual apa pun: 开, 放, 搜, 索, O, p, e, n, S, e, a, r, c, h, atau ..
Custom analyzer for text
Menggabungkan analyzer spesifik industri — general analyzer, E-commerce analyzer, atau person name analyzer — dengan entri intervensi kustom. Untuk detail konfigurasi, lihat Custom analyzers.
Jenis bidang yang didukung: TEXT, SHORT_TEXT
Pilih analyzer
Gunakan panduan berikut untuk memilih analyzer yang tepat sesuai kasus penggunaan Anda.
Pencarian teks lengkap bahasa Tiongkok
Untuk sebagian besar skenario, mulailah dengan general analyzer for Chinese atau E-commerce analyzer for Chinese.
Saat peringkat ketat tidak diperlukan dan recall yang lebih tinggi lebih penting — seperti teks pendek atau konten non-semantis — gunakan single character analyzer for Chinese.
Menggabungkan analyzer untuk peringkat yang lebih baik
Indeks bidang yang sama dengan analyzer semantis dan analyzer tingkat karakter untuk mengambil lebih banyak dokumen sekaligus memberi peringkat lebih tinggi pada hasil yang relevan secara semantis. Contohnya:
query=title_index:'菊花茶' OR sws_title_index:'菊花茶'Ekspresi pengurutan detail:
text_relevance(title)*5+field_proximity(sws_title)Konfigurasi ini memungkinkan pengguna mengambil semua dokumen yang berisi xx菊xx花xx茶xx. Selain itu, dokumen yang berisi 菊花茶 akan diberi peringkat pertama.
Pencarian Pinyin
Gunakan fuzzy analyzer untuk pencarian berbasis Pinyin.
Pencarian teks lengkap bahasa Inggris
Gunakan word stemming analyzer for English untuk mencocokkan bentuk kata infleksional.
Uji analyzer
Untuk memverifikasi cara analyzer memecah input tertentu, gunakan tool Word Analysis Test di Konsol OpenSearch.
Masuk ke Konsol OpenSearch.
Di panel navigasi kiri, pilih Search Algorithm Center > Retrieval Configuration.
Di halaman Basic Configuration, klik Analyzer Management di panel kiri.
Di halaman Analyzer Management, temukan analyzer target dan klik Word Analysis Test di kolom Actions.

Catatan penggunaan
Jenis bidang indeks: Jenis bidang berikut mendukung konfigurasi indeks: INT, INT_ARRAY, TEXT, SHORT_TEXT, LITERAL, LITERAL_ARRAY, TIMESTAMP, dan GEO_POINT. Jenis berikut tidak didukung: FLOAT, FLOAT_ARRAY, DOUBLE, dan DOUBLE_ARRAY.
Search result highlighting: Untuk bidang TEXT, istilah yang termasuk dalam unit pencarian diperluas — seperti
花茶yang berasal dari菊花茶— mungkin tidak dibungkus dalam tag penyorotan HTML pada ringkasan hasil pencarian.Single character analyzer dan kata bahasa Inggris: Analyzer ini memperlakukan angka dan kata bahasa Inggris sebagai satu token. Pencarian
hetidak akan mengambil dokumen yang bidangnya berisihello. Untuk mendukung pencocokan parsial kata bahasa Inggris, gunakan fuzzy analyzer sebagai gantinya.Bidang indeks kunci primer: Kunci primer dari tabel utama secara otomatis diatur sebagai bidang indeks bernama
id. Bidang ini tidak dapat diubah.