All Products
Search
Document Center

OpenSearch:Text analyzers

Last Updated:Apr 02, 2026

Text analyzer OpenSearch mengontrol cara nilai bidang dipecah menjadi token selama pengindeksan dan bagaimana kueri pencarian diurai. Pemilihan analyzer yang tepat untuk setiap bidang secara langsung menentukan kueri mana yang dapat mengambil dokumen.

Ikhtisar analyzer

Tabel berikut merangkum semua analyzer yang tersedia. Gunakan tabel ini untuk mempersempit pilihan sebelum membaca bagian referensi terperinci.

AnalyzerJenis bidang yang didukungPaling cocok untukKetersediaan
Keyword analyzerLITERAL, ARRAY, INTPencarian kecocokan eksak; tag, ID, string utuh
General analyzer for ChineseTEXT, SHORT_TEXTPencarian teks lengkap bahasa Tiongkok umum
E-commerce analyzer for ChineseTEXT, SHORT_TEXTPencarian katalog produk Tiongkok
Single character analyzer for ChineseTEXT, SHORT_TEXTPencarian Tiongkok non-semantis; nama penulis atau toko
Fuzzy analyzerSHORT_TEXTPencarian Pinyin; pencarian awalan/akhiran; pencarian satu huruf
Word stemming analyzer for EnglishTEXT, SHORT_TEXTPencarian teks lengkap bahasa Inggris dengan stemming
Unstemmed word analyzer for EnglishTEXT, SHORT_TEXTPencarian bahasa Inggris non-semantis; judul buku, nama penulis
Analyzer for fine-grained analysis for EnglishTEXT, SHORT_TEXTPencarian teks lengkap bahasa Inggris dengan pemisahan kata majemukExclusive applications
Full pinyin spelling analyzerSHORT_TEXTPencarian Pinyin lengkap atau Pinyin singkat berdasarkan huruf pertama
Abbreviated pinyin spelling analyzerSHORT_TEXTPencarian Pinyin singkat berdasarkan huruf pertama
Simple analyzerTEXT, SHORT_TEXTTokenisasi kustom dengan istilah yang dipisahkan tab
Numerical value analyzerINT, TIMESTAMPKueri rentang waktu dan rentang numerik
Geo-location analyzerGEO_POINTKueri lokasi geografis
IT content analyzerTEXT, SHORT_TEXTKonten teknis dengan terminologi spesifik IT (misalnya, c++)
General analyzer for E-commerce for ChineseTEXTPencarian produk E-dagang Tiongkok menggunakan NLPIndustry-specific Enhanced Edition for E-commerce
General analyzer for ThaiTEXT, SHORT_TEXTPencarian teks lengkap bahasa ThailandExclusive applications
Analyzer for E-commerce for ThaiTEXT, SHORT_TEXTPencarian produk E-dagang ThailandExclusive applications
General analyzer for VietnameseTEXT, SHORT_TEXTPencarian teks lengkap bahasa VietnamExclusive applications
General analyzer for GamingTEXT, SHORT_TEXTPencarian konten industri gameIndustry-specific Enhanced Edition for Gaming
General analyzer for E-commerce for EnglishTEXTPencarian produk E-dagang bahasa InggrisIndustry-specific Enhanced Edition for E-commerce
Character analyzer for ChineseTEXT, SHORT_TEXTPencarian Tiongkok non-semantis tingkat karakterExclusive applications
Custom analyzer for textTEXT, SHORT_TEXTSkenario di mana analyzer bawaan tidak memenuhi kebutuhan

Referensi analyzer

Keyword analyzer

Menghasilkan seluruh nilai bidang sebagai satu token tanpa segmentasi apa pun. Gunakan untuk pencarian kecocokan eksak pada tag, kata kunci, ID, atau string apa pun yang harus diperlakukan sebagai satu kesatuan.

Jenis bidang yang didukung: LITERAL, ARRAY, INT

Example: Jika nilai bidang adalah 菊花茶, dokumen hanya akan diambil ketika pengguna mencari 菊花茶.

General analyzer for Chinese

Memecah teks Tiongkok menjadi unit pencarian berdasarkan semantik bahasa Tiongkok. Ini merupakan titik awal yang direkomendasikan untuk sebagian besar kasus penggunaan pencarian teks lengkap bahasa Tiongkok.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Example: Jika nilai bidang adalah 菊花茶, dokumen akan diambil ketika pengguna mencari 菊花茶, 菊花, , atau 花茶.

E-commerce analyzer for Chinese

Analyzer spesifik industri yang dioptimalkan untuk pencarian produk E-dagang Tiongkok. Analyzer ini menangani nama produk, nama merek, dan istilah campuran Tiongkok-Inggris yang umum dalam katalog ritel.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Example: Jika nilai bidang adalah 大宝SOD蜜, dokumen akan diambil ketika pengguna mencari 大宝, sod, sod蜜, SOD蜜, atau .

Single character analyzer for Chinese

Memecah teks Tiongkok menjadi karakter individual serta kata multi-karakter. Gunakan saat makna semantis tidak diperlukan dan recall yang lebih tinggi diutamakan — misalnya, saat mencari nama penulis atau nama toko.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Example: Jika nilai bidang adalah 菊花茶, dokumen akan diambil ketika pengguna mencari 菊花茶, 菊花, , 花茶, , , atau 菊茶.

Analyzer ini memperlakukan angka dan kata bahasa Inggris sebagai satu token. Pencarian he tidak akan mengambil dokumen yang bidangnya berisi hello. Untuk mendukung pencocokan parsial kata bahasa Inggris, gunakan fuzzy analyzer sebagai gantinya.

Fuzzy analyzer

Mendukung pencarian Pinyin, awalan/akhiran, serta kata atau huruf tunggal. Panjang bidang tidak boleh melebihi 100 byte.

Jenis bidang yang didukung: SHORT_TEXT

Teks Tiongkok tidak mendukung pencarian awalan atau akhiran. Pencarian awalan dan akhiran hanya berlaku untuk huruf, angka, dan Pinyin. Untuk detailnya, lihat Fuzzy search.

Contoh:

  • Chinese with pinyin: Jika nilai bidang adalah 菊花茶, dokumen akan diambil ketika pengguna mencari 菊花茶, 菊花, , 花茶, , , 菊茶, ju, juhua, juhuacha, j, jh, atau jhc.

  • Prefix/suffix on numbers: Jika nilai bidang adalah 138****5678, pencarian ^138 akan mengambil semua nomor yang diawali dengan 138; pencarian 5678$ akan mengambil semua nomor yang diakhiri dengan 5678.

  • Latin strings: Jika nilai bidang adalah OpenSearch, dokumen akan diambil ketika pengguna mencari huruf tunggal atau kombinasi huruf apa pun yang terdapat dalam nilai tersebut.

Word stemming analyzer for English

Mereduksi setiap kata bahasa Inggris ke bentuk dasarnya, sehingga memungkinkan pencarian lintas varian infleksional. Karakter Tiongkok berurutan diperlakukan sebagai satu token.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Example: Jika nilai bidang adalah 英文分词器 english analyzer, dokumen akan diambil ketika pengguna mencari 英文分词器, english, analyz, analyzer, analyzers, analyze, analyzed, atau analyzing.

Unstemmed word analyzer for English

Memecah teks berdasarkan spasi dan tanda baca tanpa menerapkan stemming. Gunakan untuk pencarian bahasa Inggris non-semantis seperti judul buku atau nama penulis. Karakter Tiongkok berurutan diperlakukan sebagai satu token.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Example: Jika nilai bidang adalah 英文分词器 english analyzer, dokumen akan diambil ketika pengguna mencari 英文分词器, english, atau analyzer.

Analyzer for fine-grained analysis for English

Memecah teks bahasa Inggris berdasarkan unit pencarian dan memisahkan kata majemuk menjadi komponennya. Ini adalah analyzer bahasa Inggris tujuan umum untuk kasus penggunaan lintas industri.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Ketersediaan: Hanya untuk aplikasi eksklusif.

Example: Jika nilai bidang adalah dataprocess, hasil analisisnya adalah data process. Dokumen akan diambil ketika pengguna mencari dataprocess, data process, data, atau process.

Full pinyin spelling analyzer

Memungkinkan pengguna menemukan teks Tiongkok dengan memasukkan ejaan Pinyin lengkap atau huruf pertama setiap suku kata (Pinyin singkat). Pengguna harus mengetik suku kata Pinyin lengkap — suku kata parsial tidak akan cocok.

Jenis bidang yang didukung: SHORT_TEXT

Example: Jika nilai bidang adalah 大内密探007, dokumen akan diambil ketika pengguna mencari d, dn, dnm, dnmt, dnmt007, da, danei, daneimi, atau daneimitan. Pencarian an atau anei tidak akan mengambil dokumen tersebut.

Abbreviated pinyin spelling analyzer

Memungkinkan pengguna menemukan teks Tiongkok dengan memasukkan huruf pertama setiap suku kata Pinyin. Berbeda dengan full pinyin spelling analyzer, entri suku kata parsial didukung.

Jenis bidang yang didukung: SHORT_TEXT

Example: Jika nilai bidang adalah 大内密探007, dokumen akan diambil ketika pengguna mencari d, dn, dnm, dnmt, dnmt0, damt007, m, mt, mt007, atau 007.

Simple analyzer

Memberikan kontrol penuh atas tokenisasi. Istilah dalam nilai bidang dan kueri pencarian harus dipisahkan oleh karakter tab (\t). Nilai bidang dan kueri harus menggunakan segmentasi yang sama; jika tidak, dokumen tidak dapat diambil.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Example: Jika nilai bidang adalah 菊\t花茶\thao, dokumen akan diambil ketika pengguna mencari , 花茶, 菊\t花茶, 花茶\thao, 菊\thao, atau 菊\t花茶\thao.

Numerical value analyzer

Mengindeks bidang numerik dan timestamp untuk kueri rentang.

Jenis bidang yang didukung: INT, TIMESTAMP

Contoh:

query=default:'开放搜索' AND index:[number1,number2]

Dalam contoh ini, index adalah nama bidang indeks yang dikonfigurasi dengan numerical value analyzer.

Geo-location analyzer

Mengindeks bidang GEO_POINT untuk kueri lokasi geografis seperti pencarian radius.

Jenis bidang yang didukung: GEO_POINT

Contoh:

query=spatial_index:'circle(116.5806 39.99624, 1000)'

Kueri ini mengambil dokumen dalam lingkaran yang radiusnya bisa mencapai beberapa kilometer.

IT content analyzer

Analyzer spesifik industri untuk konten teknis IT. Dibandingkan dengan general analyzer for Chinese, analyzer ini menangani rangkaian karakter spesifik IT secara berbeda — misalnya, mempertahankan c++ sebagai satu token alih-alih memisahkannya.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Contoh:

InputHasil Alat Analisis UmumHasil IT content analyzer
c++数组使用注意事项c ++ 数组使用注意事项c++ 数组使用注意事项

General analyzer for E-commerce for Chinese

Analyzer spesifik industri untuk pencarian produk E-dagang Tiongkok. Analyzer ini menggunakan teknologi natural language processing (NLP) dari Akademi DAMO untuk menghasilkan segmentasi yang lebih detail dibandingkan general analyzer.

Jenis bidang yang didukung: TEXT

Ketersediaan: Hanya untuk Industry-specific Enhanced Edition for E-commerce.

Contoh:

InputHasil Alat Analisis UmumHasil Alat Analisis E-dagang Umum
小金管遮瑕膏小金管遮瑕膏小金管 遮瑕

General analyzer for Thai

Memecah teks Thailand menjadi unit pencarian untuk pencarian teks lengkap bahasa Thailand tujuan umum.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Ketersediaan: Hanya untuk aplikasi eksklusif.

Example: Jika nilai bidang adalah แหล่งดึงดูดนักท่องเที่ยว, hasil analisisnya adalah แหล่ง ดึง ดูด นักท่องเที่ยว. Dokumen akan diambil ketika pengguna mencari นักท่องเที่ยว atau แหล่งดึงดูดนักท่องเที่ยว.

Analyzer for E-commerce for Thai

Memecah teks Thailand untuk skenario pencarian produk E-dagang.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Ketersediaan: Hanya untuk aplikasi eksklusif.

Example: Jika nilai bidang adalah หน้าจอโทรศัพท์, hasil analisisnya adalah น้าจอ โทรศัพท์. Dokumen akan diambil ketika pengguna mencari หน้าจอโทรศัพท์, หน้าจอ, atau โทรศัพท์.

General analyzer for Vietnamese

Memecah teks Vietnam untuk pencarian teks lengkap bahasa Vietnam tujuan umum.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Ketersediaan: Hanya untuk aplikasi eksklusif.

General analyzer for Gaming

Analyzer spesifik industri yang dioptimalkan untuk konten game.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Ketersediaan: Hanya untuk Industry-specific Enhanced Edition for Gaming.

Example: Jika nilai bidang adalah 原神装备, hasil analisisnya adalah 原神 装备. Dokumen akan diambil ketika pengguna mencari 原神装备, 原神, atau 装备.

General analyzer for E-commerce for English

Analyzer spesifik industri untuk pencarian produk E-dagang bahasa Inggris.

Jenis bidang yang didukung: TEXT

Ketersediaan: Hanya untuk Industry-specific Enhanced Edition for E-commerce.

Character analyzer for Chinese

Memecah teks menjadi karakter Tiongkok individual, huruf Inggris, angka, dan tanda baca. Gunakan untuk pencarian non-semantis tingkat karakter.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Ketersediaan: Hanya untuk aplikasi eksklusif.

Example: Jika nilai bidang adalah 开放搜索OpenSearch123, dokumen akan diambil ketika pengguna mencari karakter atau huruf individual apa pun: , , , , O, p, e, n, S, e, a, r, c, h, atau ..

Custom analyzer for text

Menggabungkan analyzer spesifik industri — general analyzer, E-commerce analyzer, atau person name analyzer — dengan entri intervensi kustom. Untuk detail konfigurasi, lihat Custom analyzers.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Pilih analyzer

Gunakan panduan berikut untuk memilih analyzer yang tepat sesuai kasus penggunaan Anda.

Pencarian teks lengkap bahasa Tiongkok

  • Untuk sebagian besar skenario, mulailah dengan general analyzer for Chinese atau E-commerce analyzer for Chinese.

  • Saat peringkat ketat tidak diperlukan dan recall yang lebih tinggi lebih penting — seperti teks pendek atau konten non-semantis — gunakan single character analyzer for Chinese.

Menggabungkan analyzer untuk peringkat yang lebih baik

Indeks bidang yang sama dengan analyzer semantis dan analyzer tingkat karakter untuk mengambil lebih banyak dokumen sekaligus memberi peringkat lebih tinggi pada hasil yang relevan secara semantis. Contohnya:

query=title_index:'菊花茶' OR sws_title_index:'菊花茶'

Ekspresi pengurutan detail:

text_relevance(title)*5+field_proximity(sws_title)

Konfigurasi ini memungkinkan pengguna mengambil semua dokumen yang berisi xx菊xx花xx茶xx. Selain itu, dokumen yang berisi 菊花茶 akan diberi peringkat pertama.

Pencarian Pinyin

Gunakan fuzzy analyzer untuk pencarian berbasis Pinyin.

Pencarian teks lengkap bahasa Inggris

Gunakan word stemming analyzer for English untuk mencocokkan bentuk kata infleksional.

Uji analyzer

Untuk memverifikasi cara analyzer memecah input tertentu, gunakan tool Word Analysis Test di Konsol OpenSearch.

  1. Masuk ke Konsol OpenSearch.

  2. Di panel navigasi kiri, pilih Search Algorithm Center > Retrieval Configuration.

  3. Di halaman Basic Configuration, klik Analyzer Management di panel kiri.

  4. Di halaman Analyzer Management, temukan analyzer target dan klik Word Analysis Test di kolom Actions.

image

Catatan penggunaan

  • Jenis bidang indeks: Jenis bidang berikut mendukung konfigurasi indeks: INT, INT_ARRAY, TEXT, SHORT_TEXT, LITERAL, LITERAL_ARRAY, TIMESTAMP, dan GEO_POINT. Jenis berikut tidak didukung: FLOAT, FLOAT_ARRAY, DOUBLE, dan DOUBLE_ARRAY.

  • Search result highlighting: Untuk bidang TEXT, istilah yang termasuk dalam unit pencarian diperluas — seperti 花茶 yang berasal dari 菊花茶 — mungkin tidak dibungkus dalam tag penyorotan HTML pada ringkasan hasil pencarian.

  • Single character analyzer dan kata bahasa Inggris: Analyzer ini memperlakukan angka dan kata bahasa Inggris sebagai satu token. Pencarian he tidak akan mengambil dokumen yang bidangnya berisi hello. Untuk mendukung pencocokan parsial kata bahasa Inggris, gunakan fuzzy analyzer sebagai gantinya.

  • Bidang indeks kunci primer: Kunci primer dari tabel utama secara otomatis diatur sebagai bidang indeks bernama id. Bidang ini tidak dapat diubah.