Text analyzers - OpenSearch - Alibaba Cloud Documentation Center

Text analyzer OpenSearch mengontrol cara nilai bidang dipecah menjadi token selama pengindeksan dan bagaimana kueri pencarian diurai. Pemilihan analyzer yang tepat untuk setiap bidang secara langsung menentukan kueri mana yang dapat mengambil dokumen.

Ikhtisar analyzer

Tabel berikut merangkum semua analyzer yang tersedia. Gunakan tabel ini untuk mempersempit pilihan sebelum membaca bagian referensi terperinci.

Analyzer	Jenis bidang yang didukung	Paling cocok untuk	Ketersediaan
Keyword analyzer	LITERAL, ARRAY, INT	Pencarian kecocokan eksak; tag, ID, string utuh	—
General analyzer for Chinese	TEXT, SHORT_TEXT	Pencarian teks lengkap bahasa Tiongkok umum	—
E-commerce analyzer for Chinese	TEXT, SHORT_TEXT	Pencarian katalog produk Tiongkok	—
Single character analyzer for Chinese	TEXT, SHORT_TEXT	Pencarian Tiongkok non-semantis; nama penulis atau toko	—
Fuzzy analyzer	SHORT_TEXT	Pencarian Pinyin; pencarian awalan/akhiran; pencarian satu huruf	—
Word stemming analyzer for English	TEXT, SHORT_TEXT	Pencarian teks lengkap bahasa Inggris dengan stemming	—
Unstemmed word analyzer for English	TEXT, SHORT_TEXT	Pencarian bahasa Inggris non-semantis; judul buku, nama penulis	—
Analyzer for fine-grained analysis for English	TEXT, SHORT_TEXT	Pencarian teks lengkap bahasa Inggris dengan pemisahan kata majemuk	Exclusive applications
Full pinyin spelling analyzer	SHORT_TEXT	Pencarian Pinyin lengkap atau Pinyin singkat berdasarkan huruf pertama	—
Abbreviated pinyin spelling analyzer	SHORT_TEXT	Pencarian Pinyin singkat berdasarkan huruf pertama	—
Simple analyzer	TEXT, SHORT_TEXT	Tokenisasi kustom dengan istilah yang dipisahkan tab	—
Numerical value analyzer	INT, TIMESTAMP	Kueri rentang waktu dan rentang numerik	—
Geo-location analyzer	GEO_POINT	Kueri lokasi geografis	—
IT content analyzer	TEXT, SHORT_TEXT	Konten teknis dengan terminologi spesifik IT (misalnya, `c++`)	—
General analyzer for E-commerce for Chinese	TEXT	Pencarian produk E-dagang Tiongkok menggunakan NLP	Industry-specific Enhanced Edition for E-commerce
General analyzer for Thai	TEXT, SHORT_TEXT	Pencarian teks lengkap bahasa Thailand	Exclusive applications
Analyzer for E-commerce for Thai	TEXT, SHORT_TEXT	Pencarian produk E-dagang Thailand	Exclusive applications
General analyzer for Vietnamese	TEXT, SHORT_TEXT	Pencarian teks lengkap bahasa Vietnam	Exclusive applications
General analyzer for Gaming	TEXT, SHORT_TEXT	Pencarian konten industri game	Industry-specific Enhanced Edition for Gaming
General analyzer for E-commerce for English	TEXT	Pencarian produk E-dagang bahasa Inggris	Industry-specific Enhanced Edition for E-commerce
Character analyzer for Chinese	TEXT, SHORT_TEXT	Pencarian Tiongkok non-semantis tingkat karakter	Exclusive applications
Custom analyzer for text	TEXT, SHORT_TEXT	Skenario di mana analyzer bawaan tidak memenuhi kebutuhan	—

Referensi analyzer

Keyword analyzer

Menghasilkan seluruh nilai bidang sebagai satu token tanpa segmentasi apa pun. Gunakan untuk pencarian kecocokan eksak pada tag, kata kunci, ID, atau string apa pun yang harus diperlakukan sebagai satu kesatuan.

Jenis bidang yang didukung: LITERAL, ARRAY, INT

Example: Jika nilai bidang adalah 菊花茶, dokumen hanya akan diambil ketika pengguna mencari 菊花茶.

General analyzer for Chinese

Memecah teks Tiongkok menjadi unit pencarian berdasarkan semantik bahasa Tiongkok. Ini merupakan titik awal yang direkomendasikan untuk sebagian besar kasus penggunaan pencarian teks lengkap bahasa Tiongkok.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Example: Jika nilai bidang adalah 菊花茶, dokumen akan diambil ketika pengguna mencari 菊花茶, 菊花, 茶, atau 花茶.

E-commerce analyzer for Chinese

Analyzer spesifik industri yang dioptimalkan untuk pencarian produk E-dagang Tiongkok. Analyzer ini menangani nama produk, nama merek, dan istilah campuran Tiongkok-Inggris yang umum dalam katalog ritel.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Example: Jika nilai bidang adalah 大宝SOD蜜, dokumen akan diambil ketika pengguna mencari 大宝, sod, sod蜜, SOD蜜, atau 蜜.

Single character analyzer for Chinese

Memecah teks Tiongkok menjadi karakter individual serta kata multi-karakter. Gunakan saat makna semantis tidak diperlukan dan recall yang lebih tinggi diutamakan — misalnya, saat mencari nama penulis atau nama toko.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Example: Jika nilai bidang adalah 菊花茶, dokumen akan diambil ketika pengguna mencari 菊花茶, 菊花, 茶, 花茶, 菊, 花, atau 菊茶.

Analyzer ini memperlakukan angka dan kata bahasa Inggris sebagai satu token. Pencarian he tidak akan mengambil dokumen yang bidangnya berisi hello. Untuk mendukung pencocokan parsial kata bahasa Inggris, gunakan fuzzy analyzer sebagai gantinya.

Fuzzy analyzer

Mendukung pencarian Pinyin, awalan/akhiran, serta kata atau huruf tunggal. Panjang bidang tidak boleh melebihi 100 byte.

Jenis bidang yang didukung: SHORT_TEXT

Teks Tiongkok tidak mendukung pencarian awalan atau akhiran. Pencarian awalan dan akhiran hanya berlaku untuk huruf, angka, dan Pinyin. Untuk detailnya, lihat Fuzzy search.

Contoh:

Chinese with pinyin: Jika nilai bidang adalah 菊花茶, dokumen akan diambil ketika pengguna mencari 菊花茶, 菊花, 茶, 花茶, 菊, 花, 菊茶, ju, juhua, juhuacha, j, jh, atau jhc.
Prefix/suffix on numbers: Jika nilai bidang adalah 138****5678, pencarian ^138 akan mengambil semua nomor yang diawali dengan 138; pencarian 5678$ akan mengambil semua nomor yang diakhiri dengan 5678.
Latin strings: Jika nilai bidang adalah OpenSearch, dokumen akan diambil ketika pengguna mencari huruf tunggal atau kombinasi huruf apa pun yang terdapat dalam nilai tersebut.

Word stemming analyzer for English

Mereduksi setiap kata bahasa Inggris ke bentuk dasarnya, sehingga memungkinkan pencarian lintas varian infleksional. Karakter Tiongkok berurutan diperlakukan sebagai satu token.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Example: Jika nilai bidang adalah 英文分词器 english analyzer, dokumen akan diambil ketika pengguna mencari 英文分词器, english, analyz, analyzer, analyzers, analyze, analyzed, atau analyzing.

Unstemmed word analyzer for English

Memecah teks berdasarkan spasi dan tanda baca tanpa menerapkan stemming. Gunakan untuk pencarian bahasa Inggris non-semantis seperti judul buku atau nama penulis. Karakter Tiongkok berurutan diperlakukan sebagai satu token.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Example: Jika nilai bidang adalah 英文分词器 english analyzer, dokumen akan diambil ketika pengguna mencari 英文分词器, english, atau analyzer.

Analyzer for fine-grained analysis for English

Memecah teks bahasa Inggris berdasarkan unit pencarian dan memisahkan kata majemuk menjadi komponennya. Ini adalah analyzer bahasa Inggris tujuan umum untuk kasus penggunaan lintas industri.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Ketersediaan: Hanya untuk aplikasi eksklusif.

Example: Jika nilai bidang adalah dataprocess, hasil analisisnya adalah data process. Dokumen akan diambil ketika pengguna mencari dataprocess, data process, data, atau process.

Full pinyin spelling analyzer

Memungkinkan pengguna menemukan teks Tiongkok dengan memasukkan ejaan Pinyin lengkap atau huruf pertama setiap suku kata (Pinyin singkat). Pengguna harus mengetik suku kata Pinyin lengkap — suku kata parsial tidak akan cocok.

Jenis bidang yang didukung: SHORT_TEXT

Example: Jika nilai bidang adalah 大内密探007, dokumen akan diambil ketika pengguna mencari d, dn, dnm, dnmt, dnmt007, da, danei, daneimi, atau daneimitan. Pencarian an atau anei tidak akan mengambil dokumen tersebut.

Abbreviated pinyin spelling analyzer

Memungkinkan pengguna menemukan teks Tiongkok dengan memasukkan huruf pertama setiap suku kata Pinyin. Berbeda dengan full pinyin spelling analyzer, entri suku kata parsial didukung.

Jenis bidang yang didukung: SHORT_TEXT

Example: Jika nilai bidang adalah 大内密探007, dokumen akan diambil ketika pengguna mencari d, dn, dnm, dnmt, dnmt0, damt007, m, mt, mt007, atau 007.

Simple analyzer

Memberikan kontrol penuh atas tokenisasi. Istilah dalam nilai bidang dan kueri pencarian harus dipisahkan oleh karakter tab (\t). Nilai bidang dan kueri harus menggunakan segmentasi yang sama; jika tidak, dokumen tidak dapat diambil.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Example: Jika nilai bidang adalah 菊\t花茶\thao, dokumen akan diambil ketika pengguna mencari 菊, 花茶, 菊\t花茶, 花茶\thao, 菊\thao, atau 菊\t花茶\thao.

Numerical value analyzer

Mengindeks bidang numerik dan timestamp untuk kueri rentang.

Jenis bidang yang didukung: INT, TIMESTAMP

Contoh:

query=default:'开放搜索' AND index:[number1,number2]

Dalam contoh ini, index adalah nama bidang indeks yang dikonfigurasi dengan numerical value analyzer.

Geo-location analyzer

Mengindeks bidang GEO_POINT untuk kueri lokasi geografis seperti pencarian radius.

Jenis bidang yang didukung: GEO_POINT

Contoh:

query=spatial_index:'circle(116.5806 39.99624, 1000)'

Kueri ini mengambil dokumen dalam lingkaran yang radiusnya bisa mencapai beberapa kilometer.

IT content analyzer

Analyzer spesifik industri untuk konten teknis IT. Dibandingkan dengan general analyzer for Chinese, analyzer ini menangani rangkaian karakter spesifik IT secara berbeda — misalnya, mempertahankan c++ sebagai satu token alih-alih memisahkannya.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Contoh:

Input	Hasil Alat Analisis Umum	Hasil IT content analyzer
`c++数组使用注意事项`	`c` `++` `数组使用注意事项`	`c++` `数组使用注意事项`

General analyzer for E-commerce for Chinese

Analyzer spesifik industri untuk pencarian produk E-dagang Tiongkok. Analyzer ini menggunakan teknologi natural language processing (NLP) dari Akademi DAMO untuk menghasilkan segmentasi yang lebih detail dibandingkan general analyzer.

Jenis bidang yang didukung: TEXT

Ketersediaan: Hanya untuk Industry-specific Enhanced Edition for E-commerce.

Contoh:

Input	Hasil Alat Analisis Umum	Hasil Alat Analisis E-dagang Umum
`小金管遮瑕膏`	`小金管遮瑕膏`	`小金管` `遮瑕` `膏`

General analyzer for Thai

Memecah teks Thailand menjadi unit pencarian untuk pencarian teks lengkap bahasa Thailand tujuan umum.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Ketersediaan: Hanya untuk aplikasi eksklusif.

Example: Jika nilai bidang adalah แหล่งดึงดูดนักท่องเที่ยว, hasil analisisnya adalah แหล่ง ดึง ดูด นักท่องเที่ยว. Dokumen akan diambil ketika pengguna mencari นักท่องเที่ยว atau แหล่งดึงดูดนักท่องเที่ยว.

Analyzer for E-commerce for Thai

Memecah teks Thailand untuk skenario pencarian produk E-dagang.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Ketersediaan: Hanya untuk aplikasi eksklusif.

Example: Jika nilai bidang adalah หน้าจอโทรศัพท์, hasil analisisnya adalah น้าจอ โทรศัพท์. Dokumen akan diambil ketika pengguna mencari หน้าจอโทรศัพท์, หน้าจอ, atau โทรศัพท์.

General analyzer for Vietnamese

Memecah teks Vietnam untuk pencarian teks lengkap bahasa Vietnam tujuan umum.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Ketersediaan: Hanya untuk aplikasi eksklusif.

General analyzer for Gaming

Analyzer spesifik industri yang dioptimalkan untuk konten game.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Ketersediaan: Hanya untuk Industry-specific Enhanced Edition for Gaming.

Example: Jika nilai bidang adalah 原神装备, hasil analisisnya adalah 原神装备. Dokumen akan diambil ketika pengguna mencari 原神装备, 原神, atau 装备.

General analyzer for E-commerce for English

Analyzer spesifik industri untuk pencarian produk E-dagang bahasa Inggris.

Jenis bidang yang didukung: TEXT

Ketersediaan: Hanya untuk Industry-specific Enhanced Edition for E-commerce.

Character analyzer for Chinese

Memecah teks menjadi karakter Tiongkok individual, huruf Inggris, angka, dan tanda baca. Gunakan untuk pencarian non-semantis tingkat karakter.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Ketersediaan: Hanya untuk aplikasi eksklusif.

Example: Jika nilai bidang adalah 开放搜索OpenSearch123, dokumen akan diambil ketika pengguna mencari karakter atau huruf individual apa pun: 开, 放, 搜, 索, O, p, e, n, S, e, a, r, c, h, atau ..

Custom analyzer for text

Menggabungkan analyzer spesifik industri — general analyzer, E-commerce analyzer, atau person name analyzer — dengan entri intervensi kustom. Untuk detail konfigurasi, lihat Custom analyzers.

Jenis bidang yang didukung: TEXT, SHORT_TEXT

Pilih analyzer

Gunakan panduan berikut untuk memilih analyzer yang tepat sesuai kasus penggunaan Anda.

Pencarian teks lengkap bahasa Tiongkok

Untuk sebagian besar skenario, mulailah dengan general analyzer for Chinese atau E-commerce analyzer for Chinese.
Saat peringkat ketat tidak diperlukan dan recall yang lebih tinggi lebih penting — seperti teks pendek atau konten non-semantis — gunakan single character analyzer for Chinese.

Menggabungkan analyzer untuk peringkat yang lebih baik

Indeks bidang yang sama dengan analyzer semantis dan analyzer tingkat karakter untuk mengambil lebih banyak dokumen sekaligus memberi peringkat lebih tinggi pada hasil yang relevan secara semantis. Contohnya:

query=title_index:'菊花茶' OR sws_title_index:'菊花茶'

Ekspresi pengurutan detail:

text_relevance(title)*5+field_proximity(sws_title)

Konfigurasi ini memungkinkan pengguna mengambil semua dokumen yang berisi xx菊xx花xx茶xx. Selain itu, dokumen yang berisi 菊花茶 akan diberi peringkat pertama.

Pencarian Pinyin

Gunakan fuzzy analyzer untuk pencarian berbasis Pinyin.

Pencarian teks lengkap bahasa Inggris

Gunakan word stemming analyzer for English untuk mencocokkan bentuk kata infleksional.

Uji analyzer

Untuk memverifikasi cara analyzer memecah input tertentu, gunakan tool Word Analysis Test di Konsol OpenSearch.

Masuk ke Konsol OpenSearch.
Di panel navigasi kiri, pilih Search Algorithm Center > Retrieval Configuration.
Di halaman Basic Configuration, klik Analyzer Management di panel kiri.
Di halaman Analyzer Management, temukan analyzer target dan klik Word Analysis Test di kolom Actions.

Catatan penggunaan

Jenis bidang indeks: Jenis bidang berikut mendukung konfigurasi indeks: INT, INT_ARRAY, TEXT, SHORT_TEXT, LITERAL, LITERAL_ARRAY, TIMESTAMP, dan GEO_POINT. Jenis berikut tidak didukung: FLOAT, FLOAT_ARRAY, DOUBLE, dan DOUBLE_ARRAY.
Search result highlighting: Untuk bidang TEXT, istilah yang termasuk dalam unit pencarian diperluas — seperti 花茶 yang berasal dari 菊花茶 — mungkin tidak dibungkus dalam tag penyorotan HTML pada ringkasan hasil pencarian.
Single character analyzer dan kata bahasa Inggris: Analyzer ini memperlakukan angka dan kata bahasa Inggris sebagai satu token. Pencarian he tidak akan mengambil dokumen yang bidangnya berisi hello. Untuk mendukung pencocokan parsial kata bahasa Inggris, gunakan fuzzy analyzer sebagai gantinya.
Bidang indeks kunci primer: Kunci primer dari tabel utama secara otomatis diatur sebagai bidang indeks bernama id. Bidang ini tidak dapat diubah.