Saat Anda mencari "米" (biji-bijian), hasil pencarian mungkin tidak menampilkan dokumen yang berisi "糯米" (beras ketan), "小米" (millet), atau "大米" (beras). Hal ini terjadi karena alat analisis bawaan membagi teks dengan cara yang tidak sesuai dengan kosakata domain Anda. Custom text analyzer memungkinkan Anda mengganti cara OpenSearch melakukan tokenisasi istilah tertentu selama pengindeksan dan pencarian, sehingga hasilnya mencerminkan konteks bisnis Anda.
Cara kerja
Custom analyzer menggabungkan dua elemen:
A base analyzer: salah satu alat analisis bawaan OpenSearch (misalnya alat analisis umum untuk teks Tionghoa atau alat analisis industri E-dagang)
Intervention entries: pasangan kunci-nilai yang mengganti output tokenisasi untuk istilah tertentu
Intervention entries memiliki prioritas lebih tinggi dibanding output default dari base analyzer. Di dalam intervention entries, entri yang ditambahkan secara manual memiliki prioritas lebih tinggi daripada entri untuk tipe analyzer yang ditentukan.
Secondary analysis
Setiap intervention entry memiliki toggle Secondary Analysis:
| Setting | Behavior |
|---|---|
| On | OpenSearch melakukan re-segmentasi terhadap token output dari entri tersebut |
| Off | OpenSearch mempertahankan token output dari entri tersebut apa adanya |
Sebagai contoh, dengan kunci entri 开放搜索 dan alat analisis teks Tionghoa umum:
Dengan secondary analysis diaktifkan:

Dengan secondary analysis dinonaktifkan:

Batasan dan aturan validasi entri
Kuota
| Constraint | Limit |
|---|---|
| Custom analyzers per console | 20 |
| Intervention entries per analyzer | 1.000 |
| Max key length | 10 karakter |
| Max value length | 32 karakter |
Batasan karakter
Kunci dan nilai hanya boleh berisi karakter Tionghoa atau huruf. Tidak boleh mengandung:
Huruf kapital
Karakter full-width
Tanda baca Tionghoa
Aturan validasi entri
| Rule | Valid example | Invalid example | Why invalid |
|---|---|---|---|
| Kunci tidak boleh mengandung spasi | Kunci: 正确词条, nilai: 正确 词条 | Kunci: 不正确 词条 | Kunci mengandung spasi |
| Untuk analisis berbasis semantik, kunci harus sama dengan nilai setelah spasi dihapus | Kunci: 正确的词条, nilai: 正确 的 词条 | Kunci: 不正确的词条, nilai: 错误 的 词条 | Kunci berbeda dari nilai setelah spasi dihapus |
| Kunci tidak boleh menjadi bagian dari nilai entri lain dalam analyzer yang sama | Kunci: 分词 (valid ketika entri lain memiliki kunci 自定义分词器, nilai 自定义 分词器) | Kunci: 分词器 | 分词器 muncul dalam nilai entri pertama |
Hanya aplikasi Edisi Peningkatan Spesifik Industri yang dapat menggunakan custom analyzer yang dibangun di atas alat analisis umum untuk teks dari industri E-dagang.
Membuat dan menggunakan custom analyzer
Proses end-to-end terdiri dari lima langkah: membuat analyzer, menambahkan intervention entries, menguji analyzer, menerapkannya ke bidang indeks, dan memicu pengindeksan ulang.
Prasyarat
Sebelum memulai, pastikan Anda telah memiliki:
Aplikasi OpenSearch dengan setidaknya satu bidang indeks yang akan dikonfigurasi
Akses ke Konsol OpenSearch
Langkah 1: Membuat analyzer
Login ke Konsol OpenSearch. Di panel navigasi kiri, pilih Search Algorithm Center > Retrieval Configuration.
Di halaman Basic Configuration, klik Analyzer Management di panel kiri. Di halaman Analyzer Management, klik Create pada tab Text Analyzer.

Di panel Create Analyzer, masukkan nama analyzer, pilih tipe analyzer, pilih base analyzer, lalu klik Save.

Langkah 2: Menambahkan intervention entries
Di tab Text Analyzer, temukan analyzer yang telah Anda buat dan klik Manage Entries di kolom Actions.
Di halaman Manage Entries, klik Add.
Di panel Add Intervention Entries, atur Search Query (kunci) dan Analysis Results (nilai), serta konfigurasikan Secondary Analysis. Pisahkan token dalam nilai dengan spasi. Contoh: kunci =
糯米, nilai =糯 米
Langkah 3: Menguji analyzer
Jalankan uji analisis untuk memverifikasi bahwa entri Anda menghasilkan output tokenisasi yang diharapkan sebelum menerapkan analyzer ke indeks.
Di halaman Manage Entries, masukkan istilah di kolom Test Text — misalnya,
糯米.

Tinjau hasil analisis. Gambar berikut menunjukkan hasil dari beberapa custom analyzer. Pastikan output tokenisasi sesuai harapan sebelum melanjutkan ke langkah berikutnya.

Langkah 4: Menerapkan analyzer ke bidang indeks
Buka halaman Basic Configuration dan modifikasi versi offline aplikasi Anda.
OpenSearch menghasilkan versi offline dari pengaturan aplikasi online Anda. Perubahan pada versi offline tidak memengaruhi aplikasi online yang sedang Berjalan.

Di bagian Index Field List, temukan bidang indeks yang akan dikonfigurasi dan pilih custom analyzer dari daftar drop-down di kolom Analysis Method.

Langkah 5: Mememicu pengindeksan ulang
Setelah menyimpan konfigurasi offline, picu pengindeksan ulang. Custom analyzer akan berlaku setelah proses pengindeksan ulang selesai.

Hasil
Setelah pengindeksan ulang, pencarian akan menggunakan custom analyzer Anda. Sebagai contoh, dengan alat analisis teks Tionghoa umum, pencarian untuk 米 mungkin tidak mengambil dokumen yang berisi 糯米, 小米, atau 大米. Setelah menerapkan custom analyzer bernama test_zw dengan intervention entry yang sesuai dan melakukan pengindeksan ulang, dokumen-dokumen tersebut diambil seperti yang diharapkan.
Catatan penggunaan
Menambahkan entri ke analyzer yang sedang digunakan: entri baru hanya berlaku setelah pengindeksan ulang. Untuk menerapkan perubahan segera, perbarui dokumen yang hasil analisisnya salah — hal ini akan memicu pengindeksan ulang untuk dokumen tersebut.
Menghapus analyzer: Anda tidak dapat menghapus custom analyzer yang telah ditetapkan ke aplikasi.