All Products
Search
Document Center

OpenSearch:Text - Custom analyzers

Last Updated:Apr 01, 2026

Saat Anda mencari "米" (biji-bijian), hasil pencarian mungkin tidak menampilkan dokumen yang berisi "糯米" (beras ketan), "小米" (millet), atau "大米" (beras). Hal ini terjadi karena alat analisis bawaan membagi teks dengan cara yang tidak sesuai dengan kosakata domain Anda. Custom text analyzer memungkinkan Anda mengganti cara OpenSearch melakukan tokenisasi istilah tertentu selama pengindeksan dan pencarian, sehingga hasilnya mencerminkan konteks bisnis Anda.

Cara kerja

Custom analyzer menggabungkan dua elemen:

  • A base analyzer: salah satu alat analisis bawaan OpenSearch (misalnya alat analisis umum untuk teks Tionghoa atau alat analisis industri E-dagang)

  • Intervention entries: pasangan kunci-nilai yang mengganti output tokenisasi untuk istilah tertentu

Intervention entries memiliki prioritas lebih tinggi dibanding output default dari base analyzer. Di dalam intervention entries, entri yang ditambahkan secara manual memiliki prioritas lebih tinggi daripada entri untuk tipe analyzer yang ditentukan.

Secondary analysis

Setiap intervention entry memiliki toggle Secondary Analysis:

SettingBehavior
OnOpenSearch melakukan re-segmentasi terhadap token output dari entri tersebut
OffOpenSearch mempertahankan token output dari entri tersebut apa adanya

Sebagai contoh, dengan kunci entri 开放搜索 dan alat analisis teks Tionghoa umum:

Dengan secondary analysis diaktifkan:

image

Dengan secondary analysis dinonaktifkan:

image

Batasan dan aturan validasi entri

Kuota

ConstraintLimit
Custom analyzers per console20
Intervention entries per analyzer1.000
Max key length10 karakter
Max value length32 karakter

Batasan karakter

Kunci dan nilai hanya boleh berisi karakter Tionghoa atau huruf. Tidak boleh mengandung:

  • Huruf kapital

  • Karakter full-width

  • Tanda baca Tionghoa

Aturan validasi entri

RuleValid exampleInvalid exampleWhy invalid
Kunci tidak boleh mengandung spasiKunci: 正确词条, nilai: 正确 词条Kunci: 不正确 词条Kunci mengandung spasi
Untuk analisis berbasis semantik, kunci harus sama dengan nilai setelah spasi dihapusKunci: 正确的词条, nilai: 正确 的 词条Kunci: 不正确的词条, nilai: 错误 的 词条Kunci berbeda dari nilai setelah spasi dihapus
Kunci tidak boleh menjadi bagian dari nilai entri lain dalam analyzer yang samaKunci: 分词 (valid ketika entri lain memiliki kunci 自定义分词器, nilai 自定义 分词器)Kunci: 分词器分词器 muncul dalam nilai entri pertama
Hanya aplikasi Edisi Peningkatan Spesifik Industri yang dapat menggunakan custom analyzer yang dibangun di atas alat analisis umum untuk teks dari industri E-dagang.

Membuat dan menggunakan custom analyzer

Proses end-to-end terdiri dari lima langkah: membuat analyzer, menambahkan intervention entries, menguji analyzer, menerapkannya ke bidang indeks, dan memicu pengindeksan ulang.

Prasyarat

Sebelum memulai, pastikan Anda telah memiliki:

  • Aplikasi OpenSearch dengan setidaknya satu bidang indeks yang akan dikonfigurasi

  • Akses ke Konsol OpenSearch

Langkah 1: Membuat analyzer

  1. Login ke Konsol OpenSearch. Di panel navigasi kiri, pilih Search Algorithm Center > Retrieval Configuration.

  2. Di halaman Basic Configuration, klik Analyzer Management di panel kiri. Di halaman Analyzer Management, klik Create pada tab Text Analyzer.

    image

  3. Di panel Create Analyzer, masukkan nama analyzer, pilih tipe analyzer, pilih base analyzer, lalu klik Save.

    image

Langkah 2: Menambahkan intervention entries

  1. Di tab Text Analyzer, temukan analyzer yang telah Anda buat dan klik Manage Entries di kolom Actions.

  2. Di halaman Manage Entries, klik Add.

  3. Di panel Add Intervention Entries, atur Search Query (kunci) dan Analysis Results (nilai), serta konfigurasikan Secondary Analysis. Pisahkan token dalam nilai dengan spasi. Contoh: kunci = 糯米, nilai = 糯 米

    image

Langkah 3: Menguji analyzer

Jalankan uji analisis untuk memverifikasi bahwa entri Anda menghasilkan output tokenisasi yang diharapkan sebelum menerapkan analyzer ke indeks.

  1. Di halaman Manage Entries, masukkan istilah di kolom Test Text — misalnya, 糯米.

    image

    image

  2. Tinjau hasil analisis. Gambar berikut menunjukkan hasil dari beberapa custom analyzer. Pastikan output tokenisasi sesuai harapan sebelum melanjutkan ke langkah berikutnya.

    image

Langkah 4: Menerapkan analyzer ke bidang indeks

  1. Buka halaman Basic Configuration dan modifikasi versi offline aplikasi Anda.

    OpenSearch menghasilkan versi offline dari pengaturan aplikasi online Anda. Perubahan pada versi offline tidak memengaruhi aplikasi online yang sedang Berjalan.

    image

  2. Di bagian Index Field List, temukan bidang indeks yang akan dikonfigurasi dan pilih custom analyzer dari daftar drop-down di kolom Analysis Method.

    image

Langkah 5: Mememicu pengindeksan ulang

Setelah menyimpan konfigurasi offline, picu pengindeksan ulang. Custom analyzer akan berlaku setelah proses pengindeksan ulang selesai.

image

Hasil

Setelah pengindeksan ulang, pencarian akan menggunakan custom analyzer Anda. Sebagai contoh, dengan alat analisis teks Tionghoa umum, pencarian untuk mungkin tidak mengambil dokumen yang berisi 糯米, 小米, atau 大米. Setelah menerapkan custom analyzer bernama test_zw dengan intervention entry yang sesuai dan melakukan pengindeksan ulang, dokumen-dokumen tersebut diambil seperti yang diharapkan.

Catatan penggunaan

  • Menambahkan entri ke analyzer yang sedang digunakan: entri baru hanya berlaku setelah pengindeksan ulang. Untuk menerapkan perubahan segera, perbarui dokumen yang hasil analisisnya salah — hal ini akan memicu pengindeksan ulang untuk dokumen tersebut.

  • Menghapus analyzer: Anda tidak dapat menghapus custom analyzer yang telah ditetapkan ke aplikasi.