Indeks - OpenSearch

Setiap dokumen berisi beberapa bidang, dan setiap bidang berisi satu set kata. Tujuan dari indeks adalah untuk mempercepat pengambilan data. Indeks dapat diklasifikasikan ke dalam jenis-jenis berikut berdasarkan pemetaan:

Indeks Terbalik: Menyimpan pemetaan dari istilah ke ID dokumen dalam format berikut: istilah -> (Dok1,Dok2,...,DokN). Indeks terbalik digunakan untuk pencarian guna membantu pengguna mengidentifikasi dokumen yang berisi kata kunci tertentu.
Indeks Maju: Menyimpan pemetaan dari ID dokumen ke bidang dalam format berikut: ID dokumen -> (istilah1,istilah2,...istilahn). Indeks maju dibagi menjadi indeks nilai tunggal dan indeks nilai ganda berdasarkan apakah atribut nilai tunggal atau atribut nilai ganda ditentukan. Atribut nilai tunggal yang bukan tipe data STRING memiliki panjang tetap, sehingga membuat kueri data lebih efisien dan memungkinkan pembaruan atribut tersebut. Atribut nilai ganda adalah bidang dengan sejumlah tak tentu nilai data, di mana panjangnya tidak tetap. Hal ini memengaruhi kinerja kueri dan mencegah pembaruan atribut nilai ganda. Setelah dokumen diambil, Anda dapat menggunakan indeks maju untuk menanyakan atribut dokumen berdasarkan ID dokumen untuk pengumpulan statistik, pengurutan, dan penyaringan. OpenSearch Retrieval Engine Edition mendukung bidang dengan tipe berikut dalam indeks maju: INT8, UINT16, INT32, INT64, FLOAT, DOUBLE, dan STRING. Atribut nilai ganda pada dasarnya adalah serangkaian atribut nilai tunggal. Oleh karena itu, tipe bidang yang didukung untuk atribut nilai tunggal sesuai dengan tipe bidang yang didukung untuk atribut nilai ganda. Sebagai contoh, INT8 sesuai dengan multi_int8, dan STRING sesuai dengan multi_string.
Indeks Ringkasan: Menyimpan pemetaan dari ID dokumen ke ringkasan. Format indeks ringkasan mirip dengan format indeks maju, namun dalam indeks ringkasan, ID dokumen dipetakan ke kumpulan bidang. Anda dapat menggunakan indeks ringkasan untuk mengidentifikasi ringkasan yang sesuai dengan ID dokumen dalam waktu singkat. Indeks ringkasan digunakan untuk mengambil hasil yang berisi nilai-nilai dari bidang yang ingin ditampilkan. Dalam banyak kasus, ukuran ringkasan besar, sehingga indeks ringkasan tidak cocok untuk pencarian di mana sejumlah besar konten ringkasan perlu diambil. Konten ringkasan hanya dapat diambil untuk dokumen yang berisi nilai-nilai dari bidang yang ingin ditampilkan. OpenSearch Retrieval Engine Edition menyediakan mekanisme kompresi untuk indeks ringkasan. Jika Anda mengaktifkan kompresi untuk indeks ringkasan dalam skema, OpenSearch Retrieval Engine Edition menggunakan zlib untuk menekan indeks ringkasan dan kemudian menyimpan indeks ringkasan yang telah dikompresi. Saat OpenSearch Retrieval Engine Edition membaca data dari indeks ringkasan, mesin pencari mendekompresi indeks ringkasan yang telah dikompresi dan kemudian mengembalikan hasil yang ditemukan kepada pengguna.