Apa itu indeks terbalik?
Indeks terbalik, juga dikenal sebagai file posting atau file terbalik, adalah metode pengindeksan yang digunakan untuk menyimpan pemetaan dari istilah ke posisi dalam dokumen atau kumpulan dokumen. Indeks ini memungkinkan pencarian teks penuh yang cepat dan merupakan struktur data yang paling umum digunakan dalam sistem pengambilan dokumen. Dengan indeks terbalik, Anda dapat dengan cepat menemukan daftar dokumen yang mengandung suatu istilah, posisi istilah tersebut dalam dokumen, serta informasi lain seperti frekuensi istilah untuk analisis.
Item yang disimpan dalam indeks terbalik
Item | Deskripsi |
ttf | Singkatan dari total term frequency. Total term frequency menunjukkan jumlah total kemunculan istilah tersebut di semua dokumen. |
df | Singkatan dari document frequency. Document frequency menunjukkan jumlah total dokumen yang mengandung istilah tersebut. |
tf | Singkatan dari term frequency. Term frequency menunjukkan jumlah kemunculan istilah tersebut dalam dokumen. |
docid | Singkatan dari document ID. Document ID adalah pengenal unik dokumen dalam mesin. Anda dapat menggunakan document ID untuk mendapatkan informasi lain tentang dokumen yang Anda tanyakan. |
fieldmap | Singkatan dari field map. Field map digunakan untuk mencatat informasi bidang tentang suatu istilah. |
informasi bagian | Anda dapat membagi beberapa dokumen menjadi bagian-bagian dan kemudian menentukan informasi tambahan untuk setiap bagian. Informasi tersebut dapat diambil untuk pemrosesan selanjutnya. |
posisi | Posisi digunakan untuk mencatat posisi istilah dalam dokumen. |
positionpayload | Singkatan dari position payload. Anda dapat menentukan informasi payload untuk posisi berbeda dalam dokumen. Informasi payload dapat diambil untuk pemrosesan selanjutnya. |
docpayload | Singkatan dari document payload. Anda dapat menentukan informasi tambahan untuk beberapa dokumen. Informasi tersebut dapat diambil untuk pemrosesan selanjutnya. |
termpayload | Singkatan dari term payload. Anda dapat menentukan informasi tambahan untuk beberapa istilah. Informasi tersebut dapat diambil untuk pemrosesan selanjutnya. |
Struktur dasar dari indeks terbalik
Nama struktur | Deskripsi |
dictionary | Sebuah kamus yang menyimpan pemetaan antara istilah dan daftar posting. Mesin dapat menggunakan kamus untuk menemukan posisi istilah dalam dokumen. |
doclist | Singkatan dari document list. Daftar dokumen menyimpan informasi tentang dokumen yang mengandung istilah tersebut. |
positionlist | Singkatan dari position list. Daftar posisi menyimpan informasi posisi istilah tersebut di setiap dokumen. |
truncatelist | Singkatan dari truncate list. Truncate list digunakan untuk meningkatkan performa mesin. Indeks terbalik dapat dibuat secara terpisah untuk dokumen berkualitas tinggi berdasarkan konfigurasi yang Anda tentukan untuk meningkatkan performa pengambilan. |
bitmap | Bitmap digunakan untuk meningkatkan performa mesin. Beberapa struktur terbalik dapat disimpan dalam bitmap berdasarkan konfigurasi yang Anda tentukan. Hal ini membantu mengurangi ruang penyimpanan yang ditempati oleh indeks terbalik dan meningkatkan performa pengambilan. |
Prosedur dasar untuk menggunakan indeks terbalik untuk pengambilan
Ketika Anda menanyakan istilah M menggunakan indeks terbalik, mesin akan menanyakan file kamus untuk menemukan posisi awal istilah M dalam file posting. Kemudian, mesin mengurai daftar posting untuk mendapatkan informasi berikut tentang istilah M: TermMeta, DocList, dan PositionList. TermMeta menyimpan deskripsi dasar dari istilah tersebut, termasuk df, ttf, dan termpayload. DocList berisi informasi tentang dokumen yang mengandung istilah tersebut, mencakup document ID, frekuensi istilah dalam dokumen, document payload, dan bidang yang mengandung istilah tersebut. PositionList berisi informasi posisi istilah tersebut di setiap dokumen, termasuk posisi spesifik dalam dokumen dan informasi positionpayload.