全部产品
Search
文档中心

:Pengenalan indeks terbalik

更新时间:Nov 09, 2025

Apa itu indeks terbalik?

Indeks terbalik, juga dikenal sebagai file posting atau file terbalik, adalah metode pengindeksan yang digunakan untuk menyimpan pemetaan dari istilah ke posisi dalam dokumen atau sekumpulan dokumen. Indeks ini memungkinkan pencarian teks penuh yang cepat dan merupakan struktur data yang paling umum digunakan dalam sistem pengambilan dokumen. Dengan indeks terbalik, Anda dapat dengan cepat menemukan daftar dokumen yang mengandung suatu istilah tertentu, posisi istilah tersebut dalam dokumen, serta informasi tambahan seperti frekuensi istilah untuk analisis.

Item yang disimpan dalam indeks terbalik

Item

Deskripsi

ttf

Singkatan dari total term frequency. Total term frequency menentukan jumlah total kemunculan suatu istilah di semua dokumen.

df

Singkatan dari document frequency. Document frequency menentukan jumlah total dokumen yang mengandung istilah tertentu.

tf

Singkatan dari term frequency. Term frequency menentukan jumlah kemunculan suatu istilah dalam dokumen.

docid

Singkatan dari document ID. Document ID adalah pengenal unik dokumen dalam mesin. Anda dapat menggunakan document ID untuk mendapatkan informasi lain tentang dokumen yang Anda kueri.

fieldmap

Field map digunakan untuk mencatat informasi bidang suatu istilah.

informasi bagian

Anda dapat membagi beberapa dokumen menjadi bagian-bagian dan kemudian menentukan informasi tambahan untuk setiap bagian. Informasi ini dapat diambil untuk pemrosesan selanjutnya.

posisi

Posisi digunakan untuk mencatat posisi suatu istilah dalam dokumen.

positionpayload

Anda dapat menentukan informasi payload untuk posisi berbeda dalam dokumen. Informasi payload dapat diambil untuk pemrosesan selanjutnya.

docpayload

Singkatan dari document payload. Anda dapat menentukan informasi tambahan untuk beberapa dokumen. Informasi ini dapat diambil untuk pemrosesan selanjutnya.

termpayload

Anda dapat menentukan informasi tambahan untuk beberapa istilah. Informasi ini dapat diambil untuk pemrosesan selanjutnya.

Struktur dasar indeks terbalik

Nama struktur

Deskripsi

dictionary

Kamus yang menyimpan pemetaan antara istilah dan daftar posting. Mesin dapat menggunakan kamus untuk menemukan posisi suatu istilah dalam dokumen.

doclist

Daftar dokumen menyimpan informasi tentang dokumen yang mengandung istilah tertentu.

positionlist

Daftar posisi menyimpan informasi posisi suatu istilah dalam setiap dokumen.

truncatelist

Daftar truncate digunakan untuk meningkatkan performa mesin. Indeks terbalik dapat dibuat secara terpisah untuk dokumen berkualitas tinggi berdasarkan konfigurasi yang Anda tentukan untuk meningkatkan performa pengambilan.

bitmap

Bitmap digunakan untuk meningkatkan performa mesin. Beberapa struktur terbalik dapat disimpan dalam bitmap berdasarkan konfigurasi yang Anda tentukan. Ini membantu mengurangi ruang penyimpanan yang ditempati oleh indeks terbalik dan meningkatkan performa pengambilan.

Prosedur dasar menggunakan indeks terbalik untuk pengambilan

Saat Anda mengkueri istilah M menggunakan indeks terbalik, mesin akan mengkueri file kamus untuk menemukan posisi awal istilah M dalam file posting. Kemudian, mesin mengurai daftar posting untuk mendapatkan bagian-bagian berikut dari informasi istilah M: TermMeta, DocList, dan PositionList. TermMeta menyimpan deskripsi dasar dari istilah tersebut, termasuk df, ttf, dan termpayload. DocList berisi informasi tentang dokumen yang mengandung istilah tersebut, mencakup ID dokumen, frekuensi istilah dalam dokumen, payload dokumen, dan bidang yang mengandung istilah tersebut. PositionList berisi informasi posisi istilah tersebut dalam setiap dokumen, termasuk posisi spesifik istilah dalam dokumen dan informasi positionpayload.

image