apa itu prediksi kategori, cara menggunakan prediksi kategori - OpenSearch

Hasil pencarian yang diurutkan hanya berdasarkan relevansi teks sering kali tidak mencerminkan maksud sebenarnya pengguna. Misalnya, ketika pengguna mencari "Bright", kemungkinan besar mereka mencari produk susu, bukan beras—namun sistem peringkat berbasis teks saja tidak mampu menangkap maksud tersebut. Prediksi kategori mengatasi masalah ini dengan melatih model menggunakan data historis pencarian dan klik untuk mempelajari relevansi antara kueri dan kategori produk, lalu memanfaatkan skor relevansi tersebut guna menyesuaikan peringkat selama proses pengurutan.

Ketika ekspresi pengurutan merujuk pada skor relevansi kategori, komoditas dalam kategori yang memiliki relevansi tinggi akan mendapatkan peringkat lebih tinggi. Pendekatan ini memungkinkan Anda menampilkan hasil yang paling relevan secara komersial tanpa perlu menyetel bobot pengurutan secara manual untuk setiap kueri.

Cara kerja

Prediksi kategori melatih model yang mengukur relevansi antara kueri pencarian dan setiap kategori komoditas. Model ini mengandalkan tiga sumber data:

Sumber data	Cara menyediakannya
Kueri pencarian historis	Tambahkan parameter `raw_query` ke permintaan pencarian
Data kategori dan komoditas	Tentukan bidang dalam aplikasi; ID kategori dan judul komoditas wajib disediakan
Data perilaku klik	Instrumen aplikasi untuk melaporkan event klik

OpenSearch mendukung dua mode pelatihan tergantung pada ketersediaan data perilaku.

Pelatihan dengan data perilaku

Gunakan mode ini jika data klik telah diunggah dan memenuhi ambang batas pelatihan. Saat pelatihan dimulai, OpenSearch secara otomatis memverifikasi bahwa data memenuhi kriteria kuantitas, kualitas, dan integritas yang dipersyaratkan.

Pipeline pelatihan menjalankan langkah-langkah berikut:

Menghasilkan data sampel dari kueri pencarian historis dan informasi kategori; menggunakan data perilaku untuk memberi label pada sampel tersebut.
Mengumpulkan statistik indeks dan menjalankan perhitungan fitur pada data klik untuk menghasilkan fitur klik.
Menganalisis kueri pencarian dan judul komoditas untuk menghitung fitur semantik.
Jika tersedia data perilaku transaksi, menjalankan perhitungan fitur untuk menghasilkan fitur transaksi, yang membantu memberikan peringkat lebih tinggi pada komoditas dengan kinerja transaksi lebih kuat.
Menggabungkan data sampel, fitur perilaku, fitur semantik, fitur transaksi, dan label menjadi data pelatihan; menjalankan pelatihan iteratif pada algoritma.
Menghasilkan model yang menggambarkan relevansi antara kueri pencarian dan kategori.

Pelatihan tanpa data perilaku

Gunakan mode ini jika data klik tidak tersedia, belum diunggah, Anda tidak ingin menggunakan data perilaku klik untuk pelatihan, atau data tersebut tidak memenuhi ambang batas pelatihan. Hanya bidang ID kategori dan judul komoditas yang diperlukan.

Tanpa data perilaku, tidak tersedia label untuk data sampel. Model tersebut menghitung relevansi semantik antara teks kueri pencarian dan judul komoditas, lalu menggunakan nilai tersebut sebagai skor relevansi kategori.

Model yang dilatih dengan data perilaku menghasilkan prediksi yang lebih akurat karena menangkap lebih banyak dimensi relevansi. Kedua mode memerlukan penyetelan parameter dan validasi lintas data dari berbagai skenario.

Prasyarat

Sebelum melatih model, pastikan Anda memiliki:

Sumber data yang menyimpan data komoditas
Aplikasi yang akan dikaitkan dengan model
Data kategori dan komoditas, entri pencarian historis, serta data perilaku aplikasi
Bidang-bidang berikut yang telah ditentukan dalam aplikasi:

Bidang	Wajib	Tujuan
ID kategori	Ya	Mengidentifikasi kategori untuk setiap komoditas
Judul komoditas	Ya	Digunakan untuk menghitung relevansi semantik
Nama kategori	Tidak (disarankan)	Ditampilkan di halaman evaluasi kinerja untuk tinjauan manual

Menyertakan bidang nama kategori memungkinkan Anda memverifikasi di halaman evaluasi kinerja apakah relevansi kueri-kategori yang diprediksi sesuai dengan ekspektasi.

Jika data klik tersedia dan memenuhi ambang batas pelatihan, pilih bidang data perilaku tambahan saat mengonfigurasi model.

Mulai menggunakan prediksi kategori

Create model prediksi kategori dan kaitkan dengan aplikasi.
Apply model tersebut pada tahap analisis kueri serta pengurutan kasar dan presisi.
Buat aturan analisis kueri, konfigurasikan prediksi kategori, dan pilih model yang dibuat pada langkah 1.
Agar model prediksi kategori take effect dalam permintaan pencarian: gunakan SDK untuk memanggil operasi terkait dan sertakan parameter raw_query.

Untuk langkah-langkah konfigurasi lengkap, lihat Use category prediction.

Langkah selanjutnya

Setelah model dilatih, ekspor hasil prediksi dan tinjau di halaman evaluasi kinerja. Pastikan relevansi kueri-kategori yang diprediksi sesuai dengan ekspektasi Anda.