全部产品
Search
文档中心

OpenSearch:Ikhtisar

更新时间:Jun 26, 2025

Apa itu prediksi kategori?

Optimalisasi performa mesin pencari merupakan topik penting. Pada tahap pemahaman maksud query, Anda dapat menggunakan metode seperti pemahaman semantik, pengenalan entitas bernama (NER), analisis bobot istilah, dan koreksi ejaan. Pada tahap pengurutan, metode optimalisasi seperti analisis relevansi teks, model popularitas, dan prediksi kategori dapat digunakan. Anda juga dapat mengonfigurasi aturan analisis query, menyesuaikan ekspresi pengurutan, serta menjalankan uji A/B untuk membandingkan performa pencarian dari berbagai kebijakan optimalisasi.

Topik ini menjelaskan prediksi kategori. Saat Anda memasukkan query pencarian, beberapa komoditas ditemukan. Sistem menghitung relevansi antara query pencarian dan kategori setiap komoditas. Dengan asumsi relevansi tersebut dirujuk dalam ekspresi pengurutan, relevansi yang lebih tinggi akan meningkatkan skor pengurutan komoditas, sehingga komoditas tersebut mendapat peringkat lebih tinggi.

Sebagai contoh, jika query pencarian yang dimasukkan adalah "Bright", hasil pencarian mungkin mencakup komoditas dari kategori susu dan beras. Anda dapat melatih model prediksi kategori berdasarkan data perilaku berikut: Di antara pengguna yang mencari "Bright", lebih banyak pengguna mengklik komoditas dari kategori susu dibandingkan dengan kategori beras. Dalam hal ini, model memprediksi bahwa relevansi antara "Bright" dan kategori susu lebih tinggi daripada dengan kategori beras. Oleh karena itu, ketika sistem menghitung skor pengurutan setiap komoditas, komoditas dari kategori susu mendapat skor lebih tinggi dibandingkan komoditas dari kategori beras. Akibatnya, komoditas dari kategori susu mendapat peringkat lebih tinggi. Model memprediksi bahwa maksud pencarian "Bright" lebih cenderung menemukan komoditas dari kategori susu, yang meningkatkan nilai bisnis pencarian.

Prinsip dasar

Tujuan prediksi kategori adalah untuk memprediksi relevansi antara query pencarian dan kategori tertentu berdasarkan data query historis, data perilaku klik, dan informasi tentang komoditas dalam kategori tersebut. Anda dapat melatih model berdasarkan query pencarian historis, data perilaku klik setelah pencarian, serta informasi tentang komoditas dalam kategori untuk menggambarkan relevansi antara query pencarian dan kategori.

Sumber data yang menyimpan informasi komoditas diperlukan untuk melatih model. Saat membuat model prediksi kategori, Anda harus terlebih dahulu mengaitkan model dengan aplikasi. Kemudian, tentukan tiga jenis data yang diperlukan untuk pelatihan model.

Catatan

1. Anda dapat memperoleh semua query pencarian historis pada aplikasi dengan menambahkan parameter raw_query dalam permintaan pencarian.

2. Anda dapat memperoleh data kategori dan data komoditas dengan menentukan bidang dalam aplikasi saat mempersiapkan pelatihan model. Setidaknya tentukan bidang yang mencatat ID kategori dan judul komoditas dalam aplikasi.

3. Tambahkan instrumen untuk melaporkan data perilaku klik pada aplikasi. Model dengan lebih banyak fitur dapat dikembangkan dan memberikan performa lebih baik berdasarkan data yang lebih komprehensif dan berkualitas tinggi.

OpenSearch menyediakan dua opsi: Anda dapat melatih model dengan atau tanpa data perilaku.

Pelatihan model dengan data perilaku cocok untuk skenario di mana data perilaku telah diunggah. Saat pelatihan dimulai, kondisi masuk secara otomatis diperiksa untuk memastikan jumlah, kualitas, dan integritas data memenuhi persyaratan. Perhatikan langkah-langkah berikut untuk melatih model:

Catatan

1. Gunakan query pencarian historis dan informasi kategori untuk menghasilkan data sampel, serta gunakan data perilaku untuk melabeli data sampel.

2. Hasilkan fitur klik dengan mengumpulkan statistik indeks dan melakukan perhitungan fitur pada data perilaku.

3. Setelah query pencarian dan judul komoditas dari kategori dianalisis, hitung fitur semantik dari teks query pencarian dan judul komoditas.

4. Jika data perilaku transaksi diunggah, kumpulkan statistik indeks dan lakukan perhitungan fitur pada data perilaku untuk menghasilkan fitur transaksi. Fitur-fitur tersebut digunakan oleh model untuk memberi peringkat komoditas dengan performa transaksi lebih baik lebih tinggi.

5. Gabungkan data sampel, fitur perilaku, fitur semantik, fitur transaksi, serta label dari data sampel sebagai data pelatihan. Impor data pelatihan ke algoritma untuk pelatihan iteratif.

6. Setelah pelatihan selesai, diperoleh model yang menggambarkan relevansi antara query pencarian sampel dan kategori. Gunakan model ini untuk memprediksi relevansi antara query pencarian dan kategori tertentu.

Pelatihan model tanpa data perilaku cocok untuk skenario di mana data perilaku tidak diunggah atau kualitas data perilaku tidak memadai. Anda hanya perlu menentukan bidang yang mencatat ID kategori dan judul komoditas dalam aplikasi untuk mulai melatih model. Dalam hal ini, tidak ada dasar untuk melabeli data sampel karena tidak ada data perilaku yang tersedia. Setelah query pencarian dan judul komoditas dari kategori dianalisis, hitung relevansi semantik antara teks query pencarian dan judul komoditas, yaitu relevansi antara query pencarian dan kategori.

Secara teori, model yang dilatih dengan data perilaku lebih unggul dibandingkan model yang dilatih tanpa data perilaku. Model dengan lebih banyak fitur menggambarkan relevansi yang lebih komprehensif antara query pencarian dan kategori, serta prediksi model lebih akurat.

Baik model dilatih dengan atau tanpa data perilaku, pelatihan melibatkan sejumlah eksperimen, data dari berbagai skenario, serta penyetelan parameter yang hati-hati untuk memastikan hasil sesuai harapan.

Menggunakan prediksi kategori

Persyaratan

Sebelum melatih model, Anda harus menyiapkan sumber data dan mengaitkan model dengan aplikasi. Model prediksi kategori memerlukan data kategori dan komoditas, entri pencarian historis, serta data perilaku aplikasi.

Jika data perilaku klik tidak diunggah, atau Anda tidak ingin menggunakan data perilaku klik untuk pelatihan, atau data perilaku klik tidak memenuhi kondisi pelatihan, Anda dapat melatih model tanpa data perilaku. Dalam hal ini, pilih data dari tiga bidang berikut dalam aplikasi untuk model prediksi kategori: ID kategori, judul komoditas, dan nama kategori. Bidang yang mencatat ID kategori dan judul komoditas wajib, sedangkan bidang yang mencatat nama kategori bersifat opsional. Setelah pelatihan model selesai, hasil prediksi spesifik dari model diekspor untuk evaluasi performa. Nama kategori digunakan pada halaman evaluasi performa untuk mengevaluasi secara manual apakah relevansi antara query pencarian dan kategori memenuhi harapan. Kami merekomendasikan agar Anda memilih bidang yang mencatat nama kategori saat melatih model.

Jika data perilaku klik diunggah, Anda dapat memilih bidang terkait dengan data perilaku selain bidang-bidang sebelumnya saat melatih model. Dengan asumsi data perilaku memenuhi kondisi pelatihan, data tersebut digunakan untuk melatih model.

Prosedur

  1. Buat model prediksi kategori pada aplikasi.

  2. Terapkan model prediksi kategori: Terapkan model pada analisis query, kemudian terapkan model pada pengurutan kasar dan halus.

  3. Buat aturan analisis query, konfigurasikan prediksi kategori, lalu pilih model yang dibuat pada Langkah 1.

  4. Buat model prediksi kategori berlaku dalam permintaan pencarian: Gunakan SDK untuk memanggil operasi dan tentukan parameter raw_query.

Untuk informasi lebih lanjut, lihat Gunakan Prediksi Kategori.