全部产品
Search
文档中心

Artificial Intelligence Recommendation:Konfigurasikan fitur

更新时间:Jun 29, 2025

Konfigurasi fitur merupakan bagian penting dari konfigurasi solusi rekomendasi. Platform ini memungkinkan Anda mengonfigurasi fitur yang diinginkan, lalu secara otomatis menghasilkan kode SQL MaxCompute dan Flink yang sesuai. Proses ini menghasilkan fitur statistik umum, fitur urutan, fitur MinMax, serta fitur statistik kunci-nilai preferensi. Output akhir digunakan oleh model recall vektor, peringkat kasar, dan peringkat halus. Berikut adalah panduan untuk mengonfigurasi fitur.

1. Konfigurasikan parameter Periode Statistik dan Perilaku

image.png

  • Statistical Period: Siklus untuk mendapatkan fitur. Anda dapat menentukan siklus kustom. Disarankan untuk mengonfigurasi siklus pendek, menengah, dan panjang. Jika terlalu banyak siklus dikonfigurasi, jumlah fitur yang dihasilkan akan sangat besar. Sebagai contoh, jika 200 fitur diperoleh selama satu siklus, 600 fitur diperoleh selama tiga siklus, dan 1.200 fitur diperoleh selama enam siklus.

  • Behavior: Nilai perilaku dalam tabel log perilaku. Disarankan untuk mengonfigurasi hingga lima nilai perilaku karena terlalu banyak nilai perilaku menghasilkan jumlah fitur yang sangat besar, seperti pada Statistical Period. Jika terdapat terlalu banyak jenis perilaku, gabungkan beberapa jenis perilaku yang tidak penting atau serupa saat menyiapkan tabel log perilaku. Perhatikan bahwa nilai perilaku disetel berdasarkan urutan kejadian, seperti urutan eksposur, klik, dan pujian yang sesuai dengan nilai expr, click, dan praise di bidang event. Urutan yang salah memengaruhi pembuatan fitur berbasis rasio dan memerlukan modifikasi manual dalam konfigurasi selanjutnya.

Setelah mengklik Generate Feature, sistem menghasilkan fitur turunan pengguna dan item berdasarkan parameter Statistical Period dan Behavior, serta fitur dasar dalam log perilaku, tabel pengguna, dan tabel item, seperti kategori, nilai numerik, dan tag.

2. Konfigurasikan fitur turunan dasar

image.png

Fitur baru diturunkan dari tabel log perilaku, pengguna, dan item. Anda juga dapat mengklik Add untuk menambahkan fitur turunan dasar. Perhatikan bahwa fitur baru diturunkan dari fitur atribut dasar item, pengguna, dan perilaku.

  • Resolusi Alamat IP: Konfigurasi ini hanya berlaku jika tabel yang diimpor berisi alamat IP. Informasi berikut tentang alamat IP dapat diperoleh: provinsi, kota, dan negara. Perhatikan bahwa hasil resolusi mungkin mengandung beberapa kesalahan.

  • Perhitungan Hari Sejak Sekarang: Jumlah hari dari tanggal pendaftaran pengguna atau item hingga hari ini dihitung.

  • Pengelompokan Fitur Numerik: Konfigurasi ini hanya berlaku untuk fitur numerik. Fitur numerik dibagi menjadi kelompok berbeda berdasarkan titik pengelompokan. Setelah pengelompokan, fitur kategorikal diperoleh.

  • Kombinasi Fitur: Berbagai bidang dapat dikombinasikan, seperti kombinasi dua bidang kategorikal, kombinasi bidang kategorikal dan bidang tag, serta kombinasi dua bidang tag. Bidang yang digabungkan harus berasal dari tabel yang sama, misalnya tabel pengguna atau tabel item.

image.png

Di tab Tabel Perilaku, jenis derivasi berikut didukung:

  • Jam dalam Sehari: Jam saat log dihasilkan dihitung.

  • Hari dalam Seminggu: Hari kerja saat log dihasilkan dihitung.

Setelah menambahkan fitur turunan dasar secara manual, klik Simpan di sudut kanan atas agar fitur tersebut berlaku.

3. Konfigurasikan fitur preferensi perilaku

Gambar berikut menunjukkan bahwa berbagai macam fitur statistik secara otomatis diturunkan untuk pengguna dan item. ID Pengguna dan ID Item digunakan sebagai kunci utama untuk agregasi fitur. Jenis statistik berikut didukung:

  • Statistik Perilaku

  • Perhitungan Tingkat Konversi

  • Jumlah Perilaku pada Fitur Atribut Preferensi Teratas

  • Tingkat Konversi Fitur Atribut Preferensi Teratas

  • Perhitungan Nilai Fitur Numerik Preferensi

  • Perhitungan Nilai Fitur Kombinasi Teratas

Jika Anda tidak memerlukan fitur tertentu, Anda dapat menghapusnya dengan mengklik tombol hapus di sisi kanan atau mengeditnya melalui tombol edit. Untuk menambahkan fitur, klik Tambah di sudut kiri bawah. Berikut adalah penjelasan jenis fitur statistik yang didukung:

image.png

  • Statistik Perilaku

image.png

Jumlah kali perilaku terjadi dihitung untuk periode waktu tertentu. Contohnya, nilai 3, 7, dan 15 menunjukkan tiga periode statistik, dan nilai expr, click, dan praise menunjukkan tiga jenis perilaku. Jika ID disetel untuk parameter Deduplikasi, deduplikasi dilakukan berdasarkan ID dan jumlah kali dihitung setelah deduplikasi. Jika skenario dikonfigurasi, statistik tentang perilaku yang terjadi dalam skenario ini dikumpulkan. Dengan menggunakan konfigurasi dalam contoh sebelumnya, sembilan fitur dihasilkan, yaitu jumlah (3) periode statistik dikalikan dengan jumlah (3) perilaku.

  • Perhitungan Tingkat Konversi

    image.png

    Rasio jumlah perilaku satu jenis terhadap jumlah perilaku jenis lain dihitung untuk periode waktu tertentu, seperti 3, 7, dan 15 hari. Contohnya, jumlah klik dibagi dengan jumlah eksposur dan jumlah pujian dibagi dengan jumlah klik. Anda dapat memodifikasi konfigurasi untuk menghasilkan fitur dan menambahkan atau menghapus fitur berdasarkan kebutuhan bisnis. Jika skenario dikonfigurasi, statistik tentang perilaku yang terjadi hanya dalam skenario ini dikumpulkan. Dengan menggunakan konfigurasi dalam contoh sebelumnya, enam fitur dihasilkan, yaitu jumlah periode statistik dikalikan dengan jumlah rumus perhitungan tingkat konversi.

  • Jumlah Perilaku pada Fitur Atribut Preferensi Teratas

    image.png

    Statistik perilaku di bawah kategori fitur atribut atau kategori multi-nilai dikumpulkan untuk periode waktu tertentu, seperti 3, 7, dan 15 hari. Contoh perilaku termasuk eksposur, klik, dan pujian. Jumlah kemunculan perilaku di bawah setiap kategori fitur atribut dikumpulkan dan kemudian fitur kunci-nilai dihasilkan. Contohnya, day_h dipilih untuk parameter Fitur Atribut dan klik dipilih untuk parameter Perilaku. Fitur "12:27.0,8:26.0,1:1.0" dihasilkan, yang menunjukkan bahwa pengguna melakukan 27 klik pada jam 12, 26 klik pada jam 8, dan 1 klik pada jam 1 dalam periode statistik saat ini. Jika skenario dikonfigurasi, statistik tentang perilaku yang terjadi dalam skenario ini dikumpulkan. Secara default, 100 kunci disimpan jika jumlah kunci terlalu besar. Dengan menggunakan konfigurasi dalam contoh sebelumnya, 54 fitur dihasilkan, yaitu jumlah periode statistik dikalikan dengan jumlah perilaku dikalikan dengan jumlah fitur atribut.

  • Tingkat Konversi Fitur Atribut Preferensi Teratas

    image.png

    Rasio perilaku di bawah kategori fitur atribut atau kategori multi-nilai dikumpulkan untuk periode waktu tertentu, seperti 3, 7, dan 15 hari. Contohnya, CTR (jumlah klik/jumlah eksposur) dan CVR (jumlah pujian/jumlah klik) dikumpulkan. Kemudian, fitur kunci-nilai dihasilkan. Contohnya, kategori dipilih untuk parameter Fitur Atribut dan rumus klik/expr disetel untuk parameter Rumus Perhitungan. Fitur "12:0.27,8:0.26" dihasilkan, yang menunjukkan bahwa CTR pengguna adalah 0.27 untuk kategori 12 dan 0.26 untuk kategori 8 dalam periode statistik saat ini. Jika skenario dikonfigurasi, statistik tentang perilaku yang terjadi dalam skenario ini dikumpulkan. Secara default, 100 kunci disimpan jika jumlah kunci terlalu besar. Dengan menggunakan konfigurasi dalam contoh sebelumnya, 36 fitur dihasilkan, yaitu jumlah periode statistik dikalikan dengan jumlah rumus perhitungan dikalikan dengan jumlah fitur atribut.

  • Perhitungan Nilai Fitur Numerik Preferensi

    image.png

    Fitur numerik perilaku seperti eksposur, klik, dan pujian dikumpulkan untuk periode waktu tertentu, seperti 3, 7, dan 15 hari, berdasarkan logika perhitungan yang ditentukan. Logika perhitungan mencakup Sum, Min, Max, dan Rata-rata. Jika skenario dikonfigurasi, statistik tentang perilaku yang terjadi dalam skenario ini dikumpulkan. Dengan menggunakan konfigurasi dalam contoh sebelumnya, 36 fitur dihasilkan, yaitu jumlah periode statistik dikalikan dengan jumlah perilaku dikalikan dengan jumlah fitur numerik.

  • Perhitungan Nilai Fitur Kombinasi Teratas

    image.png

    Fitur kombinasi terkait perilaku seperti eksposur, klik, dan pujian dikumpulkan untuk periode waktu tertentu, misalnya 3, 7, dan 15 hari, berdasarkan logika perhitungan yang ditentukan. Artinya, fitur numerik di bawah kategori tertentu untuk pengguna dihitung. Logika perhitungan mencakup Sum, Min, Max, dan Rata-rata. Jika skenario dikonfigurasi, statistik tentang perilaku yang terjadi dalam skenario ini dikumpulkan. Dengan menggunakan konfigurasi dalam contoh sebelumnya, 27 fitur dihasilkan, yaitu jumlah periode statistik dikalikan dengan jumlah perilaku dikalikan dengan jumlah fitur kategorikal kombinasi.

4. Konfigurasikan fitur urutan

Fitur urutan hanya diperoleh dari fitur perilaku pengguna. Pada tahap awal proyek, fitur urutan real-time disimulasikan untuk mengurangi waktu yang digunakan untuk mendapatkan fitur urutan secara online dan mempercepat peluncuran layanan. Umumnya, expr disetel untuk parameter Simulated Event. Parameter Periode untuk Mencegah Kebocoran Fitur menunjukkan periode pengecualian untuk perilaku terbaru. Contohnya, menyetelnya ke 3 detik mengecualikan perilaku yang terjadi dalam 3 detik terakhir dari urutan perilaku saat ini. (Alasan: Ada latensi dalam pengumpulan log. Jika perilaku yang terjadi selama periode terbaru disimulasikan, kebocoran fitur terjadi.) Parameter Pemisah Fitur Urutan menunjukkan pemisah yang digunakan untuk memisahkan fitur urutan. Parameter Pemisah Sub-fitur menunjukkan pemisah yang digunakan untuk memisahkan sub-fitur dalam urutan.

image.png

image.png

  • Periode Statistik Perilaku: Jumlah hari terbaru di mana perilaku dikumpulkan. Jika beberapa urutan dikonfigurasi, periode statistik maksimum berlaku.

  • Perilaku: Jenis perilaku.

  • Skenario: Skenario di mana perilaku yang terjadi dikumpulkan. Jika parameter ini tidak dikonfigurasi, perilaku yang terjadi di semua skenario dikumpulkan.

  • ID Deduplikasi: ID sub-fitur untuk deduplikasi. Hanya perilaku terbaru yang disimpan.

  • Sub-fitur: Sub-fitur dari fitur urutan, yang umumnya merupakan fitur non-statistik item, seperti fitur kategorikal, fitur kategorikal multi-nilai, dan fitur numerik.

  • Jumlah untuk Dipotong: Jumlah maksimum fitur urutan yang dapat disimpan.

5. Konfigurasikan fitur real-time

Anda dapat menggunakan ID pengguna dan ID item sebagai kunci utama untuk membuat fitur real-time. Parameter Periode untuk Mencegah Kebocoran Fitur untuk fitur real-time mirip dengan parameter Periode untuk Mencegah Kebocoran Fitur untuk fitur urutan. Parameter ini menunjukkan periode terbaru di mana perilaku tidak dikumpulkan. Periode terbaru merujuk pada periode waktu sebelum waktu pembuatan log yang sesuai. (Alasan: Dibutuhkan waktu untuk mengumpulkan log perilaku dari klien ke middleware berorientasi pesan dan kemudian ke layanan penyimpanan online. Jika parameter Periode untuk Mencegah Kebocoran Fitur tidak disetel, mesin rekomendasi tidak dapat menggunakan data terkait perilaku yang terjadi dalam periode terbaru, mengakibatkan ketidaksesuaian data antara pelatihan offline dan inferensi online.) Satuan parameter Periode Statistik Perilaku untuk fitur real-time adalah detik. Jenis statistik berikut dikumpulkan:

  • Statistik Perilaku

  • Perhitungan Tingkat Konversi

  • Jumlah Perilaku pada Fitur Atribut Preferensi Teratas

  • Tingkat Konversi Fitur Atribut Preferensi Teratas

Jenis statistik memiliki arti yang sama dengan yang ada dalam statistik preferensi perilaku.

image.png

6. Konfigurasikan fitur agregasi

Fitur agregasi diturunkan dari fitur pengguna dan fitur item. Anda perlu memilih kondisi agregasi. Anda hanya dapat memilih fitur kategorikal sebagai kondisi agregasi. Anda dapat mengonfigurasi beberapa fitur agregasi.

Fitur dikumpulkan berdasarkan kondisi agregasi yang ditentukan. Opsi parameter Tipe sama dengan yang ada di bagian Fitur Perilaku Preferensi dan maknanya juga sama. Contohnya, parameter Statistik Perilaku pada gambar berikut mengumpulkan jumlah klik, pujian, dan eksposur tanpa memandang gender. Jumlah klik oleh wanita secara signifikan lebih besar daripada jumlah klik oleh pria.

image.png