Sebuah FeatureStore proyek mencakup penyimpanan data offline dan online. Setiap proyek beroperasi secara independen, dengan tabel fitur online dan offline yang dibagikan di antara anggota proyek. Topik ini menjelaskan cara mengonfigurasi proyek FeatureStore.
Prasyarat
Tabel label disimpan di penyimpanan data offline.
Tabel label menyimpan label yang digunakan untuk pelatihan model dan mencakup atribut target dari pelatihan model serta ID gabungan entitas fitur. Dalam skenario rekomendasi, tabel label dihasilkan dengan mengelompokkan data dalam tabel perilaku berdasarkan user_id, item_id, atau request_id.
Buat proyek
Masuk ke Konsol PAI. Di panel navigasi kiri, pilih . Di halaman FeatureStore, pilih ruang kerja dan klik Enter FeatureStore.
Di halaman yang muncul, klik Create Project. Di halaman Buat Proyek, konfigurasikan parameter.
Tabel berikut menjelaskan parameter utama.
Parameter
Deskripsi
Offline Store
Pilih penyimpanan data offline yang sudah ada.
Online Store
Pilih penyimpanan data online yang sudah ada.
Offline Table Lifecycle
Tentukan siklus hidup untuk tabel yang dibuat secara otomatis oleh FeatureStore dan disimpan di penyimpanan data MaxCompute offline.
Klik Submit.
Buat entitas fitur
Entitas fitur adalah kumpulan fitur yang saling terkait secara semantik. Sebagai contoh, Anda dapat membuat dua entitas bernama pengguna dan item untuk skenario rekomendasi.
Dalam daftar proyek, klik nama proyek untuk masuk ke halaman Detail Proyek.
Di tab Feature Entity, klik Create Feature Entity. Konfigurasikan parameter di panel kanan yang muncul.
Tabel berikut menjelaskan parameter utama.
Parameter
Deskripsi
Feature Entity Name
Nama entitas fitur. Dalam skenario rekomendasi, Anda dapat membuat dua entitas bernama pengguna dan item.
Join ID
Bidang yang menghubungkan tampilan fitur dengan entitas fitur. Setiap entitas fitur memiliki ID gabungan. Anda dapat menghubungkan entitas fitur dengan fitur dari beberapa tampilan fitur berdasarkan ID gabungan.
Setiap tampilan fitur memiliki kunci utama (indeks) yang dapat digunakan untuk mengambil fitur. Kunci utama bisa berbeda dari ID gabungan.
Dalam skenario rekomendasi, Anda dapat menggunakan user_id (kunci utama tabel pengguna) atau item_id (kunci utama tabel item) sebagai ID gabungan.
Klik Submit.
Buat tampilan fitur
Tampilan fitur berisi kumpulan logis fitur dan fitur turunan. Tampilan fitur adalah subset dari entitas fitur dan menyediakan pemetaan antara fitur offline dan online.
Di halaman Detail Proyek, klik tab Feature View, lalu klik Create Feature View.
Konfigurasikan parameter di panel kanan yang muncul dan klik Submit.
Anda dapat membuat tampilan fitur offline untuk mendaftarkan data fitur offline di FeatureStore.
Anda dapat membuat tampilan fitur real-time untuk mendaftarkan data fitur real-time di FeatureStore.
Buat tampilan fitur offline
Tabel berikut menjelaskan parameter utama dari tampilan fitur offline.
Parameter | Deskripsi |
Type | Tipe tampilan fitur yang ingin Anda buat. Untuk membuat tampilan fitur offline, atur parameter ini ke Offline. |
Write Mode |
Konfigurasikan atribut bidang berikut:
|
Synchronize Online Feature Table | Tentukan apakah akan menyinkronkan data di tampilan fitur ke penyimpanan data online di proyek yang sama. |
Feature Entity | Pilih entitas fitur yang ingin Anda asosiasikan dengan tampilan fitur. Catatan Entitas fitur dapat diasosiasikan dengan beberapa tampilan fitur. |
Feature Lifecycle | Tentukan siklus hidup tampilan fitur. Siklus hidup menentukan berapa lama fitur yang ditulis ke penyimpanan data online dipertahankan. |
Buat tampilan fitur real-time
Tabel berikut menjelaskan parameter utama dari tampilan fitur real-time.
Parameter | Deskripsi |
View Name | Tentukan nama kustom. |
Type | Tipe tampilan fitur yang ingin Anda buat. Untuk membuat tampilan fitur real-time, atur parameter ini ke Real Time. |
Feature Entity | Pilih entitas fitur yang ingin Anda asosiasikan dengan tampilan fitur. Catatan Entitas fitur dapat diasosiasikan dengan beberapa tampilan fitur. |
Write Mode | Hanya Customize Table Schema yang didukung untuk tampilan fitur online. Tampilan fitur online menggunakan skema tabel kustom. Jika Anda memilih mode ini, Anda harus menambahkan bidang dan mengonfigurasi atribut bidang. Konfigurasikan atribut bidang berikut:
|
Feature Field | Tentukan bidang fitur sesuai kebutuhan Anda.
|
Feature Lifecycle | Tentukan siklus hidup tampilan fitur. Kami merekomendasikan Anda menetapkan nilai lebih besar dari 1. Nilai default: 30. Unit: hari. |
Advanced Settings | Anda dapat mengonfigurasi opsi lanjutan menggunakan pesan JSON. |
Buat tabel label
Tabel label menyimpan label yang digunakan untuk pelatihan model dan mencakup atribut target dari pelatihan model serta ID gabungan entitas fitur. Dalam skenario rekomendasi, tabel label dihasilkan dengan mengelompokkan data dalam tabel perilaku berdasarkan user_id, item_id, atau request_id.
Di halaman Detail Proyek, klik tab Label Table, lalu klik Create Label Table.
Di panel kanan yang muncul, pilih penyimpanan data tempat tabel label yang ingin Anda gunakan disimpan, lalu pilih tabel label.
Konfigurasikan bidang di tabel label dan klik Submit.
Atribut
Deskripsi
Feature Field
Bidang yang berisi fitur di tabel label.
FG Reserved Fields
Tidak diperlukan konfigurasi.
Event Time
Bidang yang berisi timestamp peristiwa di tabel label.
Label Field
Bidang yang berisi label di tabel label.
Partition Field
Bidang partisi yang membagi tabel label.
Buat fitur model
Fitur model adalah input yang digunakan model untuk pelatihan dan penyajian. Setelah Anda membangun model berdasarkan fitur yang dipilih, FeatureStore membuat training dataset di penyimpanan data MaxCompute untuk pelatihan offline. Anda dapat menentukan fitur model di Elastic Algorithm Service (EAS) atau PAI-Rec untuk secara otomatis menarik data fitur dari FeatureStore untuk inferensi model.
Di halaman Detail Proyek, klik tab Model Features lalu klik Create Model Feature.
Di panel kanan yang muncul, konfigurasikan parameter dan klik Submit.
Parameter
Deskripsi
Select Feature
Pilih fitur di tampilan fitur batch dan tentukan alias.
Label Table Name
Pilih tabel label yang Anda buat.
Export Table Name
Secara default, Otomatis Dibuat dipilih, yang menunjukkan bahwa training dataset secara otomatis dibuat di penyimpanan data MaxCompute untuk pelatihan offline.
Apa itu fitur real-time
Istilah
Fitur real-time adalah fitur yang berubah secara real-time, bahkan dalam hitungan milidetik. Fitur real-time biasanya dihasilkan atau diperbarui di sistem seperti server dan segera digunakan untuk pemrosesan dan pengambilan keputusan. Pembuatan dan penggunaan fitur real-time biasanya terjadi di sistem analisis aliran data real-time atau sistem serupa, yang ditandai dengan tingkat ketepatan waktu yang tinggi dan respons cepat.
Fitur real-time biasanya diekstraksi dari aliran data. Sistem aliran data seperti Flink dapat menghitung dan menghasilkan fitur real-time yang paling mencerminkan status saat ini. Fitur real-time memerlukan seluruh tautan untuk memiliki performa tinggi dan latensi rendah. Karena fitur real-time diperbarui secara dinamis, sistem perlu terus menghitung ulang fitur tersebut.
Skenario
Fitur real-time digunakan dalam skenario khas berikut:
Periklanan Online: Sesuaikan konten iklan secara real-time berdasarkan perilaku penelusuran pengguna saat ini.
Pendeteksian Penipuan: Deteksi perilaku mencurigakan dalam transaksi keuangan secara real-time dan picu peringatan atau blokir transaksi.
Rekomendasi Personal: Perbarui daftar rekomendasi secara real-time berdasarkan aktivitas saat ini dan data historis pengguna.
Sistem IoT: Pantau dan kendalikan perangkat secara real-time dalam sistem IoT. Fitur real-time dihasilkan dan digunakan sebagai respons terhadap perubahan lingkungan.
Gunakan fitur real-time dalam sistem rekomendasi dan periklanan
Tulis fitur real-time
Setelah Anda membuat tampilan fitur real-time di FeatureStore, tabel dengan skema yang sama secara otomatis dibuat di mesin data online untuk penulisan dan pembacaan fitur real-time. Saat menggunakan sumber data seperti FeatureDB, TableStore, atau Hologres, backend dapat terhubung ke antrian pesan DataHub. Data dapat ditransmisikan ke Flink melalui DataHub. Flink memproses dan menghitung fitur real-time serta menulis fitur tersebut ke tabel terkait di sumber data online. Anda dapat melihat nama tabel spesifik di halaman detail tampilan fitur real-time.
Baca fitur online
Jika Anda menggunakan EasyRec Processor, EasyRec Processor menyediakan FeatureStore SDK bawaan untuk Cpp. Anda hanya perlu menentukan nama fitur model (fs_model) untuk mengidentifikasi dan membaca fitur real-time.
Jika Anda menggunakan FeatureStore SDK untuk Go atau FeatureStore SDK untuk Java, Anda dapat membaca fitur real-time berdasarkan pengaturan SDK.
Ekspor sampel offline
FeatureStore secara otomatis menggabungkan dan mengekspor tabel di mesin data offline yang sesuai dengan tampilan fitur.
Untuk tampilan fitur real-time:
Jika Anda menggunakan FeatureDB, FeatureDB secara otomatis menulis data yang ditulis secara online ke tabel offline terkait di mesin data offline.
Jika Anda tidak menggunakan FeatureDB, Anda perlu membuat tugas untuk menulis data ke tabel offline terkait di mesin data offline. Anda juga dapat menggunakan fitur solusi rekomendasi kustom di PAI-Rec untuk mensimulasikan data real-time secara offline, yang berfungsi sebagai data di tabel offline terkait.
Tampilan fitur real-time di FeatureStore
Proses aplikasi
Tampilan fitur real-time di FeatureStore dirancang untuk menangani fitur yang berubah secara real-time. Ini menulis fitur online secara real-time melalui antrian pesan DataHub dan Flink. Kemudian, ini menggunakan EasyRec Processor untuk memantau dan membaca fitur secara real-time atau membaca fitur secara real-time melalui FeatureStore SDK, memungkinkan persepsi perubahan hilir pada tingkat milidetik.
Prosedur ekspor
Anda dapat memilih beberapa tampilan fitur real-time dan tampilan fitur offline untuk membuat fitur model untuk diekspor. FeatureStore mendukung ekspor otomatis. Tabel berikut menunjukkan sumber tabel offline yang sesuai dengan tampilan fitur real-time dalam skenario berbeda:
Sumber data online | FeatureDB | Hologres/TableStore | |
Mesin rekomendasi | Tidak masalah | PAI-Rec (gunakan solusi rekomendasi kustom) | Lainnya |
Prosedur ekspor | Ekspor langsung data dari FeatureStore. | Impor data yang disimulasikan oleh algoritma rekomendasi ke tabel offline terkait. Kemudian, ekspor data dari FeatureStore. | Ekspor manual tabel offline terkait. Kemudian, ekspor data dari FeatureStore. |
Prosedur sinkronisasi
Operasi sinkronisasi dapat dibagi menjadi dua jenis berikut:
Langkah selanjutnya
Setelah Anda mengonfigurasi proyek FeatureStore, Anda dapat menggunakan FeatureStore untuk mengelola fitur dalam sistem rekomendasi.