全部产品
Search
文档中心

Platform For AI:Ikhtisar FeatureStore

更新时间:Oct 29, 2025

FeatureStore adalah platform manajemen dan berbagi data terpusat di Platform untuk AI (PAI). Anda dapat menggunakannya untuk mengatur, menyimpan, dan mengelola data fitur untuk pembelajaran mesin dan pelatihan AI. FeatureStore memungkinkan Anda berbagi fitur dengan mudah di antara banyak pengguna dan tim, memastikan konsistensi data fitur offline dan online, serta menyediakan akses yang efisien ke fitur online.

Apa itu FeatureStore?

FeatureStore adalah alat manajemen fitur di PAI yang digunakan untuk menyimpan dan mengelola data fitur dalam layanan offline dan online.

FeatureStore terintegrasi dengan layanan Alibaba Cloud seperti DataHub, Flink, Hologres, dan Tablestore. Selain itu, telah dikembangkan FeatureDB, yaitu basis data fitur spesifik pencarian dan rekomendasi, untuk mendukung manajemen fitur. Aplikasi dapat menerima log perilaku pengguna, properti item, dan properti pengguna real-time dari DataHub dan menyinkronkannya langsung ke MaxCompute. Data tersebut juga dapat diproses oleh Flink dan ditulis ke penyimpanan online melalui FeatureStore. Aplikasi untuk sistem rekomendasi, pertumbuhan pengguna, dan kontrol risiko kemudian dapat menggunakan SDK FeatureStore untuk mengakses data fitur di penyimpanan online.

Gambar berikut menunjukkan proses memasukkan data dari MaxCompute dan DataHub, memprosesnya melalui komputasi fitur dan manajemen sampel model, dan menerbitkannya ke penyimpanan online untuk aplikasi klien.

Istilah

  • Entitas fitur: Entitas fitur (FeatureEntity) adalah nama dari kumpulan tabel fitur. Sebagai contoh, dalam skenario rekomendasi, Anda dapat mendefinisikan dua entitas fitur: pengguna dan item. Ini karena semua fitur tabel milik pengguna atau item.

  • Tampilan fitur: Tampilan fitur (FeatureView) adalah sekumpulan fitur. Ini berisi informasi tentang sekelompok fitur dan fitur turunannya. Tampilan fitur adalah subset dari set fitur lengkap dari entitas fitur. Ini adalah pemetaan antara tabel fitur offline dan tabel fitur online.

  • Join Id: Join Id adalah bidang tabel fitur yang mengaitkan tampilan fitur dengan entitas fitur. Setiap entitas fitur memiliki Join Id. Anda dapat menggunakan Join Id untuk mengaitkan fitur dari beberapa tampilan fitur.

    Catatan

    Setiap tampilan fitur memiliki kunci utama (kunci indeks) untuk mengambil data fiturnya. Namun, kunci indeks dari tampilan fitur dapat memiliki nama yang berbeda dari Join Id.

    Sebagai contoh, dalam skenario rekomendasi, Anda dapat mengonfigurasi Join Id menjadi user_id dan item_id, yang merupakan kunci utama dari tabel pengguna dan item.

  • Tabel label: Tabel label adalah tabel yang berisi label untuk pelatihan model. Ini mencakup target pelatihan model dan Join Id dari entitas fitur. Dalam skenario rekomendasi, tabel ini biasanya dihasilkan dari tabel perilaku menggunakan operasi seperti GROUP BY user_id, item_id, request_id.

Skenario

  • Sistem rekomendasi dan pengurutan iklan: Anda dapat menggunakan FeatureStore untuk mengelola secara terpusat fitur pengguna dan item, termasuk riwayat penjelajahan, catatan pembelian, dan persona pengguna. Kemampuan baca dan tulis real-time dari FeatureStore meningkatkan kinerja model, yang meningkatkan akurasi dan efektivitas pengiriman iklan.

  • Pengurutan mesin pencari: Data fitur dalam skenario ini mencakup relevansi kata kunci, tingkat klik, dan volume penjualan. Anda dapat menggunakan FeatureStore untuk melatih model pengurutan. Model ini mengurutkan hasil recall dari mesin pencari seperti Elasticsearch/Pencarian Terbuka. Hasil recall digunakan untuk meminta skor dari layanan model TensorFlow di EAS. Ini memberikan pengguna hasil pencarian yang lebih akurat dan dipersonalisasi berdasarkan niat pencarian dan preferensi mereka.

  • Pertumbuhan pengguna atau kontrol risiko: Anda dapat menggunakan FeatureStore untuk mengelola data fitur seperti informasi pribadi pengguna, perilaku transaksi, dan catatan kredit. Anda dapat menggabungkan data ini dengan model pembelajaran mesin, seperti XGBoost dan GBDT, untuk melakukan penilaian risiko. Ini meningkatkan akurasi dan efisiensi kontrol risiko.

  • Sinkronisasi data nilai-kunci (KV) offline ke penyimpanan online: Anda dapat menggunakan FeatureStore untuk mengelola data fitur seperti tabel atribut produk dan tabel atribut pengguna. Ini menyederhanakan tugas penjadwalan untuk menyinkronkan data offline ke penyimpanan online.

Fitur

Dukungan untuk sumber data beragam

FeatureStore mengelola seluruh alur kerja dari fitur hingga model. Fitur ini mendukung berbagai sumber data offline dan online, di mana Anda dapat mendaftarkan serta mengelola tabel fitur.

Sumber data berikut didukung:

  • Penyimpanan offline: MaxCompute

  • Penyimpanan online: FeatureDB, Hologres, Tablestore

Setelah Anda mendaftarkan tabel fitur di FeatureStore, Anda mendapatkan keuntungan berikut:

  • Sinkronisasi Otomatis: FeatureStore secara otomatis membuat tabel online dan offline untuk memastikan konsistensi data.

  • Penghematan biaya: Cukup simpan satu salinan fitur dan bagikan di beberapa tim untuk mengurangi biaya sumber daya.

  • Meningkatkan efisiensi: FeatureStore menghemat waktu dengan menyederhanakan operasi kompleks, seperti mengekspor tabel pelatihan atau mengimpor data ke penyimpanan online, menjadi hanya satu baris kode.

Manajemen fitur offline dan real-time

FeatureStore dapat mengelola tampilan fitur offline dan tampilan fitur real-time. Fitur offline mencakup fitur atribut dan statistik pengguna dan item. Fitur real-time mencakup pengguna baru atau item baru yang ditulis langsung ke penyimpanan online seperti Hologres melalui Flink. Mereka juga mencakup fitur yang dihitung selama jendela waktu, seperti klik, bagikan, jumlah pembelian, dan tingkat konversi dalam satu jam.

Manajemen fitur statistik real-time dan urutan perilaku pengguna

Kompleksitas dan persyaratan real-time dari fitur model umumnya meningkat seiring waktu. Oleh karena itu, mengelola fitur statistik real-time dan urutan perilaku pengguna yang dihitung oleh Flink sangat penting. FeatureStore mendefinisikan urutan perilaku pengguna offline, seperti urutan ID item yang telah diklik oleh pengguna. Urutan ID item saja tidak cukup. Model sering menggunakan fitur atribut item (SideInfo). Mengirim SideInfo secara online mengonsumsi sejumlah besar data. Di EasyRec, Anda dapat menggunakan SDK FeatureStore untuk menyimpan fitur item. Ini mengurangi waktu respons inferensi dan meningkatkan kinerja inferensi.

Asosiasi otomatis dan ekspor sampel model

Anda dapat menggunakan PAI-FeatureStore untuk mengelola sampel yang dihasilkan. Jika model menggunakan fitur dari tampilan fitur real-time, Anda dapat menggunakan fitur Buat Fitur Model. Fitur ini dapat secara otomatis menghasilkan sampel yang benar berdasarkan informasi pembaruan fitur real-time yang dicatat di FeatureDB. Dengan menggunakan fungsi ini, fitur real-time secara otomatis diasosiasikan, menghilangkan kebutuhan untuk menerapkan antarmuka callback di mesin PAI-Rec.

Berbagi fitur baru dan lama

Ketika seorang algoritmawan atau pengembang intelijen bisnis (BI) membuat set baru fitur pengguna atau item, Anda dapat merancang ModelFeature baru untuk mengasosiasikan fitur baru dan lama yang diperlukan oleh set data pelatihan. Anda dapat menggunakan SDK FeatureStore untuk mengekspor sampel untuk pelatihan offline dan menerbitkannya ke penyimpanan online untuk layanan online. Jika beberapa model mereferensikan tampilan fitur yang sama, hanya satu salinan yang disimpan secara online. Kemampuan manajemen fitur ini membantu rekayasa algoritma, terutama ketika menambahkan fitur untuk mengoptimalkan model secara iteratif.

SDK multi-bahasa

FeatureStore menyediakan SDK untuk Go, Java, dan Python. SDK ini membantu Anda menggunakan fitur FeatureStore dalam solusi gabungan PAI-REC dan EasyRec Processor. Anda dapat menggunakan SDK Java untuk memanggil EasyRec Processor atau mesin penilaian model lainnya dari server Anda sendiri, seperti mesin pencarian, rekomendasi, atau kontrol risiko. SDK Python memungkinkan Anda mengakses data di penyimpanan online untuk melakukan analitik data dan pemodelan.

SDK pembuatan fitur

Pembuatan fitur mengacu pada mendefinisikan dan membuat fitur. Anda dapat dengan mudah mendefinisikan fitur menggunakan skrip Python, menjalankan skrip untuk menghasilkan fitur yang diperlukan, dan kemudian mendaftarkannya di platform PAI-FeatureStore. SDK untuk pembuatan fitur adalah alat mandiri dan open-source berbasis MaxCompute SQL yang menyederhanakan pembuatan fitur. Implementasi menggunakan data perantara harian. Ini memungkinkan Anda menghemat sumber daya komputasi secara signifikan ketika menghitung statistik preferensi pengguna berdasarkan 30 hari data perilaku.

Rekayasa fitur otomatis

FeatureStore berencana menawarkan rekayasa fitur otomatis. Fitur ini akan menggunakan pembelajaran mesin untuk secara otomatis menemukan fitur baru dan mengurangi beban kerja rekayasa fitur manual untuk tim pengembangan.

Pemantauan fitur

FeatureStore berencana menyediakan pemantauan dan peringatan fitur. Ini membantu Anda mendeteksi dan menyelesaikan anomali dan masalah fitur secara tepat waktu, serta mengurangi waktu yang dihabiskan tim Anda untuk pemecahan masalah dan perbaikan.

Integrasi mendalam dengan mesin rekomendasi EasyRec

FeatureStore terintegrasi mendalam dengan EasyRec. Ini mendukung rekayasa fitur (FG) dan pelatihan model yang efisien. Anda dapat menerapkan model secara langsung online ke EasyRec EAS Processor. Ini memungkinkan Anda membangun sistem rekomendasi dan mencapai hasil yang sangat baik dalam waktu singkat. EasyRec dapat menyimpan tabel fitur item di memori dan menyediakan penilaian model yang efisien.

SDK C++ FeatureStore yang diintegrasikan ke dalam Prosesor EasyRec dioptimalkan khusus untuk skenario berskala besar. Ketika menggunakan FeatureStore:

  • Penggunaan memori: SDK C++ FeatureStore bawaan di Prosesor EasyRec dioptimalkan untuk penyimpanan fitur. Dibandingkan dengan caching memori asli, ini menghemat 50% memori. Penghematan lebih signifikan ketika memproses banyak fitur, membantu mengurangi konsumsi sumber daya.

  • Waktu tarik fitur: Anda dapat dengan cepat menyimpan fitur ke dalam memori menggunakan tampilan fitur offline. Metode ini lebih dari lima kali lebih cepat dibandingkan menggunakan sumber data online, sehingga meningkatkan kecepatan sekaligus mengurangi beban pada sumber data online. Sumber data offline juga sangat stabil. Pengujian menunjukkan bahwa Anda dapat menskalakan hingga ratusan instance EAS secara bersamaan, di mana setiap instance mampu memuat semua fitur dalam beberapa menit. Dengan demikian, penskalaan tidak memberikan tekanan signifikan pada penyimpanan online.

  • Waktu penilaian model: Penilaian model mengekstrak fitur secara real-time dari cache yang dioptimalkan. Dengan optimasi spesifik dari SDK C++ FeatureStore, penggunaan FeatureStore secara signifikan meningkatkan performa tp100, meningkatkan stabilitas penilaian, dan mengurangi timeout.

Cara kerjanya

  • FeatureStore menyediakan kemampuan sumber data dan dapat terhubung ke produk penyimpanan offline dan online. Ini memungkinkan Anda membaca, menulis, dan mengelola data fitur offline dan online secara terpadu.

  • Anda dapat mendaftarkan tabel fitur offline dan online dalam tampilan fitur FeatureStore. Anda kemudian dapat menggunakan tampilan fitur untuk mengumpulkan dan memetakan data fitur.

  • Anda dapat menyimpan tabel label di penyimpanan offline MaxCompute dan mendaftarkannya dengan FeatureStore melalui sumber data offline. Tabel label FeatureStore yang terdaftar dipetakan ke data tabel label aktual.

  • FeatureStore menyediakan proyek fitur dan entitas fitur. Anda dapat menggunakan Join Id dari entitas fitur untuk mengaitkan tampilan fitur di seluruh proyek. Ini menghubungkan semua fitur dari suatu entitas. Akhirnya, Anda dapat menggabungkan ini dengan tabel label untuk menghasilkan tabel fitur model, yang disebut tabel Train Set, dan menyimpannya di MaxCompute.

Wilayah dan zona

FeatureStore tersedia di wilayah berikut:

Cina (Beijing), Cina (Shanghai), Cina (Hangzhou), Cina (Shenzhen), Cina (Hong Kong), Singapura, AS (Silicon Valley), dan AS (Virginia).

Prosedur

  1. Buat sumber data. Sumber data mencakup penyimpanan offline dan online.

  2. Buat proyek. Anda dapat mengonfigurasi entitas fitur, tampilan fitur, dan tabel label untuk menghasilkan tabel set pelatihan fitur model (training dataset).

  3. Buat tugas sinkronisasi data untuk menyinkronkan data offline ke penyimpanan online.

  4. Setelah Anda memulai tugas untuk menyinkronkan data offline ke penyimpanan online, Anda dapat melihat status dan detail tugas di Task Hub.

  5. Untuk membaca dan menggunakan data FeatureStore online dalam mesin online Java atau Go (layanan online), bergabunglah dengan grup DingTalk (34415007523) untuk menghubungi dukungan teknis.