Platform for AI (PAI) の特徴量プラットフォームである FeatureStore は、一般的な特徴量エンジニアリング操作を標準化しているため、わずか数行のコードで未加工のソーステーブルから数百の特徴量を生成できます。このガイドでは、レコメンデーションシナリオを例に、3 つのソーステーブルから開始し、ユーザーとアイテムの特徴量テーブルを生成し、最後にすべてをマージしてモデルトレーニングに使用できる完全な訓練データセットを作成するまでの手順を説明します。
構築するもの
本ガイドを完了すると、以下を達成できます。
MaxCompute プロジェクトに同期された、前処理済みの 3 つのソーステーブル (ユーザー、アイテム、動作)
これらのソースから派生したワイド動作テーブルとラベルテーブル
AggregationTransformとWindowTransformを使用して生成された 2 つのユーザー特徴量テーブル同様の方法で生成された 2 つのアイテム特徴量テーブル
7 つのテーブルすべてを結合した最終的な訓練データセット (
fs_demo_fs_engineering_v1_training_set)
前提条件
開始する前に、以下の準備が整っていることを確認してください。
PAI
AccessKey ID と AccessKey Secret を準備します。これらはコードにハードコーディングするのではなく、環境変数として保存してください。設定手順については、「AccessKey ペアの作成」および「環境変数での認証用 AccessKey の設定」をご参照ください。
MaxCompute
DataWorks
DataWorks の有効化
専用スケジューリングリソースグループを購入し、それを DataWorks ワークスペースにアタッチします。詳細については、「専用スケジューリングリソースグループの使用」をご参照ください。
DataWorks ワークスペースに MaxCompute データソースを追加します。詳細については、「MaxCompute コンピューティングリソースをバインドする」をご参照ください。
仕組み
このガイドは 4 つの段階で構成されています。
準備 — 3 つのデモ用ソーステーブルを
pai_online_projectからご自身の MaxCompute プロジェクトに同期し、FeatureStore Python SDK をインストールします。変換 — ソーステーブルをマージして前処理し、ワイド動作テーブルとラベルテーブルを生成します。
特徴量の生成 — FeatureStore パイプラインを実行して、ユーザーとアイテムの両方について集約特徴量テーブルとウィンドウ特徴量テーブルを生成します。
訓練データセットの構築 — すべての特徴量テーブルを 1 つのサンプルテーブルに結合します。
ステップ 1: ソーステーブルと SDK の準備
ソーステーブルの同期
このチュートリアルで使用する 3 つのソーステーブルは、共有ワークスペース pai_online_project に保存されています。これらにはシミュレーションデータのみが含まれています。DataWorks を使用して、これらのテーブルをご自身の MaxCompute プロジェクトにコピーしてください。
| テーブル | 内容 |
|---|---|
rec_sln_demo_user_table_preprocess_v1 | 基本的なユーザー特徴量:性別、年齢、都市、フォロワー数 |
rec_sln_demo_item_table_preprocess_v1 | 基本的なアイテム特徴量:カテゴリ、作成者、累積クリック数、累積高評価数 |
rec_sln_demo_behavior_table_preprocess_v1 | 動作イベント:どのユーザーがどのアイテムをいつクリックしたか |
テーブルを同期するには:
DataWorks コンソールにログインします。
左側のナビゲーションウィンドウで、[データ開発とO&M] > [データ開発] をクリックします。
DataWorks ワークスペースを選択し、[Data Studioへ移動] をクリックします。
[作成] にカーソルを合わせ、[ノードの作成] > [MaxCompute] > [ODPS SQL] を選択します。ノードのパラメーターを設定します。
パラメーター 値 ノードタイプ ODPS SQL パス Business Flow/Workflow/MaxCompute [名前] カスタム名を入力 [確認] をクリックします。
SQL エディターで、以下の文を実行します。各ブロックはテーブル構造を作成し、日付範囲
20240530から20240605までのデータをロードします。ユーザーテーブル:CREATE TABLE IF NOT EXISTS rec_sln_demo_user_table_preprocess_v1 LIKE pai_online_project.rec_sln_demo_user_table_preprocess_v1 STORED AS ALIORC LIFECYCLE 90; INSERT OVERWRITE TABLE rec_sln_demo_user_table_preprocess_v1 PARTITION(ds) SELECT * FROM pai_online_project.rec_sln_demo_user_table_preprocess_v1 WHERE ds >= '20240530' AND ds <= '20240605';アイテムテーブル:
CREATE TABLE IF NOT EXISTS rec_sln_demo_item_table_preprocess_v1 LIKE pai_online_project.rec_sln_demo_item_table_preprocess_v1 STORED AS ALIORC LIFECYCLE 90; INSERT OVERWRITE TABLE rec_sln_demo_item_table_preprocess_v1 PARTITION(ds) SELECT * FROM pai_online_project.rec_sln_demo_item_table_preprocess_v1 WHERE ds >= '20240530' AND ds <= '20240605';動作テーブル:
CREATE TABLE IF NOT EXISTS rec_sln_demo_behavior_table_preprocess_v1 LIKE pai_online_project.rec_sln_demo_behavior_table_preprocess_v1 STORED AS ALIORC LIFECYCLE 90; INSERT OVERWRITE TABLE rec_sln_demo_behavior_table_preprocess_v1 PARTITION(ds) SELECT * FROM pai_online_project.rec_sln_demo_behavior_table_preprocess_v1 WHERE ds >= '20240530' AND ds <= '20240605';
FeatureStore SDK のインストール
Jupyter Notebook (Python 3) で以下を実行します。
%pip install https://feature-store-py.oss-cn-beijing.aliyuncs.com/package/feature_store_py-2.0.2-py3-none-any.whl次に、このガイド全体で必要となるモジュールをインポートします。
import os
from feature_store_py import FeatureStoreClient
from feature_store_py.fs_datasource import MaxComputeDataSource
from feature_store_py.feature_engineering import (
TableTransform, Condition, DayOf, ComboTransform, Feature,
AggregationTransform, auto_count_feature_transform,
WindowTransform, auto_window_feature_transform
)ステップ 2: ソーステーブルの変換
特徴量の生成を開始する前に、3 つのソーステーブルを 2 つの作業用テーブルに再構成する必要があります。1 つは 3 つのソースすべてをマージしたワイド動作テーブル、もう 1 つは動作データからトレーニングラベルを抽出したラベルテーブルです。
ステップ 1 で作成した ODPS SQL ノードを使用して、以下の両方の SQL ブロックを実行します。
ワイド動作テーブルの作成
この文は、ユーザー属性、アイテム属性、および動作イベントを単一の非正規化テーブルに結合します。このテーブルは、FeatureStore SDK が特徴量計算に使用します。
CREATE TABLE IF NOT EXISTS rec_sln_demo_behavior_table_preprocess_wide_v1
(
request_id bigint
,user_id string
,page string
,net_type string
,day_h bigint COMMENT '動作が発生した時間。'
,week_day bigint COMMENT '動作が発生した曜日。'
,event_unix_time bigint
,item_id string
,event string
,playtime double
,gender string
,age bigint
,city string
,item_cnt bigint
,follow_cnt bigint
,follower_cnt bigint
,is_new_user bigint
,tags string
,duration double
,category string
,author bigint
,click_count bigint
,praise_count bigint
,is_new_item bigint
)
PARTITIONED BY
(
ds string
)
LIFECYCLE 90;
INSERT OVERWRITE TABLE rec_sln_demo_behavior_table_preprocess_wide_v1 PARTITION(ds='${bdp.system.bizdate}')
SELECT sq0.request_id
,sq0.user_id
,sq0.page
,sq0.net_type
,sq0.day_h
,sq0.week_day
,sq0.event_unix_time
,sq0.item_id
,sq0.event
,sq0.playtime
,sq1.gender
,sq1.age
,sq1.city
,sq1.item_cnt
,sq1.follow_cnt
,sq1.follower_cnt
,sq1.is_new_user
,sq1.tags
,sq2.duration
,sq2.category
,sq2.author
,sq2.click_count
,sq2.praise_count
,sq2.is_new_item
FROM (
SELECT *
FROM rec_sln_demo_behavior_table_preprocess_v1
WHERE ds = '${bdp.system.bizdate}'
) sq0
LEFT JOIN (
SELECT *
FROM rec_sln_demo_user_table_preprocess_v1
WHERE ds = '${bdp.system.bizdate}'
) sq1
ON sq0.user_id = sq1.user_id
LEFT JOIN (
SELECT *
FROM rec_sln_demo_item_table_preprocess_v1
WHERE ds = '${bdp.system.bizdate}'
) sq2
ON sq0.item_id = sq2.item_id;ラベルテーブルの作成
この文は、動作テーブルからトレーニングラベルを派生させます。ラベルは is_click (ユーザーがクリックしたかどうか)、ln_playtime (対数変換された総再生時間)、および is_praise (ユーザーがアイテムを高評価したかどうか) です。
CREATE TABLE IF NOT EXISTS rec_sln_demo_fs_label_table_v1
(
request_id bigint
,user_id string
,page string
,net_type string
,day_h bigint COMMENT '動作が発生した時間。'
,week_day bigint COMMENT '動作が発生した曜日。'
,day_min string
,event_unix_time bigint
,item_id string
,playtime double
,is_click BIGINT
,ln_playtime DOUBLE
,is_praise BIGINT
)
PARTITIONED BY
(
ds string
)
LIFECYCLE 90;
INSERT OVERWRITE TABLE rec_sln_demo_fs_label_table_v1 PARTITION(ds='${bdp.system.bizdate}')
SELECT request_id
,user_id
,MAX(page) page
,MAX(net_type) net_type
,MAX(day_h) day_h
,MAX(week_day) week_day
,TO_CHAR(FROM_UNIXTIME(MIN(event_unix_time)),'yyyymmddhhmi') day_min
,MAX(event_unix_time) event_unix_time
,item_id
,MAX(playtime) playtime
,MAX(IF(event='click', 1, 0)) is_click
,LN(SUM(playtime) + 1) ln_playtime
,MAX(IF(event='praise', 1, 0)) is_praise
FROM rec_sln_demo_behavior_table_preprocess_v1
WHERE ds = '${bdp.system.bizdate}'
GROUP BY request_id, user_id, item_id;両方の文が完了すると、以下が作成されます。
rec_sln_demo_behavior_table_preprocess_wide_v1— 特徴量生成の入力rec_sln_demo_fs_label_table_v1— 最終的なサンプルテーブルの入力
ステップ 3: 特徴量の生成
FeatureStore の自動拡張関数を使用すると、手動で集約 SQL を記述する代わりに、単一の関数呼び出しで数百の統計的特徴量およびウィンドウ特徴量を生成できます。以下の手順では、ユーザーとアイテムに対して個別に特徴量を生成します。
すべての例では、FeatureStore SDK パイプライン API を使用します。データソースと変換を定義し、execute() を呼び出して MaxCompute で計算を実行します。
クライアントの初期化
# 環境変数から認証情報をロードします — ソースコードにキーをハードコーディングしないでください
access_key_id = os.environ.get("ALIBABA_CLOUD_ACCESS_KEY_ID")
access_key_secret = os.environ.get("ALIBABA_CLOUD_ACCESS_KEY_SECRET")
project = 'project_name' # ご利用の MaxCompute プロジェクト名
region = 'cn-hangzhou' # プロジェクトが存在するリージョン
fs_client = FeatureStoreClient(
access_key_id=access_key_id,
access_key_secret=access_key_secret,
region=region
)ソーステーブルのデータソースへのバインド
input_bhv_table_name = "rec_sln_demo_behavior_table_preprocess_wide_v1"
ds_bhv = MaxComputeDataSource(table=input_bhv_table_name, project=project)
input_user_table_name = "rec_sln_demo_user_table_preprocess_v1"
ds_user = MaxComputeDataSource(table=input_user_table_name, project=project)
input_item_table_name = "rec_sln_demo_item_table_preprocess_v1"
ds_item = MaxComputeDataSource(table=input_item_table_name, project=project)ユーザー特徴量の生成
AggregationTransform
auto_count_feature_transform は、複数のタイムウィンドウ (この場合は user_id でグループ化された 3 日、7 日、15 日のウィンドウ) にわたって、各メトリックの集約特徴量 (合計、最大、最小、平均) を生成します。
特徴量の定義:
agg_user_table_v1 = 'rec_sln_demo_user_table_preprocess_agg_v1'
name_prefix = "user"
input_list = ["playtime", "duration", "click_count", "praise_count"]
event_name = 'event'
event_type = 'expr'
group_by_key = "user_id"
window_size = [3, 7, 15]
user_count_feature_list = auto_count_feature_transform(
name_prefix, input_list, event_name, event_type, group_by_key, window_size
)
print("len_count_feature_list =", len(user_count_feature_list))
print("count_feature_list =", user_count_feature_list)パイプラインの作成:
agg_user_bhv_pipeline = fs_client.create_pipeline(ds_bhv).add_feature_transform(user_count_feature_list)
agg_user_pipeline = fs_client.create_pipeline(ds_user, agg_user_table_v1).merge(
agg_user_bhv_pipeline, keep_input_columns=False
)実行と検証:
execute_date = '20240605'
output_agg_user_table = agg_user_pipeline.execute(execute_date, drop_table=True)
# 最初の 20 行をプレビュー
agg_user_ret = output_agg_user_table.to_pandas(execute_date, limit=20)
agg_user_retWindowTransform
auto_window_feature_transform は、クロスディメンションのウィンドウ特徴量を生成します。例えば、ユーザーのクリック数が、異なるタイムウィンドウにわたって、時間帯やコンテンツカテゴリによってどのように変化するかなどです。
特徴を定義する:
win_user_table_v1 = 'rec_sln_demo_user_table_preprocess_win_v1'
name_prefix = 'user'
input_list = ['day_h', 'category']
agg_field = ['duration', 'click_count']
event_name = 'event'
event_type = 'expr'
group_by_key = 'user_id'
window_size = [7, 15, 30, 45]
user_win_feature_list = auto_window_feature_transform(
name_prefix, input_list, agg_field, event_name, event_type, group_by_key, window_size
)
print("len_user_win_feature_list =", len(user_win_feature_list))
print("user_win_feature_list =", user_win_feature_list)パイプラインを作成:
win_user_bhv_pipeline = fs_client.create_pipeline(ds_bhv).add_feature_transform(user_win_feature_list)
win_user_pipeline = fs_client.create_pipeline(ds_user, win_user_table_v1).merge(
win_user_bhv_pipeline, keep_input_columns=False
)実行および検証:
execute_date = '20240605'
output_win_user_table = win_user_pipeline.execute(execute_date, drop_table=True)
# 注: WindowTransform は中間テーブルを使用します。最初の実行時には、backfill_partitions=True を指定して、すべての履歴パーティションをバックフィルします。この処理には時間がかかる場合があります。
# output_win_user_table = win_user_pipeline.execute(execute_date, drop_table=True, backfill_partitions=True)
win_user_ret = output_win_user_table.to_pandas(execute_date, limit=20)
win_user_retアイテム特徴量の生成
アイテム特徴量の生成は、item_id をグルーピングキーとして、ユーザー特徴量と同じパターンに従います。
AggregationTransform
特徴量の定義:
agg_item_table_v1 = 'rec_sln_demo_item_table_preprocess_agg_v1'
name_prefix = "item"
input_list = ["item_cnt", "follow_cnt", "follower_cnt"]
event_name = 'event'
event_type = 'expr'
group_by_key = "item_id"
window_size = [3, 7, 15]
item_count_feature_list = auto_count_feature_transform(
name_prefix, input_list, event_name, event_type, group_by_key, window_size
)
print("len_count_feature_list =", len(item_count_feature_list))
print("count_feature_list =", item_count_feature_list)パイプラインの作成:
agg_item_bhv_pipeline = fs_client.create_pipeline(ds_bhv).add_feature_transform(item_count_feature_list)
agg_item_pipeline = fs_client.create_pipeline(ds_item, agg_item_table_v1).merge(
agg_item_bhv_pipeline, keep_input_columns=False
)実行と検証:
execute_date = '20240605'
output_agg_item_table = agg_item_pipeline.execute(execute_date, drop_table=True)
agg_item_ret = output_agg_item_table.to_pandas(execute_date, limit=20)
agg_item_retWindowTransform
特徴量の定義:
win_item_table_v1 = 'rec_sln_demo_item_table_preprocess_win_v1'
name_prefix = 'item'
input_list = ['day_h', 'category']
agg_field = ['click_count', 'praise_count']
event_name = 'event'
event_type = 'expr'
group_by_key = 'item_id'
window_size = [7, 15, 30, 45]
item_win_feature_list = auto_window_feature_transform(
name_prefix, input_list, agg_field, event_name, event_type, group_by_key, window_size
)
print("len_item_win_feature_list =", len(item_win_feature_list))
print("item_win_feature_list =", item_win_feature_list)パイプラインの作成:
win_item_bhv_pipeline = fs_client.create_pipeline(ds_bhv).add_feature_transform(item_win_feature_list)
win_item_pipeline = fs_client.create_pipeline(ds_item, win_item_table_v1).merge(
win_item_bhv_pipeline, keep_input_columns=False
)実行と検証:
execute_date = '20240605'
output_win_item_table = win_item_pipeline.execute(execute_date, drop_table=True)
# 初回実行時に中間パーティションが欠落している場合は、backfill_partitions=True を追加してください。
# output_win_item_table = win_item_pipeline.execute(execute_date, drop_table=True, backfill_partitions=True)
win_item_ret = output_win_item_table.to_pandas(execute_date, limit=20)
win_item_retステップ 4: 訓練データセットの構築
この時点で、7 つのテーブルがあります。1 つのラベルテーブル、3 つのユーザー側テーブル (ソース、集約、ウィンドウ)、および 3 つのアイテム側テーブル (ソース、集約、ウィンドウ) です。以下の SQL は、user_id と item_id をキーとする LEFT JOIN を使用して、7 つすべてを単一の訓練データセットに結合します。
実行する前に、<project_name> を実際の MaxCompute プロジェクト名に置き換えてください。
CREATE TABLE IF NOT EXISTS fs_demo_fs_engineering_v1_training_set(
request_id BIGINT,
user_id STRING,
page STRING,
net_type STRING,
day_h BIGINT,
week_day BIGINT,
day_min STRING,
event_unix_time BIGINT,
item_id STRING,
playtime DOUBLE,
is_click BIGINT,
ln_playtime DOUBLE,
is_praise BIGINT,
duration DOUBLE,
category STRING,
author BIGINT,
click_count BIGINT,
praise_count BIGINT,
is_new_item BIGINT,
item__sum_item_cnt_3d BIGINT,
item__sum_follow_cnt_3d BIGINT,
item__sum_follower_cnt_3d BIGINT,
item__max_item_cnt_3d BIGINT,
item__max_follow_cnt_3d BIGINT,
item__max_follower_cnt_3d BIGINT,
item__min_item_cnt_3d BIGINT,
item__min_follow_cnt_3d BIGINT,
item__min_follower_cnt_3d BIGINT,
item__avg_item_cnt_3d DOUBLE,
item__avg_follow_cnt_3d DOUBLE,
item__avg_follower_cnt_3d DOUBLE,
item__sum_item_cnt_7d BIGINT,
item__sum_follow_cnt_7d BIGINT,
item__sum_follower_cnt_7d BIGINT,
item__max_item_cnt_7d BIGINT,
item__max_follow_cnt_7d BIGINT,
item__max_follower_cnt_7d BIGINT,
item__min_item_cnt_7d BIGINT,
item__min_follow_cnt_7d BIGINT,
item__min_follower_cnt_7d BIGINT,
item__avg_item_cnt_7d DOUBLE,
item__avg_follow_cnt_7d DOUBLE,
item__avg_follower_cnt_7d DOUBLE,
item__sum_item_cnt_15d BIGINT,
item__sum_follow_cnt_15d BIGINT,
item__sum_follower_cnt_15d BIGINT,
item__max_item_cnt_15d BIGINT,
item__max_follow_cnt_15d BIGINT,
item__max_follower_cnt_15d BIGINT,
item__min_item_cnt_15d BIGINT,
item__min_follow_cnt_15d BIGINT,
item__min_follower_cnt_15d BIGINT,
item__avg_item_cnt_15d DOUBLE,
item__avg_follow_cnt_15d DOUBLE,
item__avg_follower_cnt_15d DOUBLE,
item__kv_day_h_click_count_sum_7d STRING,
item__kv_category_click_count_sum_7d STRING,
item__kv_day_h_praise_count_sum_7d STRING,
item__kv_category_praise_count_sum_7d STRING,
item__kv_day_h_click_count_max_7d STRING,
item__kv_category_click_count_max_7d STRING,
item__kv_day_h_praise_count_max_7d STRING,
item__kv_category_praise_count_max_7d STRING,
item__kv_day_h_click_count_min_7d STRING,
item__kv_category_click_count_min_7d STRING,
item__kv_day_h_praise_count_min_7d STRING,
item__kv_category_praise_count_min_7d STRING,
item__kv_day_h_click_count_avg_7d STRING,
item__kv_category_click_count_avg_7d STRING,
item__kv_day_h_praise_count_avg_7d STRING,
item__kv_category_praise_count_avg_7d STRING,
item__kv_day_h_click_count_sum_15d STRING,
item__kv_category_click_count_sum_15d STRING,
item__kv_day_h_praise_count_sum_15d STRING,
item__kv_category_praise_count_sum_15d STRING,
item__kv_day_h_click_count_max_15d STRING,
item__kv_category_click_count_max_15d STRING,
item__kv_day_h_praise_count_max_15d STRING,
item__kv_category_praise_count_max_15d STRING,
item__kv_day_h_click_count_min_15d STRING,
item__kv_category_click_count_min_15d STRING,
item__kv_day_h_praise_count_min_15d STRING,
item__kv_category_praise_count_min_15d STRING,
item__kv_day_h_click_count_avg_15d STRING,
item__kv_category_click_count_avg_15d STRING,
item__kv_day_h_praise_count_avg_15d STRING,
item__kv_category_praise_count_avg_15d STRING,
item__kv_day_h_click_count_sum_30d STRING,
item__kv_category_click_count_sum_30d STRING,
item__kv_day_h_praise_count_sum_30d STRING,
item__kv_category_praise_count_sum_30d STRING,
item__kv_day_h_click_count_max_30d STRING,
item__kv_category_click_count_max_30d STRING,
item__kv_day_h_praise_count_max_30d STRING,
item__kv_category_praise_count_max_30d STRING,
item__kv_day_h_click_count_min_30d STRING,
item__kv_category_click_count_min_30d STRING,
item__kv_day_h_praise_count_min_30d STRING,
item__kv_category_praise_count_min_30d STRING,
item__kv_day_h_click_count_avg_30d STRING,
item__kv_category_click_count_avg_30d STRING,
item__kv_day_h_praise_count_avg_30d STRING,
item__kv_category_praise_count_avg_30d STRING,
item__kv_day_h_click_count_sum_45d STRING,
item__kv_category_click_count_sum_45d STRING,
item__kv_day_h_praise_count_sum_45d STRING,
item__kv_category_praise_count_sum_45d STRING,
item__kv_day_h_click_count_max_45d STRING,
item__kv_category_click_count_max_45d STRING,
item__kv_day_h_praise_count_max_45d STRING,
item__kv_category_praise_count_max_45d STRING,
item__kv_day_h_click_count_min_45d STRING,
item__kv_category_click_count_min_45d STRING,
item__kv_day_h_praise_count_min_45d STRING,
item__kv_category_praise_count_min_45d STRING,
item__kv_day_h_click_count_avg_45d STRING,
item__kv_category_click_count_avg_45d STRING,
item__kv_day_h_praise_count_avg_45d STRING,
item__kv_category_praise_count_avg_45d STRING,
gender STRING,
age BIGINT,
city STRING,
item_cnt BIGINT,
follow_cnt BIGINT,
follower_cnt BIGINT,
is_new_user BIGINT,
tags STRING,
user__sum_playtime_3d DOUBLE,
user__sum_duration_3d DOUBLE,
user__sum_click_count_3d BIGINT,
user__sum_praise_count_3d BIGINT,
user__max_playtime_3d DOUBLE,
user__max_duration_3d DOUBLE,
user__max_click_count_3d BIGINT,
user__max_praise_count_3d BIGINT,
user__min_playtime_3d DOUBLE,
user__min_duration_3d DOUBLE,
user__min_click_count_3d BIGINT,
user__min_praise_count_3d BIGINT,
user__avg_playtime_3d DOUBLE,
user__avg_duration_3d DOUBLE,
user__avg_click_count_3d DOUBLE,
user__avg_praise_count_3d DOUBLE,
user__sum_playtime_7d DOUBLE,
user__sum_duration_7d DOUBLE,
user__sum_click_count_7d BIGINT,
user__sum_praise_count_7d BIGINT,
user__max_playtime_7d DOUBLE,
user__max_duration_7d DOUBLE,
user__max_click_count_7d BIGINT,
user__max_praise_count_7d BIGINT,
user__min_playtime_7d DOUBLE,
user__min_duration_7d DOUBLE,
user__min_click_count_7d BIGINT,
user__min_praise_count_7d BIGINT,
user__avg_playtime_7d DOUBLE,
user__avg_duration_7d DOUBLE,
user__avg_click_count_7d DOUBLE,
user__avg_praise_count_7d DOUBLE,
user__sum_playtime_15d DOUBLE,
user__sum_duration_15d DOUBLE,
user__sum_click_count_15d BIGINT,
user__sum_praise_count_15d BIGINT,
user__max_playtime_15d DOUBLE,
user__max_duration_15d DOUBLE,
user__max_click_count_15d BIGINT,
user__max_praise_count_15d BIGINT,
user__min_playtime_15d DOUBLE,
user__min_duration_15d DOUBLE,
user__min_click_count_15d BIGINT,
user__min_praise_count_15d BIGINT,
user__avg_playtime_15d DOUBLE,
user__avg_duration_15d DOUBLE,
user__avg_click_count_15d DOUBLE,
user__avg_praise_count_15d DOUBLE,
user__kv_day_h_duration_sum_7d STRING,
user__kv_category_duration_sum_7d STRING,
user__kv_day_h_click_count_sum_7d STRING,
user__kv_category_click_count_sum_7d STRING,
user__kv_day_h_duration_max_7d STRING,
user__kv_category_duration_max_7d STRING,
user__kv_day_h_click_count_max_7d STRING,
user__kv_category_click_count_max_7d STRING,
user__kv_day_h_duration_min_7d STRING,
user__kv_category_duration_min_7d STRING,
user__kv_day_h_click_count_min_7d STRING,
user__kv_category_click_count_min_7d STRING,
user__kv_day_h_duration_avg_7d STRING,
user__kv_category_duration_avg_7d STRING,
user__kv_day_h_click_count_avg_7d STRING,
user__kv_category_click_count_avg_7d STRING,
user__kv_day_h_duration_sum_15d STRING,
user__kv_category_duration_sum_15d STRING,
user__kv_day_h_click_count_sum_15d STRING,
user__kv_category_click_count_sum_15d STRING,
user__kv_day_h_duration_max_15d STRING,
user__kv_category_duration_max_15d STRING,
user__kv_day_h_click_count_max_15d STRING,
user__kv_category_click_count_max_15d STRING,
user__kv_day_h_duration_min_15d STRING,
user__kv_category_duration_min_15d STRING,
user__kv_day_h_click_count_min_15d STRING,
user__kv_category_click_count_min_15d STRING,
user__kv_day_h_duration_avg_15d STRING,
user__kv_category_duration_avg_15d STRING,
user__kv_day_h_click_count_avg_15d STRING,
user__kv_category_click_count_avg_15d STRING,
user__kv_day_h_duration_sum_30d STRING,
user__kv_category_duration_sum_30d STRING,
user__kv_day_h_click_count_sum_30d STRING,
user__kv_category_click_count_sum_30d STRING,
user__kv_day_h_duration_max_30d STRING,
user__kv_category_duration_max_30d STRING,
user__kv_day_h_click_count_max_30d STRING,
user__kv_category_click_count_max_30d STRING,
user__kv_day_h_duration_min_30d STRING,
user__kv_category_duration_min_30d STRING,
user__kv_day_h_click_count_min_30d STRING,
user__kv_category_click_count_min_30d STRING,
user__kv_day_h_duration_avg_30d STRING,
user__kv_category_duration_avg_30d STRING,
user__kv_day_h_click_count_avg_30d STRING,
user__kv_category_click_count_avg_30d STRING,
user__kv_day_h_duration_sum_45d STRING,
user__kv_category_duration_sum_45d STRING,
user__kv_day_h_click_count_sum_45d STRING,
user__kv_category_click_count_sum_45d STRING,
user__kv_day_h_duration_max_45d STRING,
user__kv_category_duration_max_45d STRING,
user__kv_day_h_click_count_max_45d STRING,
user__kv_category_click_count_max_45d STRING,
user__kv_day_h_duration_min_45d STRING,
user__kv_category_duration_min_45d STRING,
user__kv_day_h_click_count_min_45d STRING,
user__kv_category_click_count_min_45d STRING,
user__kv_day_h_duration_avg_45d STRING,
user__kv_category_duration_avg_45d STRING,
user__kv_day_h_click_count_avg_45d STRING,
user__kv_category_click_count_avg_45d STRING
)
PARTITIONED BY (ds STRING)
LIFECYCLE 90;
INSERT OVERWRITE TABLE fs_demo_fs_engineering_v1_training_set PARTITION (ds = '${bdp.system.bizdate}')
SELECT
sq0.request_id,
sq0.user_id,
sq0.page,
sq0.net_type,
sq0.day_h,
sq0.week_day,
sq0.day_min,
sq0.event_unix_time,
sq0.item_id,
sq0.playtime,
sq0.is_click,
sq0.ln_playtime,
sq0.is_praise,
sq2.duration,
sq2.category,
sq2.author,
sq2.click_count,
sq2.praise_count,
sq2.is_new_item,
sq5.item__sum_item_cnt_3d,
sq5.item__sum_follow_cnt_3d,
sq5.item__sum_follower_cnt_3d,
sq5.item__max_item_cnt_3d,
sq5.item__max_follow_cnt_3d,
sq5.item__max_follower_cnt_3d,
sq5.item__min_item_cnt_3d,
sq5.item__min_follow_cnt_3d,
sq5.item__min_follower_cnt_3d,
sq5.item__avg_item_cnt_3d,
sq5.item__avg_follow_cnt_3d,
sq5.item__avg_follower_cnt_3d,
sq5.item__sum_item_cnt_7d,
sq5.item__sum_follow_cnt_7d,
sq5.item__sum_follower_cnt_7d,
sq5.item__max_item_cnt_7d,
sq5.item__max_follow_cnt_7d,
sq5.item__max_follower_cnt_7d,
sq5.item__min_item_cnt_7d,
sq5.item__min_follow_cnt_7d,
sq5.item__min_follower_cnt_7d,
sq5.item__avg_item_cnt_7d,
sq5.item__avg_follow_cnt_7d,
sq5.item__avg_follower_cnt_7d,
sq5.item__sum_item_cnt_15d,
sq5.item__sum_follow_cnt_15d,
sq5.item__sum_follower_cnt_15d,
sq5.item__max_item_cnt_15d,
sq5.item__max_follow_cnt_15d,
sq5.item__max_follower_cnt_15d,
sq5.item__min_item_cnt_15d,
sq5.item__min_follow_cnt_15d,
sq5.item__min_follower_cnt_15d,
sq5.item__avg_item_cnt_15d,
sq5.item__avg_follow_cnt_15d,
sq5.item__avg_follower_cnt_15d,
sq6.item__kv_day_h_click_count_sum_7d,
sq6.item__kv_category_click_count_sum_7d,
sq6.item__kv_day_h_praise_count_sum_7d,
sq6.item__kv_category_praise_count_sum_7d,
sq6.item__kv_day_h_click_count_max_7d,
sq6.item__kv_category_click_count_max_7d,
sq6.item__kv_day_h_praise_count_max_7d,
sq6.item__kv_category_praise_count_max_7d,
sq6.item__kv_day_h_click_count_min_7d,
sq6.item__kv_category_click_count_min_7d,
sq6.item__kv_day_h_praise_count_min_7d,
sq6.item__kv_category_praise_count_min_7d,
sq6.item__kv_day_h_click_count_avg_7d,
sq6.item__kv_category_click_count_avg_7d,
sq6.item__kv_day_h_praise_count_avg_7d,
sq6.item__kv_category_praise_count_avg_7d,
sq6.item__kv_day_h_click_count_sum_15d,
sq6.item__kv_category_click_count_sum_15d,
sq6.item__kv_day_h_praise_count_sum_15d,
sq6.item__kv_category_praise_count_sum_15d,
sq6.item__kv_day_h_click_count_max_15d,
sq6.item__kv_category_click_count_max_15d,
sq6.item__kv_day_h_praise_count_max_15d,
sq6.item__kv_category_praise_count_max_15d,
sq6.item__kv_day_h_click_count_min_15d,
sq6.item__kv_category_click_count_min_15d,
sq6.item__kv_day_h_praise_count_min_15d,
sq6.item__kv_category_praise_count_min_15d,
sq6.item__kv_day_h_click_count_avg_15d,
sq6.item__kv_category_click_count_avg_15d,
sq6.item__kv_day_h_praise_count_avg_15d,
sq6.item__kv_category_praise_count_avg_15d,
sq6.item__kv_day_h_click_count_sum_30d,
sq6.item__kv_category_click_count_sum_30d,
sq6.item__kv_day_h_praise_count_sum_30d,
sq6.item__kv_category_praise_count_sum_30d,
sq6.item__kv_day_h_click_count_max_30d,
sq6.item__kv_category_click_count_max_30d,
sq6.item__kv_day_h_praise_count_max_30d,
sq6.item__kv_category_praise_count_max_30d,
sq6.item__kv_day_h_click_count_min_30d,
sq6.item__kv_category_click_count_min_30d,
sq6.item__kv_day_h_praise_count_min_30d,
sq6.item__kv_category_praise_count_min_30d,
sq6.item__kv_day_h_click_count_avg_30d,
sq6.item__kv_category_click_count_avg_30d,
sq6.item__kv_day_h_praise_count_avg_30d,
sq6.item__kv_category_praise_count_avg_30d,
sq6.item__kv_day_h_click_count_sum_45d,
sq6.item__kv_category_click_count_sum_45d,
sq6.item__kv_day_h_praise_count_sum_45d,
sq6.item__kv_category_praise_count_sum_45d,
sq6.item__kv_day_h_click_count_max_45d,
sq6.item__kv_category_click_count_max_45d,
sq6.item__kv_day_h_praise_count_max_45d,
sq6.item__kv_category_praise_count_max_45d,
sq6.item__kv_day_h_click_count_min_45d,
sq6.item__kv_category_click_count_min_45d,
sq6.item__kv_day_h_praise_count_min_45d,
sq6.item__kv_category_praise_count_min_45d,
sq6.item__kv_day_h_click_count_avg_45d,
sq6.item__kv_category_click_count_avg_45d,
sq6.item__kv_day_h_praise_count_avg_45d,
sq6.item__kv_category_praise_count_avg_45d,
sq1.gender,
sq1.age,
sq1.city,
sq1.item_cnt,
sq1.follow_cnt,
sq1.follower_cnt,
sq1.is_new_user,
sq1.tags,
sq3.user__sum_playtime_3d,
sq3.user__sum_duration_3d,
sq3.user__sum_click_count_3d,
sq3.user__sum_praise_count_3d,
sq3.user__max_playtime_3d,
sq3.user__max_duration_3d,
sq3.user__max_click_count_3d,
sq3.user__max_praise_count_3d,
sq3.user__min_playtime_3d,
sq3.user__min_duration_3d,
sq3.user__min_click_count_3d,
sq3.user__min_praise_count_3d,
sq3.user__avg_playtime_3d,
sq3.user__avg_duration_3d,
sq3.user__avg_click_count_3d,
sq3.user__avg_praise_count_3d,
sq3.user__sum_playtime_7d,
sq3.user__sum_duration_7d,
sq3.user__sum_click_count_7d,
sq3.user__sum_praise_count_7d,
sq3.user__max_playtime_7d,
sq3.user__max_duration_7d,
sq3.user__max_click_count_7d,
sq3.user__max_praise_count_7d,
sq3.user__min_playtime_7d,
sq3.user__min_duration_7d,
sq3.user__min_click_count_7d,
sq3.user__min_praise_count_7d,
sq3.user__avg_playtime_7d,
sq3.user__avg_duration_7d,
sq3.user__avg_click_count_7d,
sq3.user__avg_praise_count_7d,
sq3.user__sum_playtime_15d,
sq3.user__sum_duration_15d,
sq3.user__sum_click_count_15d,
sq3.user__sum_praise_count_15d,
sq3.user__max_playtime_15d,
sq3.user__max_duration_15d,
sq3.user__max_click_count_15d,
sq3.user__max_praise_count_15d,
sq3.user__min_playtime_15d,
sq3.user__min_duration_15d,
sq3.user__min_click_count_15d,
sq3.user__min_praise_count_15d,
sq3.user__avg_playtime_15d,
sq3.user__avg_duration_15d,
sq3.user__avg_click_count_15d,
sq3.user__avg_praise_count_15d,
sq4.user__kv_day_h_duration_sum_7d,
sq4.user__kv_category_duration_sum_7d,
sq4.user__kv_day_h_click_count_sum_7d,
sq4.user__kv_category_click_count_sum_7d,
sq4.user__kv_day_h_duration_max_7d,
sq4.user__kv_category_duration_max_7d,
sq4.user__kv_day_h_click_count_max_7d,
sq4.user__kv_category_click_count_max_7d,
sq4.user__kv_day_h_duration_min_7d,
sq4.user__kv_category_duration_min_7d,
sq4.user__kv_day_h_click_count_min_7d,
sq4.user__kv_category_click_count_min_7d,
sq4.user__kv_day_h_duration_avg_7d,
sq4.user__kv_category_duration_avg_7d,
sq4.user__kv_day_h_click_count_avg_7d,
sq4.user__kv_category_click_count_avg_7d,
sq4.user__kv_day_h_duration_sum_15d,
sq4.user__kv_category_duration_sum_15d,
sq4.user__kv_day_h_click_count_sum_15d,
sq4.user__kv_category_click_count_sum_15d,
sq4.user__kv_day_h_duration_max_15d,
sq4.user__kv_category_duration_max_15d,
sq4.user__kv_day_h_click_count_max_15d,
sq4.user__kv_category_click_count_max_15d,
sq4.user__kv_day_h_duration_min_15d,
sq4.user__kv_category_duration_min_15d,
sq4.user__kv_day_h_click_count_min_15d,
sq4.user__kv_category_click_count_min_15d,
sq4.user__kv_day_h_duration_avg_15d,
sq4.user__kv_category_duration_avg_15d,
sq4.user__kv_day_h_click_count_avg_15d,
sq4.user__kv_category_click_count_avg_15d,
sq4.user__kv_day_h_duration_sum_30d,
sq4.user__kv_category_duration_sum_30d,
sq4.user__kv_day_h_click_count_sum_30d,
sq4.user__kv_category_click_count_sum_30d,
sq4.user__kv_day_h_duration_max_30d,
sq4.user__kv_category_duration_max_30d,
sq4.user__kv_day_h_click_count_max_30d,
sq4.user__kv_category_click_count_max_30d,
sq4.user__kv_day_h_duration_min_30d,
sq4.user__kv_category_duration_min_30d,
sq4.user__kv_day_h_click_count_min_30d,
sq4.user__kv_category_click_count_min_30d,
sq4.user__kv_day_h_duration_avg_30d,
sq4.user__kv_category_duration_avg_30d,
sq4.user__kv_day_h_click_count_avg_30d,
sq4.user__kv_category_click_count_avg_30d,
sq4.user__kv_day_h_duration_sum_45d,
sq4.user__kv_category_duration_sum_45d,
sq4.user__kv_day_h_click_count_sum_45d,
sq4.user__kv_category_click_count_sum_45d,
sq4.user__kv_day_h_duration_max_45d,
sq4.user__kv_category_duration_max_45d,
sq4.user__kv_day_h_click_count_max_45d,
sq4.user__kv_category_click_count_max_45d,
sq4.user__kv_day_h_duration_min_45d,
sq4.user__kv_category_duration_min_45d,
sq4.user__kv_day_h_click_count_min_45d,
sq4.user__kv_category_click_count_min_45d,
sq4.user__kv_day_h_duration_avg_45d,
sq4.user__kv_category_duration_avg_45d,
sq4.user__kv_day_h_click_count_avg_45d,
sq4.user__kv_category_click_count_avg_45d
FROM
(
SELECT *
FROM rec_sln_demo_fs_label_table_v1
WHERE ds = '${bdp.system.bizdate}'
) sq0
LEFT JOIN (
SELECT *
FROM <project_name>.rec_sln_demo_user_table_preprocess_v1
WHERE ds = TO_CHAR(DATEADD(TO_DATE('${bdp.system.bizdate}','yyyymmdd'), -1,'dd'),'yyyymmdd')
) sq1 ON sq0.user_id = sq1.user_id
LEFT JOIN (
SELECT *
FROM <project_name>.rec_sln_demo_item_table_preprocess_v1
WHERE ds = TO_CHAR(DATEADD(TO_DATE('${bdp.system.bizdate}','yyyymmdd'), -1,'dd'),'yyyymmdd')
) sq2 ON sq0.item_id = sq2.item_id
LEFT JOIN (
SELECT *
FROM <project_name>.rec_sln_demo_user_table_preprocess_agg_v1
WHERE ds = TO_CHAR(DATEADD(TO_DATE('${bdp.system.bizdate}','yyyymmdd'), -1,'dd'),'yyyymmdd')
) sq3 ON sq0.user_id = sq3.user_id
LEFT JOIN (
SELECT *
FROM <project_name>.rec_sln_demo_user_table_preprocess_win_v1
WHERE ds = TO_CHAR(DATEADD(TO_DATE('${bdp.system.bizdate}','yyyymmdd'), -1,'dd'),'yyyymmdd')
) sq4 ON sq0.user_id = sq4.user_id
LEFT JOIN (
SELECT *
FROM <project_name>.rec_sln_demo_item_table_preprocess_agg_v1
WHERE ds = TO_CHAR(DATEADD(TO_DATE('${bdp.system.bizdate}','yyyymmdd'), -1,'dd'),'yyyymmdd')
) sq5 ON sq0.item_id = sq5.item_id
LEFT JOIN (
SELECT *
FROM <project_name>.rec_sln_demo_item_table_preprocess_win_v1
WHERE ds = TO_CHAR(DATEADD(TO_DATE('${bdp.system.bizdate}','yyyymmdd'), -1,'dd'),'yyyymmdd')
) sq6 ON sq0.item_id = sq6.item_id;その結果、fs_demo_fs_engineering_v1_training_set という、90 日間のライフサイクルを持つパーティションテーブルが作成されます。このテーブルは、すべてのユーザー特徴量、アイテム特徴量、およびトレーニングラベルをリクエストごとに 1 つの行に結合したものです。
次のステップ
オンラインサービングや特徴量登録など、FeatureStore の特徴量プラットフォーム全体を理解するには、「FeatureStore の概要」をご参照ください。
特徴量エンジニアリング変換の完全な API リファレンスについては、「特徴量プラットフォームと特徴量エンジニアリング」をご参照ください。
テクニカルサポートについては、DingTalk グループ 34415007523 にご参加ください。