介紹定製化排序模型中用到的系統內建基礎特徵。
基礎特徵結構示意圖

基礎特徵類型介紹
基礎特徵總體分為兩大類:item和user
item:
欄位特徵:首先選擇需要處理的特徵欄位,預設支援當前應用下的所有欄位。然後選擇具體的處理方式,如對於文本類型可以選擇分詞、向量化等,對於數實值型別,直接選擇原值對應。如果需要的特徵欄位不在當前應用,還可以通過外部MaxCompute表的形式註冊進來。
統計特徵:系統內部結合當前應用的搜尋日誌、行為採集進行統計,如item最近7天的曝光量、點擊量、ctr等。
user:
user畫像:使用者畫像特徵如果需要可以通過外部表格的形式接入訓練,預測時通過query傳遞。(暫未啟用)
query特徵:即使用者搜尋的raw_query,一般用到query分詞、向量化等資訊。
item欄位特徵處理方式:
原值
分詞
分詞後產生lookup特徵
分詞後統計term數量
樣本:
比如需要處理的欄位內容為“白色T恤”,
原值結果為:“白色T恤”,
分詞結果為:“白色^]T恤” (^]為多值分隔字元),
分詞後產生lookup特徵為:“白色:白色^]T恤:T恤”,
分詞後統計term數量為:2
系統內建item特徵
欄位名(特徵名) | 欄位類型 | 欄位說明 |
system_item_id | STRING | item id ,item的唯一標識 |
system_all_nid_ctr_30 | BIGINT | item 30天點擊率(已進行離散化) |
system_all_nid_ctr_7 | BIGINT | item 7天點擊率(已進行離散化) |
system_all_nid_ctr_1 | BIGINT | item 1天點擊率(已進行離散化) |
system_all_nid_pv_30 | BIGINT | item 30天曝光量(已進行離散化) |
system_all_nid_pv_7 | BIGINT | item 7天曝光量(已進行離散化) |
system_all_nid_pv_1 | BIGINT | item 1天曝光量(已進行離散化) |
system_all_nid_ipv_30 | BIGINT | item 30天點擊量(已進行離散化) |
system_all_nid_ipv_7 | BIGINT | item 7天點擊量(已進行離散化) |
system_all_nid_ipv_1 | BIGINT | item 1天點擊量(已進行離散化) |
system_query_score_decay | STRING | 能表示該item的topN個query的點擊比例分 (對於query,N預設為20,下同) 樣本: 'query1:score1^]query2:score2' |
system_qterm_score_decay | STRING | 能表示該item的topN個query term的點擊比例分(對於term,N預設為300,下同) 樣本: 'term1:score1^]term2:score2' |
system_query_ctr_decay | STRING | 能表示該item的topN個query的ctr值 樣本: 'query1:ctr1^]query2:ctr2' |
system_qterm_ctr_decay | STRING | 能表示該item的topN個query term的ctr值 樣本: 'term1:ctr1^]term2:ctr2' |
system_query_match_decay | STRING | 請求query與能表示該item的topN個query的match值 樣本: 'query1:query1^]query2:query2' |
system_qterm_match_decay | STRING | 請求query term與能表示該item的topN個query term的match值 樣本: 'term1:term1^]term2:term2' |
system_query_seq_decay | STRING | 能表示該item的topN個query,多值id特徵 樣本: 'query1^]query2' |
system_qterm_seq_decay | STRING | 能表示該item的topN個query term,多值id特徵 樣本: 'term1^]term2' |
system_query_cnt | BIGINT | system_query_seq_decay的個數 |
system_qterm_cnt | BIGINT | system_qterm_seq_decay的個數 |
dt | STRING | 時間分區,格式 20230316,按天分區 |
系統內建user特徵
系統內建user特徵。
特徵名 | 欄位類型 | 特徵說明 |
system_exp_time | STRING | 行為產生的時間,單位為“周天”,例如“星期一”,“星期二” |
system_terms2 | STRING | query分詞列表的前15個詞的截斷 |
system_user_id | STRING | user_id |
system_raw_q_ultra | STRING | 分詞前的原始query |
system_term_seq | STRING | query序列特徵 |
system_term_seq_length | DOUBLE | query序列特徵長度 |