全部產品
Search
文件中心

OpenSearch:系統內建基礎特徵

更新時間:Jul 13, 2024

介紹定製化排序模型中用到的系統內建基礎特徵。

基礎特徵結構示意圖

image.png

基礎特徵類型介紹

基礎特徵總體分為兩大類:item和user

item:

  • 欄位特徵:首先選擇需要處理的特徵欄位,預設支援當前應用下的所有欄位。然後選擇具體的處理方式,如對於文本類型可以選擇分詞、向量化等,對於數實值型別,直接選擇原值對應。如果需要的特徵欄位不在當前應用,還可以通過外部MaxCompute表的形式註冊進來。

  • 統計特徵:系統內部結合當前應用的搜尋日誌、行為採集進行統計,如item最近7天的曝光量、點擊量、ctr等。

user:

  • user畫像:使用者畫像特徵如果需要可以通過外部表格的形式接入訓練,預測時通過query傳遞。(暫未啟用)

  • query特徵:即使用者搜尋的raw_query,一般用到query分詞、向量化等資訊。

item欄位特徵處理方式:

  • 原值

  • 分詞

  • 分詞後產生lookup特徵

  • 分詞後統計term數量

樣本:

比如需要處理的欄位內容為“白色T恤”,

原值結果為:“白色T恤”,

分詞結果為:“白色^]T恤” (^]為多值分隔字元),

分詞後產生lookup特徵為:“白色:白色^]T恤:T恤”,

分詞後統計term數量為:2

系統內建item特徵

欄位名(特徵名)

欄位類型

欄位說明

system_item_id

STRING

item id ,item的唯一標識

system_all_nid_ctr_30

BIGINT

item 30天點擊率(已進行離散化)

system_all_nid_ctr_7

BIGINT

item 7天點擊率(已進行離散化)

system_all_nid_ctr_1

BIGINT

item 1天點擊率(已進行離散化)

system_all_nid_pv_30

BIGINT

item 30天曝光量(已進行離散化)

system_all_nid_pv_7

BIGINT

item 7天曝光量(已進行離散化)

system_all_nid_pv_1

BIGINT

item 1天曝光量(已進行離散化)

system_all_nid_ipv_30

BIGINT

item 30天點擊量(已進行離散化)

system_all_nid_ipv_7

BIGINT

item 7天點擊量(已進行離散化)

system_all_nid_ipv_1

BIGINT

item 1天點擊量(已進行離散化)

system_query_score_decay

STRING

能表示該item的topN個query的點擊比例分 (對於query,N預設為20,下同)

樣本: 'query1:score1^]query2:score2'

system_qterm_score_decay

STRING

能表示該item的topN個query term的點擊比例分(對於term,N預設為300,下同)

樣本: 'term1:score1^]term2:score2'

system_query_ctr_decay

STRING

能表示該item的topN個query的ctr值

樣本: 'query1:ctr1^]query2:ctr2'

system_qterm_ctr_decay

STRING

能表示該item的topN個query term的ctr值

樣本: 'term1:ctr1^]term2:ctr2'

system_query_match_decay

STRING

請求query與能表示該item的topN個query的match值

樣本: 'query1:query1^]query2:query2'

system_qterm_match_decay

STRING

請求query term與能表示該item的topN個query term的match值

樣本: 'term1:term1^]term2:term2'

system_query_seq_decay

STRING

能表示該item的topN個query,多值id特徵

樣本: 'query1^]query2'

system_qterm_seq_decay

STRING

能表示該item的topN個query term,多值id特徵

樣本: 'term1^]term2'

system_query_cnt

BIGINT

system_query_seq_decay的個數

system_qterm_cnt

BIGINT

system_qterm_seq_decay的個數

dt

STRING

時間分區,格式 20230316,按天分區

系統內建user特徵

系統內建user特徵。

特徵名

欄位類型

特徵說明

system_exp_time

STRING

行為產生的時間,單位為“周天”,例如“星期一”,“星期二”

system_terms2

STRING

query分詞列表的前15個詞的截斷

system_user_id

STRING

user_id

system_raw_q_ultra

STRING

分詞前的原始query

system_term_seq

STRING

query序列特徵

system_term_seq_length

DOUBLE

query序列特徵長度