該組件的作用是使用EasyRec裡的add_feature_info_to_config.py指令碼,給推薦全鏈路深度定製開發平台PAIREC產生的臨時檔案template.config,添加特徵資訊。本文為您介紹該組件的配置方法。
前提條件
已開通OSS並完成授權,詳情請參見 開通OSS服務和 雲產品依賴與授權:Designer。
組件配置
您可以使用以下任意一種方式,配置更新EasyRec設定檔群組件參數。
方式一:可視化配置參數
輸入樁
輸入樁(從左至右)
限制資料類型/上遊組件
對應PAI命令參數
是否必選
config表輸入
說明該表是一個統計表,統計了特徵出現的次數、數值特徵的分桶值。
config_table
是
組件參數
頁簽
參數
是否必選
描述
對應PAI命令參數
預設值
參數設定
推薦模板產生的模板設定檔
是
推薦模板產生的模板設定檔所在的OSS路徑。
template_config_path
無
easyrec設定檔輸出路徑
是
EasyRec設定檔的輸出路徑。
拼裝成
output_config_path參數
無
easyrec設定檔檔案名稱
是
EasyRec設定檔的檔案名稱。
無
指定演算法版本
是
自訂EasyRec的演算法原始碼包:
請先參考文檔EasyRec版本更新,產生一個EasyRec的tar包。
上傳對應版本的tar包到OSS全路徑,詳情請參見控制台上傳檔案。
在這個參數中選中上傳的tar檔案所在的OSS全路徑。
script
無
執行調優
Worker數量
否
Worker的數量。
完整的執行調優參數會拼裝成cluster參數
1
Worker CPU用量
否
Worker申請的CPU數量,取值1表示一個CPU核。
8
Worker Memory用量
否
Worker申請的記憶體,取值100表示100 MB。
40000
Worker GPU卡數
否
在EasyRec訓練中,一般不需要使用GPU。
0
輸出樁
輸出樁(從左至右)
資料類型
對應PAI命令參數
是否必選
easyrec配置輸出
OSS路徑/模型訓練
output_config_path
是
方式二:PAI命令及說明
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
PAI -project algo_public -name easy_rec_ext
-Darn="acs:ram::xxx:role/aliyunodpspaidefaultrole"
-Dbuckets="oss://rec_sln_demo/"
-Dcluster="{\"worker\": {\"count\": 1, \"cpu\": 800, \"gpu\": 0, \"memory\": 40000}}"
-Dcmd="custom"
-DentryFile="easy_rec/python/tools/add_feature_info_to_config.py"
-Dextra_params="--template_config_path=oss://rec_sln_demo/EasyRec/deploy/rec_sln_demo_dssm_recall_v1/rec_sln_demo_dssm_recall_v1_template.config --output_config_path=oss://rec_sln_demo/EasyRec/deploy/rec_sln_demo_dssm_recall_v1//rec_sln_demo_dssm_recall_v1.config --config_table=odps://pai_hangzhou/tables/pai_temp_flow_26un8zq7v4goadi373_node_2m6yfr7q3a69m9jv7n_outputTable"
-Dlifecycle="28"
-DossHost="oss-cn-hangzhou-internal.aliyuncs.com"
-Dscript="oss://rec_sln_demo/easy_rec_ext_0.6.1_res.tar.gz"
-Dtables="odps://pai_hangzhou/tables/pai_temp_flow_26un8zq7v4goadi373_node_2m6yfr7q3a69m9jv7n_outputTable";參數名稱 | 是否必選 | 描述 |
entryFile | 是 | 入口檔案,執行add_feature_info_to_config.py指令碼。 |
cmd | 是 | cmd配置為custom時,表示執行EasyRec的自訂指令碼。 |
arn | 是 | 指定資源群組授權,您可以登入PAI控制台,在開通和授權>全部雲產品依賴頁面的Designer地區,單擊操作列下的查看授權資訊,擷取arn。 |
ossHost | 是 | OSS Endpoint,地區和Endpoint對照表請參見訪問網域名稱和資料中心。 |
buckets | 是 | 配置EasyRec的tar檔案所在的Bucket和儲存模型的Bucket。如果有多個Bucket,使用半形逗號(,)分隔,例如 |
extra_params | 是 | 額外參數,PAI Flow上沒有定義的參數,指定 臨時檔案template_config_path、輸出路徑output_config_path和 特徵資訊表config_table參數。 |
script | 否 | 參考文檔EasyRec版本更新產生EasyRec的tar包,並上傳到OSS,指定tar包的OSS全路徑。 |
使用樣本
下載特徵資訊資料dssm_recall_30d_config_v1.csv和臨時檔案template.config。
特徵資訊資料和臨時檔案template.config由推薦演算法定製產生,這裡為了方便,直接提供資料和檔案。
通過MaxCompute用戶端,為特徵資訊建立資料表,關於MaxCompute用戶端的使用,請參見使用本地用戶端(odpscmd)串連。
CREATE TABLE IF NOT EXISTS dssm_recall_30d_config_v1(feature STRING,feature_info STRING,message STRING);將下載的資料集dssm_recall_30d_config_v1.csv上傳到已建立的MaxCompute表中。關於如何使用MaxCompute用戶端上傳資料,請參見Tunnel命令。
tunnel upload dssm_recall_30d_config_v1.csv dssm_recall_30d_config_v1 -fd \t;上傳臨時檔案template.config到OSS。具體操作,請參見控制台上傳檔案。
建立如下工作流程。

地區
描述
①
配置讀資料表-51的表名參數為已建立的dssm_recall_30d_config_v1表。
②
在更新EasyRec設定檔-1組件的參數設定頁簽,配置以下參數:
推薦模板產生的模板設定檔:選擇臨時檔案template.config所在的OSS路徑。
easyrec設定檔輸出路徑:選擇設定檔輸出路徑。輸出路徑不能直接選擇Bucket層級,必須選擇Bucket下面某個層級(Bucket下的目錄層級)。
easyrec設定檔檔案名稱:填寫自訂的檔案名稱。
指定演算法版本:參考文檔EasyRec版本更新產生EasyRec的tar包,並上傳到OSS,指定tar包的OSS全路徑。
單擊
運行工作流程。工作流程運行結束後,您可以在參數easyrec設定檔輸出路徑配置的OSS路徑下,查看輸出的EasyRec設定檔。
相關文檔
關於該組件更完整的使用流程,請參考推薦演算法定製-向量召回案例的節點 11_rec_sln_demo_dssm_recall_v1_update_config ,該節點使用了更新EasyRec設定檔組件。