全部產品
Search
文件中心

Platform For AI:更新EasyRec設定檔

更新時間:Feb 24, 2025

該組件的作用是使用EasyRec裡的add_feature_info_to_config.py指令碼,給推薦全鏈路深度定製開發平台PAIREC產生的臨時檔案template.config,添加特徵資訊。本文為您介紹該組件的配置方法。

前提條件

已開通OSS並完成授權,詳情請參見 開通OSS服務雲產品依賴與授權:Designer

組件配置

您可以使用以下任意一種方式,配置更新EasyRec設定檔群組件參數。

方式一:可視化配置參數

  • 輸入樁

    輸入樁(從左至右)

    限制資料類型/上遊組件

    對應PAI命令參數

    是否必選

    config表輸入

    說明

    該表是一個統計表,統計了特徵出現的次數、數值特徵的分桶值。

    MaxCompute表/SQL指令碼讀資料表

    config_table

  • 組件參數

    頁簽

    參數

    是否必選

    描述

    對應PAI命令參數

    預設值

    參數設定

    推薦模板產生的模板設定檔

    推薦模板產生的模板設定檔所在的OSS路徑。

    template_config_path

    easyrec設定檔輸出路徑

    EasyRec設定檔的輸出路徑。

    拼裝成

    output_config_path參數

    easyrec設定檔檔案名稱

    EasyRec設定檔的檔案名稱。

    指定演算法版本

    自訂EasyRec的演算法原始碼包:

    1. 請先參考文檔EasyRec版本更新,產生一個EasyRec的tar包。

    2. 上傳對應版本的tar包到OSS全路徑,詳情請參見控制台上傳檔案

    3. 在這個參數中選中上傳的tar檔案所在的OSS全路徑。

    script

    執行調優

    Worker數量

    Worker的數量。

    完整的執行調優參數會拼裝成cluster參數

    1

    Worker CPU用量

    Worker申請的CPU數量,取值1表示一個CPU核。

    8

    Worker Memory用量

    Worker申請的記憶體,取值100表示100 MB。

    40000

    Worker GPU卡數

    在EasyRec訓練中,一般不需要使用GPU。

    0

  • 輸出樁

    輸出樁(從左至右)

    資料類型

    對應PAI命令參數

    是否必選

    easyrec配置輸出

    OSS路徑/模型訓練

    output_config_path

方式二:PAI命令及說明

使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼

PAI -project algo_public -name easy_rec_ext 
    -Darn="acs:ram::xxx:role/aliyunodpspaidefaultrole" 
    -Dbuckets="oss://rec_sln_demo/" 
    -Dcluster="{\"worker\": {\"count\": 1, \"cpu\": 800, \"gpu\": 0, \"memory\": 40000}}" 
    -Dcmd="custom" 
    -DentryFile="easy_rec/python/tools/add_feature_info_to_config.py" 
    -Dextra_params="--template_config_path=oss://rec_sln_demo/EasyRec/deploy/rec_sln_demo_dssm_recall_v1/rec_sln_demo_dssm_recall_v1_template.config --output_config_path=oss://rec_sln_demo/EasyRec/deploy/rec_sln_demo_dssm_recall_v1//rec_sln_demo_dssm_recall_v1.config --config_table=odps://pai_hangzhou/tables/pai_temp_flow_26un8zq7v4goadi373_node_2m6yfr7q3a69m9jv7n_outputTable" 
    -Dlifecycle="28" 
    -DossHost="oss-cn-hangzhou-internal.aliyuncs.com" 
    -Dscript="oss://rec_sln_demo/easy_rec_ext_0.6.1_res.tar.gz" 
    -Dtables="odps://pai_hangzhou/tables/pai_temp_flow_26un8zq7v4goadi373_node_2m6yfr7q3a69m9jv7n_outputTable";

參數名稱

是否必選

描述

entryFile

入口檔案,執行add_feature_info_to_config.py指令碼。

cmd

cmd配置為custom時,表示執行EasyRec的自訂指令碼。

arn

指定資源群組授權,您可以登入PAI控制台,在開通和授權>全部雲產品依賴頁面的Designer地區,單擊操作列下的查看授權資訊,擷取arn。

ossHost

OSS Endpoint,地區和Endpoint對照表請參見訪問網域名稱和資料中心

buckets

配置EasyRec的tar檔案所在的Bucket和儲存模型的Bucket。如果有多個Bucket,使用半形逗號(,)分隔,例如oss://xxxx/,oss://xxxx/

extra_params

額外參數,PAI Flow上沒有定義的參數,指定

臨時檔案template_config_path、輸出路徑output_config_path

特徵資訊表config_table參數。

script

參考文檔EasyRec版本更新產生EasyRec的tar包,並上傳到OSS,指定tar包的OSS全路徑。

使用樣本

  1. 下載特徵資訊資料dssm_recall_30d_config_v1.csv和臨時檔案template.config

說明

特徵資訊資料和臨時檔案template.config由推薦演算法定製產生,這裡為了方便,直接提供資料和檔案。

  1. 通過MaxCompute用戶端,為特徵資訊建立資料表,關於MaxCompute用戶端的使用,請參見使用本地用戶端(odpscmd)串連

    CREATE TABLE IF NOT EXISTS dssm_recall_30d_config_v1(feature STRING,feature_info STRING,message STRING);
  2. 將下載的資料集dssm_recall_30d_config_v1.csv上傳到已建立的MaxCompute表中。關於如何使用MaxCompute用戶端上傳資料,請參見Tunnel命令

    tunnel upload dssm_recall_30d_config_v1.csv dssm_recall_30d_config_v1 -fd \t;
  3. 上傳臨時檔案template.config到OSS。具體操作,請參見控制台上傳檔案

  4. 建立如下工作流程。

    a3588ed9d6a79a95967530f2ce0cbdb3

    地區

    描述

    配置讀資料表-51表名參數為已建立的dssm_recall_30d_config_v1表。

    更新EasyRec設定檔-1組件的參數設定頁簽,配置以下參數:

    • 推薦模板產生的模板設定檔:選擇臨時檔案template.config所在的OSS路徑。

    • easyrec設定檔輸出路徑:選擇設定檔輸出路徑。輸出路徑不能直接選擇Bucket層級,必須選擇Bucket下面某個層級(Bucket下的目錄層級)。

    • easyrec設定檔檔案名稱:填寫自訂的檔案名稱。

    • 指定演算法版本:參考文檔EasyRec版本更新產生EasyRec的tar包,並上傳到OSS,指定tar包的OSS全路徑。

  5. 單擊image運行工作流程。

    工作流程運行結束後,您可以在參數easyrec設定檔輸出路徑配置的OSS路徑下,查看輸出的EasyRec設定檔。

相關文檔

關於該組件更完整的使用流程,請參考推薦演算法定製-向量召回案例的節點 11_rec_sln_demo_dssm_recall_v1_update_config ,該節點使用了更新EasyRec設定檔組件。