すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:Easyrec設定の更新

最終更新日:Jul 22, 2024

Platform for AI (PAI) のUpdate Easyrec Configコンポーネントは、EasyRecのadd_feature_info_to_config.pyスクリプトを使用して、PAIRECによって生成されるtemplate.configファイルに機能情報を追加します。 PAIRECは、エンドツーエンドの詳細なカスタマイズおよび開発プラットフォームです。 このトピックでは、Update Easyrec Configコンポーネントを設定する方法について説明します。

前提条件

Object Storage Service (OSS) が有効化され、Machine Learning DesignerはOSSへのアクセスが許可されています。 詳細については、「OSSの有効化」および「Machine Learning Designerの使用に必要な権限の付与」をご参照ください。

コンポーネントの設定

Update Easyrec Configコンポーネントのパラメーターを設定するには、次のいずれかの方法を使用します。

方法1: PAIコンソールでコンポーネントを設定する

  • 入力ポート

    入力ポート (左から右)

    推奨上流コンポーネント

    PAIコマンドのパラメータ

    必須

    設定テーブル入力

    説明

    このテーブルは、各フィーチャの発生回数と数値フィーチャのバケット値を収集する統計テーブルです。

    MaxComputeテーブル。 アップストリームコンポーネント: SQLスクリプトおよび読み取りテーブル

    config_table

  • コンポーネントパラメータ

    タブ

    パラメーター

    必須

    説明

    PAIコマンドのパラメータ

    デフォルト値

    パラメーター設定

    rectemplate produce template.config

    推奨テンプレートによって生成されたテンプレート設定ファイルが格納されるOSSパス。

    template_config_パス

    非該当

    easyrec.config出力パス

    EasyRec設定ファイルの出力パス。

    として渡された

    output_config_pathパラメーター

    非該当

    easyrec.configファイル名

    EasyRec設定ファイルの名前。

    非該当

    アルゴリズムのバージョンの指定

    アルゴリズムパッケージを選択します。

    1. EasyRecのTARパッケージを生成します。 詳細については、「リリースとアップグレード」をご参照ください。

    2. TARパッケージをOSSパスにアップロードします。 詳細については、「オブジェクトのアップロード」をご参照ください。

    3. アップロードしたTARパッケージを選択します。

    スクリプト

    非該当

    モデルチューニング

    労働者数

    不可

    ワーカーノードの数。

    チューニングタブのパラメーターは、clusterパラメーターとして渡されます。

    1

    ワーカーCPU

    不可

    各ワーカーノードのvCPUの数。 1の値は1つのvCPUを示します。

    8

    ワーカーメモリ

    不可

    各ワーカーノードのメモリサイズ。 値100は100 MBを指定します。

    40000

    ワーカーGPU

    不可

    ほとんどのEasyRecトレーニングではGPUは必要ありません。

    0

  • 出力ポート

    出力ポート (左から右)

    データ型

    PAIコマンドのパラメータ

    必須

    easyrec設定出力

    データ型: OSSパス コンポーネント: モデルトレーニング

    output_config_path

方法2: PAIコマンドの使用

PAIコマンドを使用してUpdate Easyrec Configコンポーネントを設定するには、SQLスクリプトコンポーネントでコマンドを実行します。 詳細については、「SQLスクリプト」をご参照ください。

PAI -project algo_public -name easy_rec_ext 
    -Darn="acs:ram::xxx:role/aliyunodpspaidefaultrole" 
    -Dbuckets="oss://rec_sln_demo/" 
    -Dcluster="{\"worker\": {\"count\": 1, \"cpu\": 800, \"gpu\": 0, \"memory\": 40000}}" 
    -Dcmd="custom" 
    -DentryFile="easy_rec/python/tools/add_feature_info_to_config.py" 
    -Dextra_params="--template_config_path=oss://rec_sln_demo/EasyRec/deploy/rec_sln_demo_dssm_recall_v1/rec_sln_demo_dssm_recall_v1_template.config --output_config_path=oss://rec_sln_demo/EasyRec/deploy/rec_sln_demo_dssm_recall_v1//rec_sln_demo_dssm_recall_v1.config --config_table=odps://pai_hangzhou/tables/pai_temp_flow_26un8zq7v4goadi373_node_2m6yfr7q3a69m9jv7n_outputTable" 
    -Dlifecycle="28" 
    -DossHost="oss-cn-hangzhou-internal.aliyuncs.com" 
    -Dscript="oss://rec_sln_demo/easy_rec_ext_0.6.1_res.tar.gz" 
    -Dtables="odps://pai_hangzhou/tables/pai_temp_flow_26un8zq7v4goadi373_node_2m6yfr7q3a69m9jv7n_outputTable";

パラメーター

必須

説明

entryFile

エントリファイル。 add_feature_info_to_config.pyスクリプトを実行します。

cmd

cmdパラメーターがcustomに設定されている場合、EasyRecのカスタムスクリプトが実行されます。

arn

リソースグループ権限情報。 サービスのAlibaba Cloudリソース名 (ARN) を取得するには、次の手順を実行します。PAIコンソールにログインします。 左側のナビゲーションウィンドウで、[アクティベーションと権限付与] > [依存サービス] を選択します。 デザイナーセクションで、[操作] 列の [権限の表示] をクリックします。

ossHost

OSSエンドポイント。 詳細は、「リージョンとエンドポイント」をご参照ください。

バケット

EasyRecのTARパッケージとモデルが格納されているOSSバケット。 複数のバケットはコンマ (,) で区切ります。 例: oss:// xxxx/,oss:// xxxx/

extra_params

パイプラインで指定されていない追加のパラメーター、

template_config_path一時ファイル、output_config_path出力パス、および

config_table機能情報テーブル。

スクリプト

不可

TARパッケージが生成されるパス。 詳細については、「リリースとアップグレード」をご参照ください。 TARパッケージをOSSにアップロードし、TARパッケージのOSSパスを指定します。 サンプルTARパッケージ: easy_rec_ext_0.6.1_res.tar.gz

  1. dssm_recall_30d_config_v1.csv機能情報データファイルとtemplate.config一時ファイルをダウンロードします。

説明

特徴情報データファイルとtemplate.config一時ファイルは、PAIRECによって生成されます。 この例では、Update Easyrec Configコンポーネントを簡単に使用できるように、データとファイルが提供されています。

  1. MaxComputeクライアントの機能情報のデータテーブルを作成します。 MaxComputeクライアントの使用方法の詳細については、「MaxComputeクライアント (odpscmd) 」をご参照ください。

    CREATE TABLE IF NOT EXISTS dssm_recall_30d_config_v1(feature STRING,feature_info STRING,message STRING);
  2. ダウンロードしたデータセットdssm_recall_30d_config_v1.csvを、作成したMaxComputeテーブルにアップロードします。 MaxComputeクライアントを使用してデータをアップロードする方法の詳細については、「Tunnelコマンド」をご参照ください。

    tunnel upload dssm_recall_30d_config_v1.csv dssm_recall_30d_config_v1 -fd \t;
  3. template.config一時ファイルをOSSにアップロードします。 詳細については、「オブジェクトのアップロード」をご参照ください。

  4. パイプラインを作成します。 次の図は、パイプラインを示しています。

    a3588ed9d6a79a95967530f2ce0cbdb3

    セクション

    説明

    1

    [テーブルの読み取り]-51] コンポーネントの [テーブル名] パラメーターを、作成したdssm_recall_30d_config_v1テーブルに設定します。

    2

    Easyrec Config-1の更新コンポーネントの [パラメーター設定] タブで、次のパラメーターを設定します。

    • rectemplate produce template.config: template.config一時ファイルが保存されているOSSパスを選択します。

    • easyrec.config出力パス: template.config一時ファイルが格納されている出力パスを選択します。 バケットレベルのパスを出力パスとして選択することはできません。 バケットのディレクトリを選択する必要があります。

    • easyrec.config filename: カスタムファイル名を入力します。

    • アルゴリズムのバージョンを指定する: EasyRecのTARパッケージが保存されているOSSパスを選択します。 詳細については、「EasyRecドキュメントのリリースとアップグレード」をご参照ください。 サンプルTARパッケージ: easy_rec_ext_0.6.1_res.tar.gz

  5. アイコンをクリックしてimageパイプラインを実行します。

    パイプラインの実行後、EasyRec. config output pathパラメーターで指定されたOSSパスで生成されたeasyrec設定ファイルを表示できます。

関連ドキュメント

Update EasyRec Configコンポーネントは、ノード11_rec_sln_demo_dssm_recall_v1_update_configを実行するために使用されます。 コンポーネントの使用方法の詳細については、「DSSM vector recall」をご参照ください。