マルチデータループ実行機能がMaxCompute MR (MapReduce) コンポーネントに追加され、一定期間内に日レベルのMRタスクを並行して実行できます。 たとえば、推奨アルゴリズムのカスタマイズシナリオでは、過去30日間のEasyRecFGMapperタスクを並行して実行できます。
制限事項
この機能は、日レベルのデータバックフィルループにのみ適用できます。
定期的なスケジューリングを使用してパイプラインをスケジュールする前に、複数日付のループ実行を無効にします。 これにより、運用環境で追加のデータバックフィルタスクが実行されなくなり、必要以上のデータが生成されなくなります。
[パラメーター設定] タブで [同時パラメーターの最大数] を設定した場合、設定は設定対象のノードでのみ有効になります。 複数のノードでデータバックフィルを実行する場合は、現在のプロジェクトのリソースでサポートされている同時実行制限の合計に注意してください。
Machine Learning Designerでのコンポーネントの設定
Machine Learning Designerを使用すると、Machine Learning Platform for AI (PAI) コンソールでコンポーネントを構成できます。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
パラメーター設定 | ビジネスベース日 | このパラメーターは、次のいずれかの方法で設定できます。
|
複数日付のループ実行を開くかどうか | 複数日付ループの実行はデフォルトで有効になっています。 マルチデータループの実行が無効になっている場合、このコンポーネントはMRコンポーネントと同じように機能します。 | |
実行時間ウィンドウ | 値には、整数と時間範囲を含めることができます。 時間範囲はコンマ (,) で区切ります。 システムは、ビジネス基準日に基づいて実行時間を計算し、指定された時間にサブタスクを開始します。 最大100のサブタスクを実行できます。 たとえば、業務基準日を20230210に設定し、実行時間ウィンドウを (-4,-2],0に設定した場合、20230207、20230208、および20230210で取得したデータに対してタスクが実行されます。 | |
同時実行の最大数 | リソースの競合を回避するために、一度に多数の同時実行タスクを実行しないことをお勧めします。 デフォルト値: 3。 | |
日付形式 | この値は、${pai.system.cycledate} のシステム変数を生成するために使用されます。 有効な値:
例: ビジネスベースの日付を20230210に設定し、日付形式をyyyy-MM-ddに設定した場合、SQLスクリプトの ${pai.system.cycledate} 変数は2023-02-10に変換されます。 | |
リソースOSSパス | リソースファイルが配置されているディレクトリ。 | |
リソースファイルの一覧 | 複数のリソースファイルをコンマ (,) で区切ります。 | |
クラスパスのOSSパス | JARファイルのパス。 | |
メインクラス | メインクラス | |
MRタスク入力パラメータ | マルチ日付ループの実行が有効になっている場合は、日付をシステム変数 ${pai.system.cycledate} に置き換える必要があります。 このトピックの例で設定されているように、3つのタスクが並行して開始されます。 その他の特徴はMR部品と同じである。 |
例:
詳細については、「Vector Recall」の「2_rec_sln_demo_dssm_recall_vector_recall_sample_fg_encoded_v1」をご参照ください。