すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:ワークフローの管理

最終更新日:Apr 24, 2025

ワークフローは、依存関係が明確化され、実行シーケンスが指定された一連のジョブで構成されます。 特定の時点でジョブを実行する場合は、ワークフローを作成し、ワークフローにノードを追加してから、ワークフローでスケジューリングポリシーを構成できます。 このトピックでは、ワークフローを作成および実行する方法について説明します。

前提条件

  • ワークスペースが作成されていること。 詳細については、「ワークスペースの管理」をご参照ください。

  • ジョブが開発および公開されていること。

ワークフローの作成

  1. ワークフローページに移動します。

    1. E-MapReduce (EMR) コンソール にログインします。

    2. 左側のナビゲーションウィンドウで、[EMR Serverless] > [Spark] を選択します。

    3. [Spark] ページで、目的のワークスペースを見つけ、ワークスペースの名前をクリックします。

    4. [EMR Serverless Spark] ページの左側のナビゲーションウィンドウで、[オペレーションセンター] > [ワークフロー] を選択します。

  2. [ワークフロー] タブで、[ワークフローの作成] をクリックします。

  3. [ワークフローの作成] パネルで、パラメーターを構成し、[次へ] をクリックします。 次の表にパラメーターを示します。

    パラメーター

    説明

    名前

    ワークフローの名前。 名前はワークスペース内で一意である必要があります。

    リソースキュー

    ワークフローのデフォルトのリソースキュー。

    説明

    ワークフローノードに指定されたリソースキューは、デフォルトのリソースキューをオーバーライドできます。

    その他の設定

    スケジューリングタイプ

    本番環境でワークフローを実行するモード。 有効値:

    • なし(手動):ワークフローは手動で実行されます。 これはデフォルト値です。

    • スケジューラ:ワークフローはスケジューラの設定に基づいて実行されます。 ワークフローは、分、時間、または日で実行するようにスケジュールできます。

      [スケジューリングタイプ] パラメーターを [スケジューラ] に設定する場合は、[スケジューリング時間] パラメーターと [スケジューリング開始日時] パラメーターを構成する必要があります。

    スケジューリング時間

    ワークフローのスケジューリングサイクル。 このパラメーターは、本番環境でのワークフローのスケジューリング頻度を決定します。 ワークフローの実行は、ワークフローのスケジューリング頻度に基づいて生成されます。 このパラメーターは、[スケジューリングタイプ] パラメーターが [スケジューラ] に設定されている場合にのみ必須です。

    有効値:

    • 日:ノードは毎日指定された時刻に 1 回実行されます。

    • 時間:ノードは毎日指定された期間内に N 時間ごとに 1 回実行されます。

    • 分:ノードは毎日指定された期間内に N 分ごとに 1 回実行されます。

    スケジューリング開始日時

    ワークフローの実行がスケジュールされている日時。 デフォルト値は現在の時刻です。 このパラメーターは、[スケジューリングタイプ] パラメーターが [スケジューラ] に設定されている場合にのみ必須です。

    重要

    [スケジューリングタイプ] が [スケジューラ] に設定されているワークフローを作成する場合は、ワークフローページの [ワークフロー] タブで、ワークフローの [スケジューリングステータス] スイッチをオンにする必要があります。 そうしないと、ワークフローはスケジューリング時間にトリガーされません。

    失敗後の再試行回数

    ワークフローノードの実行に失敗した後の再試行回数。 デフォルトでは、再試行は実行されません。

    説明

    ワークフローノードに指定された再試行回数は、このパラメーターの値をオーバーライドできます。

    失敗通知

    ワークフローの実行に失敗した後に通知が送信されるメールアドレス。

    タグ

    ワークフローの識別に使用されるタグ。 各タグのキーと値を指定できます。

  4. ワークフローにノードを追加します。

    1. 表示されるページで、キャンバスの下部にある [ノードの追加] をクリックします。

    2. [ノードの追加] パネルで、パラメーターを構成します。 次の表にパラメーターを示します。

      パラメーター

      説明

      ソースファイルパス

      ノードに対応するジョブパス。 パス内のジョブは公開されている必要があります。

      ノードタイプ

      ノードのタイプ。 デフォルトでは、システムは対応するパス内のジョブに基づいてノードのタイプを推測します。

      ノード名

      ノードの名前。 システムは、[ソースファイルパス] の値に基づいてノード名を自動的に入力します。 ビジネス要件に基づいて名前を指定することもできます。

      アップストリームノード

      現在のノードのアップストリームノード。 アップストリームノードは、現在のワークフローで作成されたノードである必要があります。

      ワークフローの最初のノードのアップストリームノードを指定する必要はありません。

      再試行回数

      ワークフローで定義されている再試行回数が使用されます。 デフォルトでは、再試行は実行されません。

      タイムアウト(秒)

      ノードの単一実行のタイムアウト期間。 デフォルトでは、制限は課されません。

      サブスクリプション

      ノードが指定された状態になったときに通知が送信されるメールアドレス。

      タグ

      ノードのタグ。 デフォルトでは、各ノードに workflow_name タグと task_name タグが提供されます。

      リソースキュー

      ノードの実行に使用されるリソースキュー。 デフォルトでは、ワークフローに指定したリソースキューが使用されます。 ワークフローに指定したリソースキューをオーバーライドするために、ノードのリソースキューを構成できます。

      重要

      ワークフローノードにリソースキューを指定すると、ワークフローに構成されているリソースキューを変更した場合でも、指定されたリソースキューが優先されます。

      説明

      SQL ジョブを使用する場合は、ビジネス要件に基づいて [タスクの構成] セクションのパラメーターを構成できます。 デフォルトでは、[タスクの構成] セクションのパラメーターの値は、ジョブに構成したパラメーターの値と同じです。 詳細については、「デフォルト構成の管理」をご参照ください。

    3. [保存] をクリックします。

      ビジネス要件に基づいてノードを追加するには、[ノードの追加] をクリックし続けます。

  5. ワークフローを公開します。

    1. 右上隅にある [ワークフローの公開] をクリックします。

    2. [公開] ダイアログボックスで、[備考] パラメーターを構成し、[OK] をクリックします。

ワークフローの実行

ワークフローが実行されるたびに、ワークフロー実行が生成されます。 ワークフローの実行は、ワークフロー詳細ページの [ワークフローの実行] タブで表示できます。

デバッグ

ワークフローを編集するときは、最新バージョンのワークフローをデバッグできます。

  1. 目的のワークフローを見つけ、[アクション] 列の [編集] をクリックします。 表示されるページで、ワークフロー名の右側にある [デバッグ] をクリックします。

    image

  2. [デバッグ] ダイアログボックスで、開発環境で使用されるリソースキューを選択し、[実行] をクリックします。

スケジュールされた実行

ワークフローを作成するときに [スケジューリングタイプ] パラメーターを [スケジューラ] に設定し、ワークフローの作成後に [スケジューリングステータス] 列のスイッチをオンにすると、ワークフローは指定された時刻に実行されるようにスケジュールされます。

image.png

手動実行

[ワークフロー] タブで、実行するワークフローの名前をクリックします。 表示されるページの右上隅にある [実行] をクリックします。 [実行] ダイアログボックスで、[スケジューリング方法] パラメーターを構成し、[OK] をクリックします。 その後、ワークフローは選択したスケジューリング方法に基づいて実行されます。 [スケジューリング方法] パラメーターの有効値:

  • [手動実行]:スケジューリング時間が来るのを待たずに、ワークフローを手動で実行します。 これはデフォルト値です。

  • [バックフィル]:過去の一定期間のワークフローのデータをバックフィルします。 このオプションは、実行されていない、または実行に失敗したワークフローに対して選択できます。 このオプションを選択すると、ビジネス要件に基づいて次の表に示すパラメーターを構成できます。

    パラメーター

    説明

    サイクル

    システムは、[サイクル] パラメーターに指定した時間範囲内でワークフローが実行されると、ワークフロー実行を生成します。

    • 指定した時間範囲は、現在の時刻よりも前である可能性があります。 実際の時間が指定した時間範囲よりも遅い場合、データバックフィルワークフロー実行が生成され、実行されます。

    • データバックフィルワークフロー実行は、スケジューリング時間が指定した時間範囲内にある場合にのみ生成され、実行されます。

    • ワークフローに ${ds} などの時間変数が構成されている場合、システムは変数を [サイクル] パラメーターの値に含まれる時間で自動的に置き換えます。

    リソースキュー

    デフォルトでは、ワークフローに構成したリソースキューが使用されます。 ドロップダウンリストから本番環境の別のリソースキューを選択することもできます。

    備考

    ビジネス要件に基づいて説明を入力します。 これは、ワークフローの管理と問題のトラブルシューティングに役立ちます。

    詳細

    失敗通知:データのバックフィルに失敗した場合に通知を受信するメールアドレスを指定できます。

ワークフロー実行とワークフローノードのステータスの確認

[ワークフロー実行ステータス] 列でワークフロー実行のステータスを確認し、[ワークフローノード実行ステータス] 列でワークフローノードのステータスを確認できます。image.png

  • ワークフロー実行のステータス

    ステータス

    説明

    実行中

    成功

    失敗

    保留中

  • ワークフローノードのステータス

    ステータス

    説明

    実行中

    成功

    失敗

    再試行中

    保留中

参照