すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:ワークフローの管理

最終更新日:Jan 14, 2025

このトピックでは、ワークフローを作成および管理する方法について説明します。

前提条件

プロジェクトが作成されていること。詳細については、「プロジェクトの作成」をご参照ください。

ワークフローの作成

  1. [プロジェクト] タブに移動します。

    1. E-MapReduce (EMR) コンソール にログオンします。

    2. 左側のナビゲーションペインで、[EMR Studio] > [ワークフロー] を選択します。

    3. [プロジェクト] タブをクリックします。

    4. [プロジェクト] タブで、既存のプロジェクトの名前をクリックします。

  2. プロジェクトの詳細ページで、左側のナビゲーションペインの [ワークフロー] > [ワークフロー定義] を選択します。

  3. [ワークフロー定義] ページで、[ワークフローの作成] をクリックします。

  4. [ワークフローの作成] ページで、[HIVECLI] をキャンバスにドラッグします。 [現在のノード設定] ダイアログボックスで、パラメーターを設定し、[確認] をクリックします。

    この例では、[HIVECLI] ノードが作成されます。詳細については、「HIVECLI」をご参照ください。その他のノードタイプの詳細については、「ノードタイプ」をご参照ください。

  5. オプション。ノード間の依存関係を設定します。

    EMR ワークフローでは、ワークフロー間のカスタムノードの依存関係を設定できます。

    • ノードの右側にある image..png アイコンにポインターを移動し、接続線をドラッグしてノードを別のノードに接続します。

    • 接続線またはノードをクリックし、キャンバスの右上隅にある image..png アイコンをクリックして、ノードの依存関係またはノードを削除します。

  6. ワークフローを保存します。

    1. キャンバスの右上隅にある [保存] をクリックします。

    2. [基本情報] ダイアログボックスで、次の表に記載されているパラメーターを設定し、[確認] をクリックします。

      パラメーター

      説明

      ワークフロー名

      ワークフローの名前。

      説明

      ワークフローの機能説明。

      タイムアウトアラート

      既定では、タイムアウトアラートはオフになっています。[タイムアウトアラート] をオンにする場合は、[タイムアウト期間] を指定する必要があります。ノードの実行時間が [タイムアウト期間] を超えると、アラートがトリガーされます。

      プロセス実行タイプ

      ワークフローのインスタンスを実行するモード。有効な値:

      • 並列: 同じワークフローによって複数のワークフローインスタンスが生成された場合、ワークフローインスタンスは同時に実行されます。

      • シリアル待機: 同じワークフローによって複数のワークフローインスタンスが生成された場合、ワークフローインスタンスは順番に実行されます。

      グローバル変数

      グローバル変数は、ワークフローのすべてのノードで有効です。

ワークフローに対する操作

操作

説明

image..png (編集)

オフライン状態のワークフローのみ編集できます。

image..png (開始)

オンライン状態のワークフローのみ開始できます。ただし、オンライン状態のワークフローは編集できません。詳細については、このトピックの「ワークフローの実行」セクションをご参照ください。

image..png (タイミング)

オンライン状態のワークフローに対してのみスケジューリング設定を構成できます。システムは、スケジューリング設定に基づいてワークフローを自動的にスケジュールします。ワークフローのスケジューリング設定を構成した後、スケジュールされたワークフローは オフライン状態になります。スケジュールされたワークフローを有効にするには、[Cron管理] ページでスケジュールされたワークフローの状態をオンラインに変更する必要があります。詳細については、このトピックの「スケジュールされたワークフローの構成」セクションをご参照ください。

image..png (オンライン)

ワークフローが オフライン状態の場合、ワークフローの状態をオンラインに変更できます。

image..png (オフライン)

ワークフローが オンライン状態の場合、ワークフローの状態をオフラインに変更できます。オフライン状態のワークフローは編集できますが、開始することはできません。

image..png (ワークフローのコピー)

既存のワークフローをコピーして新しいワークフローを生成できます。

image..png (Cron管理)

スケジュールされたワークフローの [cron管理] ページで、スケジュールされたワークフローを編集または削除したり、スケジュールされたワークフローの状態をオフラインまたはオンラインに変更したりできます。

image..png (削除)

ワークフローを削除できます。ワークフローを削除する前に、ワークフローの状態をオフラインに変更する必要があります。プロジェクトでは、自分が作成したワークフローのみ削除でき、他のユーザーが作成したワークフローは削除できません。

image..png (ツリービュー)

ワークフローのノードのタイプと状態をツリー構造で表示できます。

image..png (エクスポート)

ワークフローをコンピューターにエクスポートできます。エクスポートされたワークフローは JSON ファイルです。

image..png (バージョン情報)

ワークフローのバージョン情報を表示できます。

ワークフローを実行する

ワークフローが実行されるたびに、ワークフローインスタンスが生成され、[ワークフローインスタンス] ページに表示されます。

  1. [ワークフロー定義] ページで、実行するワークフローを見つけ、[操作] 列の image..png アイコンをクリックします。

  2. [操作] 列の image..png アイコンをクリックします。

  3. 表示されたダイアログボックスで、次の表に示すパラメーターを設定し、[確認] をクリックします。

    パラメーター

    説明

    失敗時の戦略

    ワークフロー内のノードが失敗した場合に、他の同時実行ノードを実行するために使用されるポリシー。

    • 続行: ノードが失敗した場合、他のノードは想定どおりに実行されます。

    • 終了: ノードが失敗した場合、そのノードの下流ノードは終了します。

    通知戦略

    ワークフローの終了時に、ワークフローの実行情報に関する通知をシステムが送信する基準となるワークフローの状態。有効な値: なし成功失敗すべて

    ワークフローの優先度

    ワークフロー内のノードの優先度。デフォルト値: 中。有効な値:

    • 最高

    • 最低

    実行クラスター

    ワークフローを実行するために使用されるクラスター。[セキュリティ] タブの [クラスター管理] ページで関連付けられているクラスターをドロップダウンリストから選択できます。

    アラームグループ

    アラートグループ。[セキュリティ] タブの [アラームグループ管理] ページで作成されたアラートグループをドロップダウンリストから選択できます。

    補完データ

    指定された期間内にワークフローが実行されたときに、データのバックフィル設定に基づいて遡及データを生成するかどうかを指定します。

    [補完プロセスですか?] を選択した場合は、次のパラメーターを設定する必要があります。

    • 依存モード: 現在のワークフローに依存するワークフローの遡及データを生成するかどうかを指定します。有効な値: 閉じる および 開く。デフォルト値: 閉じる。

      現在のワークフローがオンライン状態であり、現在のワークフローに対してスケジュール設定が構成されている場合にのみ、現在のワークフローに依存するワークフローの遡及データが生成されます。

    • 実行モード

      • 遡及データが生成されるモード。有効な値: 順次実行: システムは、指定された期間に含まれる各日の遡及データを時系列で生成し、複数のワークフローインスタンスが順番に生成されます。

      • 並列実行: システムは、指定された期間に含まれる複数日の遡及データを同時に生成し、複数のワークフローインスタンスが同時に生成されます。

        このモードでは、[カスタム並列度] パラメーターを設定して、システムが同時に遡及データを生成するワークフローインスタンスの最大数を指定する必要があります。

        説明

        ワークフローの作成時に、ワークフローがノードを実行するモードとして 並列 を指定した場合は、[並列実行] を選択する必要があります。ワークフローの作成時に、ワークフローがノードを実行するモードとして 順次待機 を指定した場合は、[順次実行] を選択する必要があります。

    • スケジュール日付: ワークフローが実行される期間。

    起動パラメーター

    起動パラメーターとその値。この値は、新しいワークフローインスタンスが開始されたときにグローバル変数を定義したり、グローバル変数の既存の値を上書きしたりするために使用されます。

    ドライランの実行

    ワークフローのドライランを実行するかどうかを指定します。ワークフローのドライランを実行すると、成功ログが記録されます。

  4. プロジェクトの詳細ページで、左側のナビゲーションペインの [ワークフロー] > [ワークフローインスタンス] を選択して、ワークフローインスタンスの状態を表示します。

ワークフローのインポート

  1. [プロジェクトの詳細] ページの [ワークフロー定義] ページで、[ワークフローのインポート] をクリックします。

  2. [アップロード] ダイアログボックスで、[アップロード] をクリックします。コンピューターにエクスポートされたワークフローを選択します。エクスポートされたワークフローは JSON ファイルです。

  3. [確認] をクリックします。

スケジュールされたワークフローの構成

  1. [ワークフロー定義] ページで、管理するワークフローを見つけ、[操作] 列の image..png アイコンをクリックします。

  2. 表示されるダイアログボックスで、[開始時刻と停止時刻][タイミング][実行クラスター] パラメーターを設定し、[確認] をクリックします。

    • 開始時刻と停止時刻: ワークフローの実行がスケジュールされている時間範囲。指定された時間範囲内でワークフローが実行されない場合、スケジュールされたワークフローインスタンスは生成されません。

    • タイミング: ワークフローの実行がスケジュールされている間隔。

  3. スケジュールされたワークフローの状態をオンラインに変更します。

    ワークフローのスケジューリング設定を構成した後、スケジュールされたワークフローはオフライン状態になります。スケジュールされたワークフローを有効にするには、次の操作を実行して、スケジュールされたワークフローの状態をオンラインに変更する必要があります。

    1. [ワークフロー定義] ページで、ワークフローを見つけ、[操作] 列の image..png アイコンをクリックします。

    2. [cron管理] ページで、スケジュールされたワークフローを見つけ、[操作] 列の image..png アイコンをクリックします。