このトピックでは、ワークフローを作成および管理する方法について説明します。
前提条件
プロジェクトが作成されていること。詳細については、「プロジェクトの作成」をご参照ください。
ワークフローの作成
[プロジェクト] タブに移動します。
E-MapReduce (EMR) コンソール にログオンします。
左側のナビゲーションペインで、[EMR Studio] > [ワークフロー] を選択します。
[プロジェクト] タブをクリックします。
[プロジェクト] タブで、既存のプロジェクトの名前をクリックします。
プロジェクトの詳細ページで、左側のナビゲーションペインの [ワークフロー] > [ワークフロー定義] を選択します。
[ワークフロー定義] ページで、[ワークフローの作成] をクリックします。
[ワークフローの作成] ページで、[HIVECLI] をキャンバスにドラッグします。 [現在のノード設定] ダイアログボックスで、パラメーターを設定し、[確認] をクリックします。
この例では、[HIVECLI] ノードが作成されます。詳細については、「HIVECLI」をご参照ください。その他のノードタイプの詳細については、「ノードタイプ」をご参照ください。
オプション。ノード間の依存関係を設定します。
EMR ワークフローでは、ワークフロー間のカスタムノードの依存関係を設定できます。
ノードの右側にある
アイコンにポインターを移動し、接続線をドラッグしてノードを別のノードに接続します。接続線またはノードをクリックし、キャンバスの右上隅にある
アイコンをクリックして、ノードの依存関係またはノードを削除します。
ワークフローを保存します。
キャンバスの右上隅にある [保存] をクリックします。
[基本情報] ダイアログボックスで、次の表に記載されているパラメーターを設定し、[確認] をクリックします。
パラメーター
説明
ワークフロー名
ワークフローの名前。
説明
ワークフローの機能説明。
タイムアウトアラート
既定では、タイムアウトアラートはオフになっています。[タイムアウトアラート] をオンにする場合は、[タイムアウト期間] を指定する必要があります。ノードの実行時間が [タイムアウト期間] を超えると、アラートがトリガーされます。
プロセス実行タイプ
ワークフローのインスタンスを実行するモード。有効な値:
並列: 同じワークフローによって複数のワークフローインスタンスが生成された場合、ワークフローインスタンスは同時に実行されます。
シリアル待機: 同じワークフローによって複数のワークフローインスタンスが生成された場合、ワークフローインスタンスは順番に実行されます。
グローバル変数
グローバル変数は、ワークフローのすべてのノードで有効です。
ワークフローに対する操作
操作 | 説明 |
| オフライン状態のワークフローのみ編集できます。 |
| オンライン状態のワークフローのみ開始できます。ただし、オンライン状態のワークフローは編集できません。詳細については、このトピックの「ワークフローの実行」セクションをご参照ください。 |
| オンライン状態のワークフローに対してのみスケジューリング設定を構成できます。システムは、スケジューリング設定に基づいてワークフローを自動的にスケジュールします。ワークフローのスケジューリング設定を構成した後、スケジュールされたワークフローは オフライン状態になります。スケジュールされたワークフローを有効にするには、[Cron管理] ページでスケジュールされたワークフローの状態をオンラインに変更する必要があります。詳細については、このトピックの「スケジュールされたワークフローの構成」セクションをご参照ください。 |
| ワークフローが オフライン状態の場合、ワークフローの状態をオンラインに変更できます。 |
| ワークフローが オンライン状態の場合、ワークフローの状態をオフラインに変更できます。オフライン状態のワークフローは編集できますが、開始することはできません。 |
| 既存のワークフローをコピーして新しいワークフローを生成できます。 |
| スケジュールされたワークフローの [cron管理] ページで、スケジュールされたワークフローを編集または削除したり、スケジュールされたワークフローの状態をオフラインまたはオンラインに変更したりできます。 |
| ワークフローを削除できます。ワークフローを削除する前に、ワークフローの状態をオフラインに変更する必要があります。プロジェクトでは、自分が作成したワークフローのみ削除でき、他のユーザーが作成したワークフローは削除できません。 |
| ワークフローのノードのタイプと状態をツリー構造で表示できます。 |
| ワークフローをコンピューターにエクスポートできます。エクスポートされたワークフローは JSON ファイルです。 |
| ワークフローのバージョン情報を表示できます。 |
ワークフローを実行する
ワークフローが実行されるたびに、ワークフローインスタンスが生成され、[ワークフローインスタンス] ページに表示されます。
[ワークフロー定義] ページで、実行するワークフローを見つけ、[操作] 列の
アイコンをクリックします。[操作] 列の
アイコンをクリックします。表示されたダイアログボックスで、次の表に示すパラメーターを設定し、[確認] をクリックします。
パラメーター
説明
失敗時の戦略
ワークフロー内のノードが失敗した場合に、他の同時実行ノードを実行するために使用されるポリシー。
続行: ノードが失敗した場合、他のノードは想定どおりに実行されます。
終了: ノードが失敗した場合、そのノードの下流ノードは終了します。
通知戦略
ワークフローの終了時に、ワークフローの実行情報に関する通知をシステムが送信する基準となるワークフローの状態。有効な値: なし、成功、失敗、すべて。
ワークフローの優先度
ワークフロー内のノードの優先度。デフォルト値: 中。有効な値:
最高
高
中
低
最低
実行クラスター
ワークフローを実行するために使用されるクラスター。[セキュリティ] タブの [クラスター管理] ページで関連付けられているクラスターをドロップダウンリストから選択できます。
アラームグループ
アラートグループ。[セキュリティ] タブの [アラームグループ管理] ページで作成されたアラートグループをドロップダウンリストから選択できます。
補完データ
指定された期間内にワークフローが実行されたときに、データのバックフィル設定に基づいて遡及データを生成するかどうかを指定します。
[補完プロセスですか?] を選択した場合は、次のパラメーターを設定する必要があります。
依存モード: 現在のワークフローに依存するワークフローの遡及データを生成するかどうかを指定します。有効な値: 閉じる および 開く。デフォルト値: 閉じる。
現在のワークフローがオンライン状態であり、現在のワークフローに対してスケジュール設定が構成されている場合にのみ、現在のワークフローに依存するワークフローの遡及データが生成されます。
実行モード
遡及データが生成されるモード。有効な値: 順次実行: システムは、指定された期間に含まれる各日の遡及データを時系列で生成し、複数のワークフローインスタンスが順番に生成されます。
並列実行: システムは、指定された期間に含まれる複数日の遡及データを同時に生成し、複数のワークフローインスタンスが同時に生成されます。
このモードでは、[カスタム並列度] パラメーターを設定して、システムが同時に遡及データを生成するワークフローインスタンスの最大数を指定する必要があります。
説明ワークフローの作成時に、ワークフローがノードを実行するモードとして 並列 を指定した場合は、[並列実行] を選択する必要があります。ワークフローの作成時に、ワークフローがノードを実行するモードとして 順次待機 を指定した場合は、[順次実行] を選択する必要があります。
スケジュール日付: ワークフローが実行される期間。
起動パラメーター
起動パラメーターとその値。この値は、新しいワークフローインスタンスが開始されたときにグローバル変数を定義したり、グローバル変数の既存の値を上書きしたりするために使用されます。
ドライランの実行
ワークフローのドライランを実行するかどうかを指定します。ワークフローのドライランを実行すると、成功ログが記録されます。
プロジェクトの詳細ページで、左側のナビゲーションペインの [ワークフロー] > [ワークフローインスタンス] を選択して、ワークフローインスタンスの状態を表示します。
ワークフローのインポート
[プロジェクトの詳細] ページの [ワークフロー定義] ページで、[ワークフローのインポート] をクリックします。
[アップロード] ダイアログボックスで、[アップロード] をクリックします。コンピューターにエクスポートされたワークフローを選択します。エクスポートされたワークフローは JSON ファイルです。
[確認] をクリックします。
スケジュールされたワークフローの構成
[ワークフロー定義] ページで、管理するワークフローを見つけ、[操作] 列の
アイコンをクリックします。表示されるダイアログボックスで、[開始時刻と停止時刻]、[タイミング]、[実行クラスター] パラメーターを設定し、[確認] をクリックします。
開始時刻と停止時刻: ワークフローの実行がスケジュールされている時間範囲。指定された時間範囲内でワークフローが実行されない場合、スケジュールされたワークフローインスタンスは生成されません。
タイミング: ワークフローの実行がスケジュールされている間隔。
スケジュールされたワークフローの状態をオンラインに変更します。
ワークフローのスケジューリング設定を構成した後、スケジュールされたワークフローはオフライン状態になります。スケジュールされたワークフローを有効にするには、次の操作を実行して、スケジュールされたワークフローの状態をオンラインに変更する必要があります。
[ワークフロー定義] ページで、ワークフローを見つけ、[操作] 列の
アイコンをクリックします。[cron管理] ページで、スケジュールされたワークフローを見つけ、[操作] 列の
アイコンをクリックします。