すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:EMR ワークフローの使用

最終更新日:Jan 14, 2025

このトピックでは、E-MapReduce(EMR)ワークフローの使用方法について説明します。このトピックでは、HIVECLI ノードを使用します。

前提条件

  • EMR ワークフローの承認が完了していること。詳細については、「EMR ワークフローへの RAM ロールの割り当て」をご参照ください。

  • EMR on ECS ページでクラスターが作成されていること。詳細については、「クラスターの作成」をご参照ください。

    作成されたクラスターは、EMR データレイククラスター、Hadoop クラスター、またはカスタムクラスターです。

手順

ステップ 1:EMR クラスターの関連付け

  1. EMR コンソール にログオンします。

  2. 左側のナビゲーションペインで、[EMR Studio] > [ワークフロー] を選択します。

  3. 表示されたページで、[セキュリティ] タブをクリックします。

  4. [クラスター管理] ページで、[クラスターのバインド] をクリックします。

  5. [クラスターのバインド] ダイアログボックスで、[クラスタータイプ]、[クラスター ID]、および [vSwitch ID] パラメーターを設定し、[確認] をクリックします。

    [クラスター管理] ページを更新して、関連付けの進行状況を表示できます。[状態] 列に [関連付け済み] と表示されている場合、クラスターは関連付けられています。

    説明

    関連付けプロセスには約 5 ~ 10 分かかります。関連付けが完了するまで待ちます。

ステップ 2:プロジェクトの作成

  1. [プロジェクト] タブをクリックします。

  2. [プロジェクト] タブで、[プロジェクトの作成] をクリックします。

  3. [プロジェクトの作成] ダイアログボックスで、プロジェクトの名前を指定し、[確認] をクリックします。

    この例では、プロジェクト名は project_test です。

ステップ 3:ワークフローの編集

  1. [プロジェクト] タブで、project_test をクリックします。

  2. プロジェクトの詳細ページで、左側のナビゲーションペインの [ワークフロー] > [ワークフロー定義] を選択します。

  3. [ワークフロー定義] ページで、[ワークフローの作成] をクリックします。

  4. [ワークフローの作成] ページで、[HIVECLI] ノードをキャンバスにドラッグします。

    この例では、[HIVECLI] ノードを使用します。 HIVECLI の詳細については、「ノードタイプ」をご参照ください。

  5. [現在のノード設定] ダイアログボックスで、[ノード名] パラメーターと [スクリプト] パラメーターを設定し、[確認] をクリックします。

    次の表は、[ノード名] パラメーターと [スクリプト] パラメーターの設定について説明しています。その他のパラメーターにはデフォルト値を指定します。詳細については、「HIVECLI」をご参照ください。

    パラメーター

    ノード名

    hivecli

    スクリプト

    create table if not exists mytable(a string, b int);
    // テーブルを作成します。
    insert into mytable values ('abc', 1), ('def', 2);
    // データを挿入します。
    select a, sum(b) from mytable group by a;
    // データをクエリします。
  6. ワークフローを保存します。

    1. キャンバスの右上隅にある [保存] をクリックします。

    2. [基本情報] ダイアログボックスで、[ワークフロー名] パラメーターを設定し、[確認] をクリックします。

      この例では、[ワークフロー名] パラメーターは workflow_test に設定されています。

ステップ 4:ワークフローの実行

  1. [ワークフロー定義] ページで、workflow_test ワークフローを見つけ、[操作] 列の image..png アイコンをクリックします。

  2. image..png アイコンをクリックします。

  3. [開始前にパラメーターを設定してください] ダイアログボックスで、ステップ 1 で関連付けたクラスターを [実行クラスター] ドロップダウンリストから選択し、[確認] をクリックします。

ステップ 5:タスクインスタンスのログの表示

  1. プロジェクトの詳細ページで、左側のナビゲーションペインの [ワークフロー] > [ワークフローインスタンス] を選択します。

  2. プロジェクトの詳細ページで、左側のナビゲーションペインの [タスク] > [タスクインスタンス] を選択します。

  3. [タスクインスタンス] ページで、ログを表示するタスクインスタンスを見つけ、[操作] 列の image..png アイコンをクリックして、タスクの実行ログを表示します。

ステップ 6:(オプション)ワークフローの状態をオフラインに変更する

[ワークフロー定義] ページで、管理するワークフローを見つけ、[操作] 列の image..png アイコンをクリックします。

関連情報