すべてのプロダクト
Search
ドキュメントセンター

DataWorks:CDH MRノードの作成

最終更新日:Jun 10, 2025

DataWorks DataStudioでは、Cloudera's Distribution Including Apache Hadoop(CDH)MapReduce(MR)ノードを作成して、超大規模データセットのデータを処理できます。このトピックでは、DataWorksでCDH MRノードを作成および使用する方法について説明します。

前提条件

  • DataStudioでワークフローが作成されていること。

    DataStudioでは、さまざまなタイプのコンピューティングエンジンでの開発操作は、ワークフローに基づいて実行されます。そのため、ノードを作成する前に、ワークフローを作成する必要があります。詳細については、「ワークフローの作成」をご参照ください。

  • Alibaba Cloud CDHクラスターが作成され、DataWorksに登録されていること。

    CDHノードを作成し、DataWorksでCDHノードを使用してCDHタスクを開発する前に、CDHクラスターをDataWorksワークスペースに登録する必要があります。詳細については、「CDHまたはCDPクラスターのDataWorksへの登録」をご参照ください。

  • (RAMユーザーを使用してタスクを開発する場合に必要)RAMユーザーがDataWorksワークスペースにメンバーとして追加され、[開発] ロールまたは [ワークスペース管理者] ロールが割り当てられていること。ワークスペース管理者ロールには、必要以上の権限があります。ワークスペース管理者ロールを割り当てる場合は注意してください。メンバーの追加方法の詳細については、「ワークスペースメンバーの追加とロールの割り当て」をご参照ください。

  • サーバーレスリソースグループが購入され、構成されていること。構成には、ワークスペースとの関連付けとネットワーク構成が含まれます。詳細については、「サーバーレスリソースグループの作成と使用」をご参照ください。

制限事項

このタイプのノードのタスクは、スケジューリングのためにサーバーレスリソースグループまたは旧バージョンの専用リソースグループで実行できます。タスクはサーバーレスリソースグループで実行することをお勧めします。

ステップ 1:CDH MRノードの作成

  1. DataStudioページに移動します。

    DataWorksコンソール にログインします。トップナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションペインで、[データ開発とガバナンス] > [データ開発] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発に移動] をクリックします。

  2. DataStudioページで、目的のワークフローを見つけ、ワークフロー名を右クリックして、[ノードの作成] > [CDH] > [CDH MR] を選択します。

  3. [ノードの作成] ダイアログボックスで、エンジンインスタンス、パス、および名前パラメーターを構成します。

  4. [確認] をクリックします。作成したノードを使用して、タスクを開発および構成できます。

ステップ 2:CDH JARリソースの作成と参照

DataWorksでは、リソースを参照する前に、オンプレミスマシンからDataStudioにリソースをアップロードできます。次の操作を実行して、CDH JARリソースを作成および参照します。

  1. CDH JARリソースを作成します。

    目的のワークフローを見つけ、[CDH] をクリックします。[リソース] を右クリックし、[リソースの作成] > [CDH JAR] を選択します。[リソースの作成] ダイアログボックスで、[アップロード] をクリックして必要なファイルをアップロードします。

    image.png

  2. CDH JARリソースを参照します。

    1. 作成した [CDH MR] ノードの構成タブに移動します。

    2. [CDH] フォルダーの [リソース] の下にある参照するリソースを見つけ、リソース名を右クリックして、[リソースパスの挿入] を選択します。この例では、onaliyun_mr_wordcount-1.0-SNAPSHOT.jar という名前のリソースが使用されています。

      image.png

      ノードの構成タブに ##@resource_reference{""} 形式の句が表示されている場合、リソースは正常に参照されています。次に、次のコードを実行します。次のコードのリソースパッケージ名、バケット名、ディレクトリなどの情報は、実際の情報に置き換える必要があります。

      ##@resource_reference{"onaliyun_mr_wordcount-1.0-SNAPSHOT.jar"}
      onaliyun_mr_wordcount-1.0-SNAPSHOT.jar cn.apache.hadoop.onaliyun.examples.EmrWordCount oss://onaliyun-bucket-2/cdh/datas/wordcount02/inputs oss://onaliyun-bucket-2/cdh/datas/wordcount02/outputs
      説明

      CDH MRノードのコードを書くときは、コメントを追加しないでください。

ステップ 3:タスクスケジューリングプロパティの構成

システムでノードのタスクを定期的に実行する場合、ノードの構成タブの右側のナビゲーションペインにある [プロパティ] をクリックして、ビジネス要件に基づいてタスクスケジューリングプロパティを構成できます。

  • タスクの基本プロパティを構成します。詳細については、「基本プロパティの構成」をご参照ください。

  • スケジューリングサイクル、再実行プロパティ、およびスケジューリングの依存関係を構成します。詳細については、「時間プロパティの構成」および「同一サイクルのスケジューリング依存関係の構成」をご参照ください。

    説明

    タスクをコミットする前に、[プロパティ] タブで [再実行] パラメーターと [親ノード] パラメーターを構成する必要があります。

  • ノードのリソースプロパティを構成します。詳細については、「リソースプロパティの構成」をご参照ください。作成したノードが自動トリガーノードで、ノードがインターネットまたは仮想プライベートクラウド(VPC)にアクセスする必要がある場合は、ノードに接続されているスケジューリング用のリソースグループを選択する必要があります。詳細については、「ネットワーク接続ソリューション」をご参照ください。

ステップ 4:タスクコードのデバッグ

  1. オプション。リソースグループを選択し、カスタムパラメーターを変数に割り当てます。

  2. SQLステートメントを保存して実行します。

    トップツールバーで、保存 アイコンをクリックしてSQLステートメントを保存します。次に、运行 アイコンをクリックしてSQLステートメントを実行します。

  3. オプション。スモークテストを実行します。

    タスクをコミットするとき、またはタスクをコミットした後に、開発環境でタスクのスモークテストを実行できます。詳細については、「スモークテストを実行する」をご参照ください。

次のステップ

  1. タスクをコミットしてデプロイします。

    1. トップツールバーの 保存 アイコンをクリックして、タスクを保存します。

    2. トップツールバーの 提交 アイコンをクリックして、タスクをコミットします。

    3. [送信] ダイアログボックスで、[変更の説明] パラメーターを構成します。

    4. [確認] をクリックします。

    標準モードのワークスペースを使用する場合は、タスクをコミットした後に、本番環境にタスクをデプロイする必要があります。ノードにタスクをデプロイするには、DataStudioページのトップナビゲーションバーにある [デプロイ] をクリックします。詳細については、「タスクのデプロイ」をご参照ください。

  2. タスクを表示します。

    1. 対応するノードの構成タブの右上隅にある [オペレーションセンター] をクリックして、本番環境のオペレーションセンターに移動します。

    2. スケジュールされたタスクを表示します。詳細については、「自動トリガータスクの表示と管理」をご参照ください。

    タスクの詳細を表示するには、DataStudioページのトップナビゲーションバーにある [オペレーションセンター] をクリックします。詳細については、「オペレーションセンター」をご参照ください。