すべてのプロダクト
Search
ドキュメントセンター

DataWorks:CDH MR ノード

最終更新日:Nov 19, 2025

DataWorks では、Cloudera Distribution of Apache Hadoop (CDH) MapReduce (MR) ノードを作成して、大規模なデータセットを処理できます。このトピックでは、DataWorks で CDH MR ノードを設定して使用する方法について説明します。

前提条件

  • Alibaba Cloud CDH クラスターが作成され、DataWorks ワークスペースにアタッチされています。 詳細については、「データ開発 (新規): CDH 計算リソースをアタッチする」をご参照ください。

  • (オプション) RAM ユーザーを使用する場合、タスク開発のために対応するワークスペースにユーザーを追加し、[開発者] または [ワークスペース管理者] ロールを付与する必要があります。[ワークスペース管理者] ロールには広範な権限があるため、慎重に付与する必要があります。メンバーの追加に関する詳細については、「ワークスペースにメンバーを追加する」をご参照ください。

    説明

    Alibaba Cloud アカウントを使用している場合は、このステップをスキップできます。

  • Hive データソースが DataWorks で設定され、接続性テストに合格しています。 詳細については、「データソース管理」をご参照ください。

CDH JAR リソースの作成

タスク JAR パッケージを DataWorks にアップロードできます。その後、CDH MR タスクを使用してパッケージを定期的にスケジュールできます。

  1. 詳細については、「Resource Management」をご参照ください。ローカルコンピューターからリソースストレージフォルダーに JAR パッケージをアップロードするには、[アップロード] ボタンをクリックします。

  2. [ストレージパス][データソース]、および [リソースグループ] を選択します。

  3. [保存] ボタンをクリックします。

ノードの作成

詳細については、「ノードの作成」をご参照ください。

ノードの開発

CDH MR ノードの編集ページで、次のステップを実行します。

  1. 作成した [CDH MR] ノードを開きます。コードエディタページが開きます。

  2. 左側のナビゲーションウィンドウの Resource Management ペインで、参照するリソースを見つけます。リソースを右クリックし、[リソースの参照] を選択します。

  3. リソースを参照すると、##@resource_reference{""} フォーマットの文がコードエディタページに表示されます。これは、リソースが参照されていることを示します。次に、次のコマンドを実行します。コマンド内のリソースパッケージ、バケット名、およびパスは例です。実際の情報に置き換える必要があります。

##@resource_reference{"onaliyun_mr_wordcount-1.0-SNAPSHOT.jar"}
onaliyun_mr_wordcount-1.0-SNAPSHOT.jar cn.apache.hadoop.onaliyun.examples.EmrWordCount oss://onaliyun-bucket-2/cdh/datas/wordcount02/inputs oss://onaliyun-bucket-2/cdh/datas/wordcount02/outputs

ノードのデバッグ

  1. [デバッグ設定] ダイアログボックスで、[計算リソース] セクションに移動し、[計算リソース] および [リソースグループ] パラメーターを設定します。

    1. 計算リソースには、DataWorks に登録した CDH クラスターの名前を選択します。

    2. リソースグループには、データソースとの接続性テストに合格したスケジューリングリソースグループを選択します。詳細については、「ネットワーク接続ソリューション」をご参照ください。

  2. ノード編集ページの上部にあるツールバーで [実行] をクリックします。

次のステップ

  • ノードのスケジュール: プロジェクトフォルダー内のノードを定期的に実行する必要がある場合は、ノードページの右側にある [スケジューリング設定] セクションで [スケジューリングポリシー] を設定し、スケジューリングプロパティを設定できます。

  • ノードの公開: タスクを本番環境で実行する必要がある場合は、image アイコンをクリックしてタスクを公開します。プロジェクトフォルダー内のノードは、本番環境に公開された後にのみスケジュールに従って実行されます。

  • タスク O&M: タスクを公開した後、オペレーションセンターで定期タスクのステータスを表示できます。詳細については、「オペレーションセンター入門」をご参照ください。