ドキュメントセンター

すべてのプロダクト

ドキュメントセンター

DataWorks:CDH MR ノード

最終更新日:Apr 22, 2026

DataWorks では、CDH MR (MapReduce) ノードを作成して、大規模なデータセットを処理できます。このトピックでは、DataWorks で CDH MR ノードを設定および使用する方法について説明します。

前提条件

Alibaba Cloud CDH クラスターを作成し、DataWorks ワークスペースに関連付けていること。詳細については、「新規データ開発：CDH コンピューティングエンジンのバインド」をご参照ください。
(任意、RAM ユーザーの場合) タスク開発用の RAM ユーザーが、対応するワークスペースに追加され、Development または スペース管理者 ロールが付与されている必要があります。ワークスペース管理者ロールは広範な権限を持っているため、慎重に付与してください。メンバーの追加の詳細については、「ワークスペースにメンバーを追加する」をご参照ください。

説明
Alibaba Cloud アカウント (root ユーザー) を使用している場合は、このステップをスキップできます。
DataWorks で Hive データソースを設定し、そのデータソースが接続性テストに合格したことを確認済みであること。詳細については、「データソースの管理」をご参照ください。

CDH JAR リソースの作成

タスクの JAR パッケージを DataWorks にアップロードし、CDH Spark タスクとして定期的に実行するようにスケジュールできます。

詳細については、「リソース管理」をご参照ください。ローカルマシンから JAR リソースのストレージディレクトリに JAR パッケージをアップロードできます。 [アップロード] をクリックして JAR リソースをアップロードします。
ストレージパス、データソース、リソースグループを選択します。
Save をクリックします。

ノードの作成

手順については、「ノードの作成」をご参照ください。

ノードの開発

CDH MR ノードのエディターページで、次の手順を実行します。

作成した [CDH MR] ノードを開き、コード編集ページを表示したままにします。
左側のナビゲーションウィンドウで、[Resource Management] の下にある参照したいリソースを見つけ、右クリックして [リソースの参照] を選択します。
リソースが参照された後、CDH ノードのコード編集ページに ##@resource_reference{""} 形式の文が表示された場合、リソースの参照は成功です。次に、以下のコマンドを実行してタスクを実行します。コマンド内のリソースパッケージ、バケット名、パス情報は一例です。実際の情報に置き換えてください。

##@resource_reference{"onaliyun_mr_wordcount-1.0-SNAPSHOT.jar"}
onaliyun_mr_wordcount-1.0-SNAPSHOT.jar cn.apache.hadoop.onaliyun.examples.EmrWordCount oss://onaliyun-bucket-2/cdh/datas/wordcount02/inputs oss://onaliyun-bucket-2/cdh/datas/wordcount02/outputs

ノードのデバッグ

[実行設定] の [計算リソース] セクションで、計算リソースとリソースグループを設定します。
1. [計算リソース] には、DataWorks に登録した CDH クラスターを選択します。
2. [リソースグループ] には、データソースとの接続性テストに合格したスケジューリングリソースグループを選択します。詳細については、「ネットワーク接続ソリューション」をご参照ください。
ノードエディター上部のツールバーで、[実行] をクリックします。

次のステップ

ノードのスケジューリング設定：ノードを定期的に実行する必要がある場合は、右側の Scheduling Settings パネルで Scheduling Policy を設定します。
ノードの公開：タスクを本番環境で実行するには、アイコンをクリックしてノードを公開します。ノードは、本番環境に公開された後にのみ、スケジュールに従って実行されます。
タスクの O&M：タスクが公開された後、オペレーションセンターで定期的な実行のステータスをモニターできます。詳細については、「オペレーションセンター入門」をご参照ください。