DataWorks のタスク開発において、大規模データセットを処理するための CDH MR(MapReduce)ノードを作成できます。本トピックでは、DataWorks における CDH MR ノードの設定方法と使用方法について説明します。
前提条件
Alibaba Cloud CDH クラスターを作成し、DataWorks ワークスペースにバインド済みである必要があります。詳細については、「Data Studio:CDH 計算リソースの関連付け」をご参照ください。
(任意)RAM ユーザーを使用している場合は、当該ユーザーをワークスペースに追加し、Developer または Workspace Administrator ロールを付与する必要があります。Workspace Administrator ロールは広範な権限を持つため、付与には十分な注意が必要です。ワークスペースへのメンバー追加方法については、「ワークスペースへのメンバー追加」をご参照ください。
説明ルートアカウントを使用している場合は、この手順をスキップできます。
DataWorks で Hive データソースを構成し、接続性テストを通過済みである必要があります。詳細については、「データソース管理」をご参照ください。
CDH JAR リソースの作成
JAR パッケージを DataWorks にアップロードし、CDH MR ノードで定期実行をスケジュールできます。
リソース管理から、ローカルマシン上の JAR パッケージをアップロードします。クリックしてアップロード をクリックしてリソースを追加します。
保存先パス、データソース、および リソースグループ を指定します。
保存 をクリックします。
ノードの作成
手順については、「ノードの作成」をご参照ください。
ノードの開発
CDH MR ノードエディターでは:
作成した CDH MR ノードを開きます。コードエディターが起動します。
左側の [リソース管理] パネルで、参照したいリソースを見つけます。右クリックして リソースを参照 を選択します。
リソースを参照すると、DataWorks がコードエディターに
##@resource_reference{""}形式の文を自動挿入します。その後、以下のコマンドを実行してジョブを実行できます。コマンド内のリソースパッケージ名、バケット名、パスは例示です。
##@resource_reference{"onaliyun_mr_wordcount-1.0-SNAPSHOT.jar"}
onaliyun_mr_wordcount-1.0-SNAPSHOT.jar cn.apache.hadoop.onaliyun.examples.EmrWordCount oss://onaliyun-bucket-2/cdh/datas/wordcount02/inputs oss://onaliyun-bucket-2/cdh/datas/wordcount02/outputsノードのデバッグ
Run Configuration の 計算リソース セクションで、計算リソース および リソースグループ を選択します。
計算リソースには、DataWorks に登録済みの CDH クラスターを選択します。
リソースグループには、データソースと接続済みのスケジューリング用リソースグループを選択します。ネットワーク接続ソリューション
ノードエディタータブのツールバーで、実行 をクリックします。
次のステップ
ノードのスケジュール設定:ノードを定期的に実行するには、ページ右側の 時間プロパティ および関連するスケジュール設定項目を スケジュール設定 パネルで構成します。
ノードの公開:ノードを本番環境に公開するには、
アイコンをクリックします。本番環境に公開されたノードのみがスケジュール実行されます。タスクの運用・保守(O&M):ノードを公開後、オペレーションセンターでそのスケジュール実行状況をモニターできます。詳細については、「オペレーションセンターの使い始め」をご参照ください。