DataWorks では、Cloudera Distribution of Apache Hadoop (CDH) MapReduce (MR) ノードを作成して、大規模なデータセットを処理できます。このトピックでは、DataWorks で CDH MR ノードを設定して使用する方法について説明します。
前提条件
Alibaba Cloud CDH クラスターが作成され、DataWorks ワークスペースにアタッチされています。 詳細については、「データ開発 (新規): CDH 計算リソースをアタッチする」をご参照ください。
(オプション) RAM ユーザーを使用する場合、タスク開発のために対応するワークスペースにユーザーを追加し、[開発者] または [ワークスペース管理者] ロールを付与する必要があります。[ワークスペース管理者] ロールには広範な権限があるため、慎重に付与する必要があります。メンバーの追加に関する詳細については、「ワークスペースにメンバーを追加する」をご参照ください。
説明Alibaba Cloud アカウントを使用している場合は、このステップをスキップできます。
Hive データソースが DataWorks で設定され、接続性テストに合格しています。 詳細については、「データソース管理」をご参照ください。
CDH JAR リソースの作成
タスク JAR パッケージを DataWorks にアップロードできます。その後、CDH MR タスクを使用してパッケージを定期的にスケジュールできます。
詳細については、「Resource Management」をご参照ください。ローカルコンピューターからリソースストレージフォルダーに JAR パッケージをアップロードするには、[アップロード] ボタンをクリックします。
[ストレージパス]、[データソース]、および [リソースグループ] を選択します。
[保存] ボタンをクリックします。
ノードの作成
詳細については、「ノードの作成」をご参照ください。
ノードの開発
CDH MR ノードの編集ページで、次のステップを実行します。
作成した [CDH MR] ノードを開きます。コードエディタページが開きます。
左側のナビゲーションウィンドウの Resource Management ペインで、参照するリソースを見つけます。リソースを右クリックし、[リソースの参照] を選択します。
リソースを参照すると、
##@resource_reference{""}フォーマットの文がコードエディタページに表示されます。これは、リソースが参照されていることを示します。次に、次のコマンドを実行します。コマンド内のリソースパッケージ、バケット名、およびパスは例です。実際の情報に置き換える必要があります。
##@resource_reference{"onaliyun_mr_wordcount-1.0-SNAPSHOT.jar"}
onaliyun_mr_wordcount-1.0-SNAPSHOT.jar cn.apache.hadoop.onaliyun.examples.EmrWordCount oss://onaliyun-bucket-2/cdh/datas/wordcount02/inputs oss://onaliyun-bucket-2/cdh/datas/wordcount02/outputsノードのデバッグ
[デバッグ設定] ダイアログボックスで、[計算リソース] セクションに移動し、[計算リソース] および [リソースグループ] パラメーターを設定します。
計算リソースには、DataWorks に登録した CDH クラスターの名前を選択します。
リソースグループには、データソースとの接続性テストに合格したスケジューリングリソースグループを選択します。詳細については、「ネットワーク接続ソリューション」をご参照ください。
ノード編集ページの上部にあるツールバーで [実行] をクリックします。
次のステップ
ノードのスケジュール: プロジェクトフォルダー内のノードを定期的に実行する必要がある場合は、ノードページの右側にある [スケジューリング設定] セクションで [スケジューリングポリシー] を設定し、スケジューリングプロパティを設定できます。
ノードの公開: タスクを本番環境で実行する必要がある場合は、
アイコンをクリックしてタスクを公開します。プロジェクトフォルダー内のノードは、本番環境に公開された後にのみスケジュールに従って実行されます。タスク O&M: タスクを公開した後、オペレーションセンターで定期タスクのステータスを表示できます。詳細については、「オペレーションセンター入門」をご参照ください。