DataWorks DataStudioでは、Cloudera's Distribution Including Apache Hadoop(CDH)MapReduce(MR)ノードを作成して、超大規模データセットのデータを処理できます。このトピックでは、DataWorksでCDH MRノードを作成および使用する方法について説明します。
前提条件
DataStudioでワークフローが作成されていること。
DataStudioでは、さまざまなタイプのコンピューティングエンジンでの開発操作は、ワークフローに基づいて実行されます。そのため、ノードを作成する前に、ワークフローを作成する必要があります。詳細については、「ワークフローの作成」をご参照ください。
Alibaba Cloud CDHクラスターが作成され、DataWorksに登録されていること。
CDHノードを作成し、DataWorksでCDHノードを使用してCDHタスクを開発する前に、CDHクラスターをDataWorksワークスペースに登録する必要があります。詳細については、「CDHまたはCDPクラスターのDataWorksへの登録」をご参照ください。
(RAMユーザーを使用してタスクを開発する場合に必要)RAMユーザーがDataWorksワークスペースにメンバーとして追加され、[開発] ロールまたは [ワークスペース管理者] ロールが割り当てられていること。ワークスペース管理者ロールには、必要以上の権限があります。ワークスペース管理者ロールを割り当てる場合は注意してください。メンバーの追加方法の詳細については、「ワークスペースメンバーの追加とロールの割り当て」をご参照ください。
サーバーレスリソースグループが購入され、構成されていること。構成には、ワークスペースとの関連付けとネットワーク構成が含まれます。詳細については、「サーバーレスリソースグループの作成と使用」をご参照ください。
制限事項
このタイプのノードのタスクは、スケジューリングのためにサーバーレスリソースグループまたは旧バージョンの専用リソースグループで実行できます。タスクはサーバーレスリソースグループで実行することをお勧めします。
ステップ 1:CDH MRノードの作成
DataStudioページに移動します。
DataWorksコンソール にログインします。トップナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションペインで、 を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発に移動] をクリックします。
DataStudioページで、目的のワークフローを見つけ、ワークフロー名を右クリックして、 を選択します。
[ノードの作成] ダイアログボックスで、エンジンインスタンス、パス、および名前パラメーターを構成します。
[確認] をクリックします。作成したノードを使用して、タスクを開発および構成できます。
ステップ 2:CDH JARリソースの作成と参照
DataWorksでは、リソースを参照する前に、オンプレミスマシンからDataStudioにリソースをアップロードできます。次の操作を実行して、CDH JARリソースを作成および参照します。
CDH JARリソースを作成します。
目的のワークフローを見つけ、[CDH] をクリックします。[リソース] を右クリックし、 を選択します。[リソースの作成] ダイアログボックスで、[アップロード] をクリックして必要なファイルをアップロードします。

CDH JARリソースを参照します。
作成した [CDH MR] ノードの構成タブに移動します。
[CDH] フォルダーの [リソース] の下にある参照するリソースを見つけ、リソース名を右クリックして、[リソースパスの挿入] を選択します。この例では、
onaliyun_mr_wordcount-1.0-SNAPSHOT.jarという名前のリソースが使用されています。
ノードの構成タブに
##@resource_reference{""}形式の句が表示されている場合、リソースは正常に参照されています。次に、次のコードを実行します。次のコードのリソースパッケージ名、バケット名、ディレクトリなどの情報は、実際の情報に置き換える必要があります。##@resource_reference{"onaliyun_mr_wordcount-1.0-SNAPSHOT.jar"} onaliyun_mr_wordcount-1.0-SNAPSHOT.jar cn.apache.hadoop.onaliyun.examples.EmrWordCount oss://onaliyun-bucket-2/cdh/datas/wordcount02/inputs oss://onaliyun-bucket-2/cdh/datas/wordcount02/outputs説明CDH MRノードのコードを書くときは、コメントを追加しないでください。
ステップ 3:タスクスケジューリングプロパティの構成
システムでノードのタスクを定期的に実行する場合、ノードの構成タブの右側のナビゲーションペインにある [プロパティ] をクリックして、ビジネス要件に基づいてタスクスケジューリングプロパティを構成できます。
タスクの基本プロパティを構成します。詳細については、「基本プロパティの構成」をご参照ください。
スケジューリングサイクル、再実行プロパティ、およびスケジューリングの依存関係を構成します。詳細については、「時間プロパティの構成」および「同一サイクルのスケジューリング依存関係の構成」をご参照ください。
説明タスクをコミットする前に、[プロパティ] タブで [再実行] パラメーターと [親ノード] パラメーターを構成する必要があります。
ノードのリソースプロパティを構成します。詳細については、「リソースプロパティの構成」をご参照ください。作成したノードが自動トリガーノードで、ノードがインターネットまたは仮想プライベートクラウド(VPC)にアクセスする必要がある場合は、ノードに接続されているスケジューリング用のリソースグループを選択する必要があります。詳細については、「ネットワーク接続ソリューション」をご参照ください。
ステップ 4:タスクコードのデバッグ
オプション。リソースグループを選択し、カスタムパラメーターを変数に割り当てます。
ノードの構成タブのトップツールバーにある
アイコンをクリックします。[パラメーター] ダイアログボックスで、タスクコードのデバッグと実行に使用するリソースグループを選択します。タスクコードでスケジューリングパラメーターを使用する場合は、デバッグのために、スケジューリングパラメーターを変数に値としてタスクコードに割り当てます。スケジューリングパラメーターの値割り当てロジックの詳細については、「実行、パラメーター付き実行、開発環境でのスモークテスト実行モードにおけるスケジューリングパラメーターの値割り当てロジックの違いは何ですか?」をご参照ください。
SQLステートメントを保存して実行します。
トップツールバーで、
アイコンをクリックしてSQLステートメントを保存します。次に、
アイコンをクリックしてSQLステートメントを実行します。オプション。スモークテストを実行します。
タスクをコミットするとき、またはタスクをコミットした後に、開発環境でタスクのスモークテストを実行できます。詳細については、「スモークテストを実行する」をご参照ください。
次のステップ
タスクをコミットしてデプロイします。
トップツールバーの
アイコンをクリックして、タスクを保存します。トップツールバーの
アイコンをクリックして、タスクをコミットします。[送信] ダイアログボックスで、[変更の説明] パラメーターを構成します。
[確認] をクリックします。
標準モードのワークスペースを使用する場合は、タスクをコミットした後に、本番環境にタスクをデプロイする必要があります。ノードにタスクをデプロイするには、DataStudioページのトップナビゲーションバーにある [デプロイ] をクリックします。詳細については、「タスクのデプロイ」をご参照ください。
タスクを表示します。
対応するノードの構成タブの右上隅にある [オペレーションセンター] をクリックして、本番環境のオペレーションセンターに移動します。
スケジュールされたタスクを表示します。詳細については、「自動トリガータスクの表示と管理」をご参照ください。
タスクの詳細を表示するには、DataStudioページのトップナビゲーションバーにある [オペレーションセンター] をクリックします。詳細については、「オペレーションセンター」をご参照ください。