CDH Hive ノードの作成方法 - DataWorks - Alibaba Cloud ドキュメントセンター

CDH クラスターをデプロイしている場合、DataWorks の CDH Hive ノードを使用して、データクエリジョブやバッチデータ処理などの Hive タスクを実行できます。このトピックでは、CDH Hive ノードの作成方法について説明します。

前提条件

DataStudio でワークフローが作成されていること。

DataStudio では、開発タスクはワークフローにまとめられます。ノードを作成する前に、ワークフローを作成する必要があります。詳細については、「ワークフローの作成」をご参照ください。
CDH クラスターが作成され、ご利用の DataWorks ワークスペースに登録されていること。

CDH ノードとタスクを作成する前に、CDH クラスターを DataWorks ワークスペースに登録する必要があります。詳細については、「旧バージョンの DataStudio で CDH 計算リソースをバインドする」をご参照ください。
(オプション) RAM ユーザーを使用している場合、そのユーザーをワークスペースに追加し、Development または スペースマネージャー ロールを割り当てる必要があります。ワークスペース管理者ロールは広範な権限を持つため、慎重に割り当ててください。メンバーの追加に関する詳細については、「ワークスペースにメンバーを追加する」をご参照ください。
サーバーレスリソースグループが購入され、設定されていること。設定には、リソースグループのワークスペースへのバインドとネットワークのセットアップが含まれます。詳細については、「サーバーレスリソースグループの使用」をご参照ください。

制限事項

このタイプのタスクは、サーバーレスリソースグループまたは旧バージョン専用スケジューリングリソースグループで実行できます。サーバーレスリソースグループの使用を推奨します。

ステップ 1：CDH Hive ノードの作成

DataWorks コンソールにログインします。対象のリージョンで、左側のナビゲーションウィンドウから データ開発と О&М > データ開発 をクリックします。ドロップダウンリストからワークスペースを選択し、入力 データ開発 をクリックします。
ワークフローを右クリックし、Create Node > cdh > CDH Hive を選択します。

説明
または、上部にある New ボタンにカーソルを合わせ、プロンプトに従って CDH ノードを作成することもできます。
Create Node ダイアログボックスで、ノードの Name を入力し、OK をクリックします。

ステップ 2：Hive タスクの開発

作成したノードをダブルクリックして、タスク開発ページを開きます。

(オプション) CDH クラスターインスタンスの選択

ワークスペースに複数の CDH クラスターが登録されている場合は、ページの上部で適切なクラスターを選択します。クラスターが 1 つしかバインドされていない場合、このステップは不要です。許可リストで保護されているドメインにアクセスするには、専用スケジューリングリソースグループを使用する必要があります。

SQL コードの開発：簡単な例

エディターに SQL コードを入力します。例：

SHOW tables;
SELECT * FROM userinfo ;

SQL コードの開発：スケジューリングパラメーターの使用

Scheduling Parameter を使用すると、ランタイムにコードへ値を動的に渡すことができます。コード内で ${variable_name} フォーマットを使用して変数を定義し、Scheduling > Parameter で値を割り当てることができます。サポートされているフォーマットの詳細については、「スケジューリングパラメーターでサポートされているフォーマット」をご参照ください。

SELECT '${var}'; -- これはスケジューリングパラメーターの使用例です。

ステップ 3：タスクスケジューリングの設定

タスクを定期スケジュールで実行する必要がある場合は、右側のペインでSchedulingをクリックして、そのスケジューリングプロパティを設定します：

基本的なスケジューリングプロパティを設定します。詳細については、「基本プロパティの設定」をご参照ください。
スケジューリング周期、再実行プロパティ、および依存関係を設定します。詳細については、「時間プロパティの設定」および「同一サイクル内のスケジューリング依存関係の設定」をご参照ください。

説明
ノードをコミットする前に、Rerun attribute のプロパティを設定し、Parent Nodes を指定する必要があります。
リソースプロパティを設定します。詳細については、「リソースプロパティの設定」をご参照ください。タスクがパブリックインターネットまたは VPC にアクセスする必要がある場合は、必要なネットワーク接続を持つスケジューリングリソースグループを選択する必要があります。詳細については、「ネットワーク接続ソリューション」をご参照ください。

ステップ 4：コードのデバッグ

(オプション) ランタイムリソースグループを選択し、カスタムパラメーターに値を割り当てます。
- ツールバーで、アイコンをクリックします。Parameter ダイアログボックスで、デバッグに使用するリソースグループを選択します。
- タスクコードがスケジューリングパラメーターを使用している場合は、ここでデバッグ用の値を割り当てます。値の割り当てロジックの詳細については、「実行、高度な実行、開発環境のスモークテストにおける値の割り当てロジックの違い」をご参照ください。
SQL ステートメントを保存して実行します。

ツールバーでアイコンをクリックして SQL ステートメントを保存し、次にアイコンをクリックしてタスクを実行します。
(オプション) スモークテストを実行します。

開発環境でスモークテストを実行するには、コミットプロセス中またはノードのコミット後に行うことができます。詳細については、「スモークテストの実行」をご参照ください。

次のステップ

タスクをコミットしてデプロイします。
1. ツールバーでアイコンをクリックしてノードを保存します。
2. ツールバーでアイコンをクリックしてタスクをコミットします。
3. Commit Node ダイアログボックスで、Change Description を入力します。
4. Determine をクリックします。
標準モードのワークスペースでは、タスクをコミットした後、本番環境にデプロイする必要があります。上部のメニューバーで [デプロイ] をクリックします。詳細については、「タスクのデプロイ」をご参照ください。
定期タスクを表示します。
1. エディターの右上でO&M Personnelをクリックし、本番環境のオペレーションセンターを開きます。
2. 実行中の定期タスクを表示します。詳細については、「定期タスクの管理」をご参照ください。
定期タスクの詳細を表示するには、上部メニューバーのOperation Centerをクリックします。詳細については、「オペレーションセンターの概要」をご参照ください。