すべてのプロダクト
Search
ドキュメントセンター

DataWorks:CDH Hiveノードを作成する

最終更新日:Jul 12, 2025

Cloudera's Distribution Including Apache Hadoop(CDH)クラスタをデプロイしている場合は、DataWorksでCDH Hiveノードを使用してHiveタスクを実行し、データをクエリしたり、バッチでデータを処理したりできます。このトピックでは、CDH Hiveノードを作成する方法について説明します。

前提条件

  • DataStudioでワークフローが作成されている。

    DataStudioのワークフローに基づいて、さまざまなタイプの計算エンジンの開発操作が実行されます。したがって、ノードを作成する前に、ワークフローを作成する必要があります。詳細については、「ワークフローを作成する」をご参照ください。

  • CDH クラスタが作成され、DataWorksに登録されている。詳細については、「DataStudio(旧バージョン):CDH 計算リソースを関連付ける」をご参照ください。

  • (RAM ユーザーを使用してタスクを開発する場合に必要)RAM ユーザーがメンバーとしてDataWorksワークスペースに追加され、[開発] ロールまたは [ワークスペース管理者] ロールが割り当てられている。ワークスペース管理者ロールには、必要以上の権限があります。ワークスペース管理者ロールを割り当てる場合は注意してください。メンバーの追加方法の詳細については、「ワークスペースメンバーを追加し、ロールを割り当てる」をご参照ください。

  • サーバーレスリソースグループが購入され、構成されている。構成には、ワークスペースとの関連付けとネットワーク構成が含まれます。詳細については、「6サーバーレスリソースグループを作成して使用する」をご参照ください。

制限

このタイプのノードのタスクは、スケジューリングのためにサーバーレスリソースグループまたは旧バージョンの排他的リソースグループで実行できます。タスクはサーバーレスリソースグループで実行することをお勧めします。

手順 1:CDH Hiveノードを作成する

  1. DataStudioページに移動します。

    DataWorksコンソール にログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[データ開発とO&M] > [データ開発] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発に移動] をクリックします。

  2. DataStudioページで、目的のワークフローを見つけ、ワークフロー名を右クリックし、[ノードの作成] > [CDH] > [CDH Hive] を選択します。

    説明

    または、スケジュールされたワークフローウィンドウの上部にある [作成] アイコンにポインターを移動し、プロンプトに従ってCDHノードを作成することもできます。

  3. [ノードの作成] ダイアログボックスで、[名前] パラメーターを構成し、[確認] をクリックします。その後、作成したノードを使用してタスクを開発および構成できます。

手順 2:Hiveタスクを開発する

作成したノードの名前をダブルクリックしてノードの構成タブに移動し、次の操作を実行してタスクを開発できます。

(オプション)CDH計算エンジンインスタンスを選択する

現在のワークスペースに複数のCDH クラスタが登録されている場合は、ビジネス要件に基づいて、[エンジンインスタンス CDH] ドロップダウンリストから 1 つ選択する必要があります。現在のワークスペースに登録されているCDH クラスタが 1 つだけの場合は、CDH クラスタを選択する必要はありません。image.png

簡単な SQL コード開発例

SQLエディターで、ノードのコードを入力します。例:

SHOW tables;

SELECT * FROM userinfo ;

SQL コードを開発する:スケジューリングパラメーターを使用する

DataWorksは、[スケジューリングパラメーター] を提供します。その値は、定期的なスケジューリングシナリオでのスケジューリングパラメーターの構成に基づいて、タスクのコードで動的に置き換えられます。${Variable} 形式でタスクコードに変数を定義し、[プロパティ] タブの [スケジューリングパラメーター] セクションで変数に値を割り当てることができます。サポートされているスケジューリングパラメーターの形式については、「サポートされているスケジューリングパラメーターの形式」をご参照ください。

SELECT '${var}'; -- 特定のスケジューリングパラメーターを var 変数に割り当てることができます。

手順 3:タスクスケジューリングプロパティを構成する

システムでノードのタスクを定期的に実行する場合、ノードの構成タブの右側ナビゲーションウィンドウにある [プロパティ] をクリックして、ビジネス要件に基づいてタスクスケジューリングプロパティを構成できます。

  • タスクの基本プロパティを構成します。詳細については、「基本プロパティを構成する」をご参照ください。

  • スケジューリングサイクル、再実行プロパティ、およびスケジューリングの依存関係を構成します。詳細については、「時間プロパティを構成する」および「同一サイクルのスケジューリング依存関係を構成する」をご参照ください。

    説明

    タスクをコミットする前に、[プロパティ] タブで [再実行] パラメーターと [親ノード] パラメーターを構成する必要があります。

  • ノードのリソースプロパティを構成します。詳細については、「リソースプロパティを構成する」をご参照ください。作成したノードが自動トリガーノードであり、ノードがインターネットまたは 仮想プライベートクラウド (VPC) にアクセスするようにしたい場合は、ノードに接続されているスケジューリング用のリソースグループを選択する必要があります。詳細については、「ネットワーク接続ソリューション」をご参照ください。

手順 4:タスクコードをデバッグする

  1. オプション。リソースグループを選択し、カスタムパラメーターを変数に割り当てます。

  2. SQL 文を保存して実行します。

    上部ツールバーで、保存 アイコンをクリックして SQL 文を保存します。次に、运行 アイコンをクリックして SQL 文を実行します。

  3. オプション。スモークテストを実行します。

    タスクをコミットするとき、またはタスクをコミットした後に、開発環境でタスクのスモークテストを実行できます。詳細については、「スモークテストを実行する」をご参照ください。

次の手順

  1. タスクをコミットしてデプロイします。

    1. 上部ツールバーの 保存 アイコンをクリックして、タスクを保存します。

    2. 上部ツールバーの 提交 アイコンをクリックして、タスクをコミットします。

    3. [送信] ダイアログボックスで、[変更の説明] パラメーターを構成します。

    4. [確認] をクリックします。

    標準モードのワークスペースを使用する場合は、タスクをコミットした後に、本番環境にタスクをデプロイする必要があります。ノードにタスクをデプロイするには、DataStudioページの上部ナビゲーションバーにある [デプロイ] をクリックします。詳細については、「タスクをデプロイする」をご参照ください。

  2. タスクを表示します。

    1. 対応するノードの構成タブの右上隅にある [オペレーションセンター] をクリックして、本番環境のオペレーションセンターに移動します。

    2. スケジュールされたタスクを表示します。詳細については、「自動トリガータスクを表示および管理する」をご参照ください。

    タスクの詳細を表示するには、DataStudioページの上部ナビゲーションバーにある [オペレーションセンター] をクリックします。詳細については、「概要」をご参照ください。