Cloudera Distribution for Hadoop (CDH) クラスターがある場合、DataWorks で CDH Hive ノードを使用して、データクエリジョブやバッチデータ処理などの Hive タスクを実行できます。このトピックでは、CDH Hive ノードの設定方法と使用方法について説明します。
前提条件
Alibaba Cloud CDH クラスターが作成され、DataWorks ワークスペースにアタッチされていること。詳細については、「データ開発 (新規): CDH 計算リソースのアタッチ」をご参照ください。
重要CDH クラスターに Hive コンポーネントがインストールされており、クラスターをアタッチする際に Hive 接続情報が設定されている必要があります。
(オプション) RAM ユーザーを使用する場合、そのユーザーはタスク開発のために対応するワークスペースに追加され、[開発者] または [ワークスペース管理者] ロールが付与されている必要があります。[ワークスペース管理者] ロールには広範な権限があるため、慎重に付与する必要があります。メンバーの追加に関する詳細については、「ワークスペースへのメンバーの追加」をご参照ください。
説明Alibaba Cloud アカウントを使用している場合は、このステップをスキップできます。
DataWorks で Hive データソースが設定され、接続性テストに合格していること。詳細については、「データソース管理」をご参照ください。
制限事項
このタイプのタスクは、Serverless リソースグループ (推奨) または従来の専用リソースグループで実行できます。
ノードの作成
詳細については、「ノードの作成」をご参照ください。
ノードの開発
SQL 編集エリアで、ノードのコードを開発できます。コードでは、${variable_name} 形式を使用して変数を定義します。その後、ノード編集ページの右側にある [スケジュールパラメーター] の下の [スケジュール設定] セクションで、変数に値を割り当てることができます。これにより、スケジューリングシナリオでコードに動的にパラメーターを渡すことができます。詳細については、「スケジュールパラメーターでサポートされている形式」をご参照ください。以下に例を示します。
SHOW TABLES;
SELECT * FROM userinfo ;
-- スケジュールパラメーターとともに使用できます。
SELECT '${var}'; ノードのテスト
[デバッグ設定] の [計算リソース] セクションで、[計算リソース] と [リソースグループ] を設定できます。
[計算リソース] を、DataWorks に登録した CDH クラスターの名前に設定します。
[リソースグループ] を、データソースとの接続性テストに合格したスケジューリングリソースグループに設定します。詳細については、「ネットワーク接続ソリューション」をご参照ください。
ノード編集ページの上部にあるツールバーで [ジョブの実行] をクリックします。
次のステップ
ノードのスケジューリング: プロジェクトフォルダ内のノードを定期的に実行する必要がある場合は、ノードページの右側にある [スケジュール設定] セクションで [スケジュールポリシー] を設定し、スケジューリングプロパティを設定できます。
ノードの公開: タスクを本番環境で実行する必要がある場合は、
アイコンをクリックしてタスクを公開します。プロジェクトフォルダ内のノードは、本番環境に公開された後にのみスケジュールに従って実行されます。タスク O&M: タスクを公開した後、オペレーションセンターで定期タスクのステータスを表示できます。詳細については、「オペレーションセンター入門」をご参照ください。