DataWorks の CDH Hive ノードを使用すると、デプロイ済みの CDH クラスターで、データクエリやバッチ処理タスクなどの Hive タスクを実行できます。このトピックでは、CDH Hive ノードの設定方法と使用方法について説明します。
前提条件
Alibaba Cloud CDH クラスターを作成し、DataWorks ワークスペースにバインド済みであること。詳細については、「データスタジオ:CDH コンピューティングリソースの関連付け」をご参照ください。
重要CDH クラスターに Hive コンポーネントがインストールされており、クラスターをバインドする際に Hive 接続情報を設定済みである必要があります。
(任意) RAM ユーザーを使用している場合は、そのユーザーをワークスペースに追加し、Developer または Workspace Administrator ロールを付与する必要があります。Workspace Administrator ロールは広範な権限を持つため、慎重に付与する必要があります。ワークスペースにメンバーを追加する方法の詳細については、「ワークスペースへのメンバーの追加」をご参照ください。
説明ルートアカウントを使用している場合は、この手順をスキップできます。
DataWorks で Hive データソースを設定し、接続テストに合格済みであること。詳細については、「データソース管理」をご参照ください。
制限事項
このタイプのノードは、Serverless リソースグループ (推奨) またはスケジュール専用リソースグループを使用して実行できます。
ノードの作成
手順については、「ノードの作成」をご参照ください。
ノードの開発
SQL エディターでタスクコードを記述します。コード内で ${variable_name} フォーマットを使用して変数を定義し、[スケジューリング設定] > [スケジューリングパラメーター] でそれらに値を割り当てることができます。これにより、スケジュール実行の動的なパラメーター渡しが可能になります。スケジューリングパラメーターの詳細については、「スケジューリングパラメーターのソースと式」をご参照ください。例:
SHOW TABLES;
SELECT * FROM userinfo ;
-- スケジュールパラメーターと併用できます。
SELECT '${var}'; ノードのデバッグ
「Run Configuration」セクションで、「[スケジュール設定]」タブの「[コンピューティングリソース]」および「[リソースグループ]」を設定します。
[コンピューティングリソース] で、DataWorks に登録した CDH クラスターの名前を選択します。
[リソースグループ] で、データソース接続テストに合格したスケジュールリソースグループを選択します。詳細については、「ネットワーク接続ソリューション」をご参照ください。
ノードエディターの上部にあるツールバーで、[実行] をクリックします。
次のステップ
ノードのスケジュール設定: ノードを定期的なスケジュールで実行するには、ページ右側の[スケジュール設定]パネルで、その[時間プロパティ]および関連するスケジュール設定プロパティを構成します。
ノードの公開:ノードを本番環境に公開するには、
アイコンをクリックします。本番環境に公開されたノードのみがスケジュールされます。タスクの運用保守:ノードを公開した後、オペレーションセンターでその定期実行をモニターできます。詳細については、「オペレーションセンター入門」をご参照ください。