DataWorks では、CDH Impala ノードを使用して Impala SQL スクリプトを記述および実行できます。CDH Hive よりも高速なクエリパフォーマンスを提供します。本トピックでは、CDH Impala ノードの構成方法と使用方法について説明します。
前提条件
Alibaba Cloud CDH クラスターを作成済みで、DataWorks ワークスペースにバインド済みである必要があります。詳細については、「Data Studio: CDH コンピューティングリソースの関連付け」をご参照ください。
重要ご利用の CDH クラスターに Impala コンポーネントがインストールされており、クラスターのバインド時にその接続情報が構成されている必要があります。
(任意)RAM ユーザーを使用する場合は、ワークスペースにユーザーを追加し、開発者またはワークスペース管理者ロールを付与する必要があります。ワークスペース管理者ロールには広範な権限が含まれるため、慎重に付与してください。ワークスペースへのメンバー追加方法の詳細については、「ワークスペースへのメンバー追加」をご参照ください。
説明ルートアカウントを使用している場合は、この手順をスキップできます。
DataWorks に Hive データソースを構成済みで、接続テストに合格している必要があります。詳細については、「データソース管理」をご参照ください。
ノードの作成
手順については、「ノードの作成」をご参照ください。
ノードの開発
SQL エディターでタスクコードを記述します。${VariableName} 形式を使用してコード内に変数を定義し、ノードエディターページ右側の スケジュール設定 > スケジュールパラメーター で値を割り当てることができます。これにより、スケジュール実行時に動的なパラメーター渡しが可能になります。スケジュールパラメーターの詳細については、「スケジュールパラメーターのソースと式」をご参照ください。例:
SHOW TABLES;
SELECT * FROM userinfo ;
-- You can use this with Scheduling Parameters.
SELECT '${var}'; ノードのデバッグ
Run Configuration > コンピューティングリソース で、コンピューティングリソース および リソースグループ を構成します。
コンピューティングリソース には、DataWorks に登録済みの CDH クラスターを選択します。
リソースグループ には、データソースとの接続が成功しているスケジューリングリソースグループを選択します。詳細については、「ネットワーク接続性ソリューション」をご参照ください。
ノードエディターページ上部のツールバーで、実行 をクリックします。
次のステップ
ノードのスケジュール設定:ノードを定期的に実行するには、ページ右側の スケジュール設定 パネルで 時間プロパティ および関連するスケジュールプロパティを構成します。
ノードの公開:ノードを本番環境に公開するには、
アイコンをクリックします。スケジュールされるのは、本番環境に公開されたノードのみです。タスク運用管理:ノードを公開後、オペレーションセンターでスケジュール実行をモニターできます。詳細については、「オペレーションセンター入門」をご参照ください。