DataWorks では、CDH Impala ノードを使用して Impala SQL スクリプトを作成および実行できます。CDH Hive と比較して、CDH Impala ノードはより高速なクエリパフォーマンスを提供します。このトピックでは、CDH Impala ノードの作成方法と使用方法について説明します。
前提条件
CDH クラスターを作成し、DataWorks に登録していること。
CDH 関連のノードを作成し、CDH タスクを開発する前に、CDH クラスターを DataWorks ワークスペースに登録する必要があります。詳細については、「旧バージョンのDataStudioでのCDH計算リソースのバインド」をご参照ください。
制限
このタイプのノードのタスクは、スケジューリングのためにサーバーレスリソースグループまたは旧バージョンの排他的リソースグループで実行できます。タスクはサーバーレスリソースグループで実行することをお勧めします。
ステップ1:CDH Impala ノードの作成
DataStudioページに移動します。
DataWorks コンソールにログインします。 左側のナビゲーションウィンドウで、 を選択します。 表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[DataStudioに移動] をクリックします。
-
ワークフローを右クリックし、 を選択します。
説明上部の New ボタンにマウスポインターを合わせ、画面の指示に従って CDH ノードを作成することもできます。
-
Create Node ダイアログボックスで、ノードの Name を入力し、OK をクリックします。
ステップ2:Impala タスクの開発
作成したノードをダブルクリックして、タスク開発ページを開きます。
(オプション) CDH エンジンインスタンスの選択
ワークスペースに複数の CDH クラスターが登録されている場合は、ページ上部の [エンジンインスタンス CDH] ドロップダウンリストから適切なクラスターを選択します。クラスターが1つしかバインドされていない場合は、選択は不要です。例えば、[CDH 本番 + テスト環境] を選択します。IP アドレス許可リストが設定されているドメインにアクセスするには、専用スケジューリングリソースグループを使用する必要があります。
簡単な例
SQL エディターにタスクコードを入力します。例:
SHOW tables;
SELECT * FROM userinfo ;
スケジューリングパラメーターの使用
DataWorks では、[Scheduling Parameter]を使用して、スケジュール実行時にコードに動的に値を渡すことができます。${変数名} の形式でコード内に変数を定義し、Scheduling Settings > Parameter でこれらの変数に値を割り当てることができます。スケジューリングパラメーターでサポートされている形式については、「スケジューリングパラメーターのサポート形式」をご参照ください。
SELECT '${var}'; -- スケジューリングパラメーターと併用
手順 3:タスクスケジューリングプロパティを構成する
システムでノードのタスクを定期的に実行する場合、ノードの構成タブの右側ナビゲーションウィンドウにある [プロパティ] をクリックして、ビジネス要件に基づいてタスクスケジューリングプロパティを構成できます。
タスクの基本プロパティを構成します。詳細については、「基本プロパティを構成する」をご参照ください。
スケジューリングサイクル、再実行プロパティ、およびスケジューリングの依存関係を構成します。詳細については、「時間プロパティを構成する」および「同一サイクルのスケジューリング依存関係を構成する」をご参照ください。
説明タスクをコミットする前に、[プロパティ] タブで [再実行] パラメーターと [親ノード] パラメーターを構成する必要があります。
ノードのリソースプロパティを構成します。詳細については、「リソースプロパティを構成する」をご参照ください。作成したノードが自動トリガーノードであり、ノードがインターネットまたは 仮想プライベートクラウド (VPC) にアクセスするようにしたい場合は、ノードに接続されているスケジューリング用のリソースグループを選択する必要があります。詳細については、「ネットワーク接続ソリューション」をご参照ください。
手順 4:タスクコードをデバッグする
オプション。リソースグループを選択し、カスタムパラメーターを変数に割り当てます。
ノードの構成タブの上部ツールバーにある
アイコンをクリックします。[パラメーター] ダイアログボックスで、デバッグおよびタスクコードの実行に使用するリソースグループを選択します。タスクコードでスケジューリングパラメーターを使用する場合は、デバッグのために、タスクコードの値として変数にスケジューリングパラメーターを割り当てます。スケジューリングパラメーターの値割り当てロジックの詳細については、「実行、パラメーター付き実行、および開発環境でのスモークテストの実行モードにおけるスケジューリングパラメーターの値割り当てロジックの違いは何ですか?」をご参照ください。
SQL 文を保存して実行します。
上部ツールバーで、
アイコンをクリックして SQL 文を保存します。次に、
アイコンをクリックして SQL 文を実行します。オプション。スモークテストを実行します。
タスクをコミットするとき、またはタスクをコミットした後に、開発環境でタスクのスモークテストを実行できます。詳細については、「スモークテストを実行する」をご参照ください。
次のステップ
ノードタスクをサブミットして公開します。
ツールバーの
アイコンをクリックしてノードを保存します。ツールバーの
アイコンをクリックしてノードタスクをサブミットします。[新しいバージョンのサブミット] ダイアログボックスで、[変更の説明] を入力します。
[OK] をクリックします。
標準モードのワークスペースでは、サブミット後にタスクを本番環境にデプロイする必要があります。左側のナビゲーションウィンドウで [タスクの公開] をクリックします。詳細については、「タスクの公開」をご参照ください。
定期タスクを表示します。
右上隅の [オペレーションセンター] をクリックして本番環境にアクセスします。
定期タスクを表示します。詳細については、「定期タスクの管理」をご参照ください。
定期タスクの詳細については、上部のナビゲーションバーで [オペレーションセンター] をクリックします。詳細については、「概要」をご参照ください。