DataWorks では、Cloudera's Distribution Including Apache Hadoop (CDH) Impala ノードを使用して、Impala SQL スクリプトを作成および実行できます。 CDH Impala ノードは、CDH Hive ノードよりも高いクエリパフォーマンスを提供します。 このトピックでは、CDH Impala ノードを作成および使用する方法について説明します。
前提条件
CDH 関連のノードを作成し、CDH タスクを開発する前に、ターゲットの DataWorks ワークスペースに CDH クラスタを登録する必要があります。 詳細については、「DataStudio (旧バージョン): CDH 計算リソースを関連付ける」をご参照ください。
制限事項
このタイプのノードのタスクは、サーバーレスリソースグループまたは旧バージョンの排他的リソースグループでスケジューリングを実行できます。 サーバーレスリソースグループでタスクを実行することをお勧めします。
ステップ 1:CDH Impala ノードを作成する
DataStudio ページに移動します。
DataWorks コンソール にログインします。 上部のナビゲーションバーで、目的のリージョンを選択します。 左側のナビゲーションウィンドウで、 を選択します。 表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発に移動] をクリックします。
DataStudio ページで、目的のワークフローを見つけ、ワークフロー名を右クリックし、 を選択します。
説明または、[スケジュールされたワークフロー] ペインの上部にある [作成] アイコンの上にポインターを移動し、プロンプトに従って CDH ノードを作成することもできます。
[ノードの作成] ダイアログボックスで、[名前] パラメーターを構成し、[確認] をクリックします。 次に、作成したノードを使用して、タスクを開発および構成できます。
ステップ 2:Impala タスクを開発する
作成したノードの名前をダブルクリックして、ノードの構成タブに移動し、次の操作を実行してタスクを開発できます。
(オプション) CDH クラスタを選択する
現在のワークスペースに複数の CDH クラスタが登録されている場合は、ビジネス要件に基づいて、[エンジンインスタンス CDH] ドロップダウンリストから 1 つ選択する必要があります。 現在のワークスペースに CDH クラスタが 1 つだけ登録されている場合は、CDH クラスタを選択する必要はありません。
簡単な SQL コード開発例
SQL エディターで、ノードのコードを入力します。 例:
SHOW tables;
SELECT * FROM userinfo ;SQL コードを開発する: スケジューリングパラメーターを使用する
DataWorks は、[スケジューリングパラメーター] を提供します。その値は、定期的なスケジューリングシナリオでのスケジューリングパラメーターの構成に基づいて、タスクのコードで動的に置き換えられます。 ${Variable} 形式でタスクコードに 変数を定義し、[プロパティ] タブの [スケジューリングパラメーター] セクションで変数に値を割り当てることができます。 サポートされているスケジューリングパラメーターの形式については、「サポートされているスケジューリングパラメーターの形式」をご参照ください。
SELECT '${var}'; -- 特定のスケジューリングパラメーターを var 変数に割り当てることができます。ステップ 3:タスクスケジューリングのプロパティを構成する
システムでノードのタスクを定期的に実行する場合、ノードの構成タブの右側ナビゲーションウィンドウにある [プロパティ] をクリックして、ビジネス要件に基づいてタスクスケジューリングのプロパティを構成できます。
タスクの基本プロパティを構成します。 詳細については、「基本プロパティを構成する」をご参照ください。
スケジューリングサイクル、再実行プロパティ、およびスケジューリングの依存関係を構成します。 詳細については、「時間プロパティを構成する」および「同一サイクルのスケジューリング依存関係を構成する」をご参照ください。
説明タスクをコミットする前に、[プロパティ] タブで [再実行] パラメーターと [親ノード] パラメーターを構成する必要があります。
ノードのリソースプロパティを構成します。 詳細については、「リソースプロパティを構成する」をご参照ください。 作成したノードが自動トリガーノードであり、ノードがインターネットまたは VPC (Virtual Private Cloud) にアクセスするようにするには、ノードに接続されているスケジューリング用のリソースグループを選択する必要があります。 詳細については、「ネットワーク接続ソリューション」をご参照ください。
ステップ 4:タスクコードをデバッグする
オプション。 リソースグループを選択し、カスタムパラメーターを変数に割り当てます。
ノードの構成タブの上部にあるツールバーの
アイコンをクリックします。 [パラメーター] ダイアログボックスで、タスクコードのデバッグと実行に使用するリソースグループを選択します。タスクコードでスケジューリングパラメーターを使用する場合は、デバッグのために、タスクコードの値として変数にスケジューリングパラメーターを割り当てます。 スケジューリングパラメーターの値割り当てロジックの詳細については、「実行、パラメーター付き実行、および開発環境でのスモークテストの実行モードにおけるスケジューリングパラメーターの値割り当てロジックの違いは何ですか?」をご参照ください。
SQL 文を保存して実行します。
上部のツールバーで、
アイコンをクリックして SQL 文を保存します。 次に、
アイコンをクリックして SQL 文を実行します。オプション。 スモークテストを実行します。
タスクをコミットするとき、またはタスクをコミットした後に、開発環境でタスクのスモークテストを実行できます。 詳細については、「スモークテストを実行する」をご参照ください。
次のステップ
タスクをコミットしてデプロイします。
上部のツールバーにある
アイコンをクリックして、タスクを保存します。上部のツールバーにある
アイコンをクリックして、タスクをコミットします。[送信] ダイアログボックスで、[変更の説明] パラメーターを構成します。
[確認] をクリックします。
標準モードのワークスペースを使用する場合は、タスクをコミットした後に、本番環境にタスクをデプロイする必要があります。 ノードにタスクをデプロイするには、DataStudio ページの上部にあるナビゲーションバーで [デプロイ] をクリックします。 詳細については、「タスクをデプロイする」をご参照ください。
タスクを表示します。
対応するノードの構成タブの右上隅にある [オペレーションセンター] をクリックして、本番環境のオペレーションセンターに移動します。
スケジュールされたタスクを表示します。 詳細については、「自動トリガータスクを表示および管理する」をご参照ください。
タスクの詳細を表示するには、DataStudio ページの上部にあるナビゲーションバーで [オペレーションセンター] をクリックします。 詳細については、「概要」をご参照ください。