DataWorksでは、Cloudera's Distribution Including Apache Hadoop(CDH)Prestoノードを使用すると、分散SQLクエリエンジンを使用してリアルタイムデータを分析できます。 これにより、CDH環境でのデータ分析機能がさらに強化されます。 このトピックでは、CDH Prestoノードを作成および使用する方法について説明します。
前提条件
DataStudioでワークフローが作成されている。
DataStudioのワークフローに基づいて、さまざまなタイプの計算エンジンの開発操作が実行されます。 したがって、ノードを作成する前に、ワークフローを作成する必要があります。 詳細については、「ワークフローの作成」をご参照ください。
Alibaba Cloud CDHクラスターが作成され、DataWorksに登録されている。
CDHノードを作成し、CDHノードを使用してDataWorksでCDHタスクを開発する前に、CDHクラスターをDataWorksワークスペースに登録する必要があります。 詳細については、「CDHクラスターまたはCDPクラスターをDataWorksに登録する」をご参照ください。
(RAMユーザーを使用してタスクを開発する場合に必要)RAMユーザーがDataWorksワークスペースにメンバーとして追加され、[開発] ロールまたは [ワークスペース管理者] ロールが割り当てられている。 ワークスペース管理者ロールには、必要以上の権限があります。 ワークスペース管理者ロールを割り当てる場合は注意してください。 メンバーの追加方法の詳細については、「ワークスペースメンバーを追加し、ロールを割り当てる」をご参照ください。
サーバーレスリソースグループが購入され、構成されている。 構成には、ワークスペースとの関連付けとネットワーク構成が含まれます。 詳細については、「サーバーレスリソースグループの作成と使用」をご参照ください。
制限
このタイプのノードのタスクは、スケジューリングのためにサーバーレスリソースグループまたは旧バージョンの専用リソースグループで実行できます。 タスクはサーバーレスリソースグループで実行することをお勧めします。
手順 1:CDH Prestoノードを作成する
DataStudioページに移動します。
DataWorksコンソール にログインします。 上部のナビゲーションバーで、目的のリージョンを選択します。 左側のナビゲーションペインで、 を選択します。 表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発に移動] をクリックします。
DataStudioページで、目的のワークフローを見つけ、ワークフロー名を右クリックし、 を選択します。
説明または、[スケジュールされたワークフロー] ペインの上部にある [作成] アイコンにポインターを移動し、プロンプトに従ってCDHノードを作成することもできます。
[ノードの作成] ダイアログボックスで、[名前] パラメーターを構成し、[確認] をクリックします。 次に、作成したノードを使用して、タスクを開発および構成できます。
手順 2:Presto タスクを開発する
作成したノードの名前をダブルクリックして、ノードの構成タブに移動し、次の操作を実行してタスクを開発できます。
(オプション)CDH計算エンジンインスタンスを選択する
現在のワークスペースに複数のCDHクラスターが登録されている場合は、ビジネス要件に基づいて、[エンジンインスタンス CDH] ドロップダウンリストから 1 つ選択する必要があります。 現在のワークスペースに登録されているCDHクラスターが1つだけの場合は、CDHクラスターを選択する必要はありません。
簡単なSQLコード開発例
SQLエディターで、ノードのコードを入力します。 例:
show tables;
select * from userinfo ;
// テーブルを表示する
// userinfoからすべてのデータを選択する
SQLコードを開発する:スケジューリングパラメーターを使用する
DataWorksは、[スケジューリングパラメーター] を提供します。その値は、定期的なスケジューリングシナリオでのスケジューリングパラメーターの構成に基づいて、タスクのコードで動的に置き換えられます。 ${Variable} 形式でタスクコードに変数を定義し、[プロパティ] タブの [スケジューリングパラメーター] セクションで変数に値を割り当てることができます。 サポートされているスケジューリングパラメーターの形式については、「サポートされているスケジューリングパラメーターの形式」をご参照ください。
select '${var}'; -- var変数に特定のスケジューリングパラメーターを割り当てることができます。
// var変数に特定のスケジューリングパラメーターを割り当てることができます。
手順 3: タスクスケジューリングのプロパティを構成する
システムがノードでタスクを定期的に実行するようにするには、ノードの構成タブの右側のナビゲーションペインで [プロパティ] をクリックして、ビジネス要件に基づいてタスクスケジューリングプロパティを構成します。
タスクの基本プロパティを構成します。 詳細については、「基本プロパティの構成」をご参照ください。
スケジューリングサイクル、再実行プロパティ、およびスケジューリングの依存関係を構成します。 詳細については、「時間プロパティの構成」および「同一サイクルのスケジューリング依存関係の構成」をご参照ください。
説明タスクをコミットする前に、[プロパティ] タブで [再実行] パラメーターと [親ノード] パラメーターを構成する必要があります。
ノードのリソースプロパティを構成します。 詳細については、「リソースプロパティの構成」をご参照ください。 作成したノードが自動トリガーノードであり、ノードがインターネットまたは仮想プライベートクラウド(VPC)にアクセスするようにするには、ノードに接続されているスケジューリング用のリソースグループを選択する必要があります。 詳細については、「ネットワーク接続ソリューション」をご参照ください。
ステップ 4:タスクコードのデバッグ
オプション。 リソースグループを選択し、変数にカスタムパラメーターを割り当てます。
ノードの構成タブの上部ツールバーにある
アイコンをクリックします。 [パラメーター] ダイアログボックスで、デバッグおよびタスクコードの実行に使用するリソースグループを選択します。タスクコードでスケジューリングパラメーターを使用する場合は、デバッグのために、タスクコードの値として変数にスケジューリングパラメーターを割り当てます。 スケジューリングパラメーターの値割り当てロジックの詳細については、「実行、パラメーター付き実行、および開発環境でのスモークテストの実行モードにおけるスケジューリングパラメーターの値割り当てロジックの違いは何ですか?」をご参照ください。
SQLステートメントを保存して実行します。
上部ツールバーで、
アイコンをクリックしてSQLステートメントを保存します。 次に、
アイコンをクリックしてSQLステートメントを実行します。オプション。 スモークテストを実行します。
タスクをコミットするとき、またはタスクをコミットした後に、開発環境でタスクのスモークテストを実行できます。 詳細については、「スモークテストを実行する」をご参照ください。
次の手順
タスクをコミットしてデプロイします。
上部ツールバーの
アイコンをクリックして、タスクを保存します。上部ツールバーの
アイコンをクリックして、タスクをコミットします。[送信] ダイアログボックスで、[変更の説明] パラメーターを構成します。
[確認] をクリックします。
標準モードのワークスペースを使用する場合は、タスクをコミットした後に、本番環境にタスクをデプロイする必要があります。 ノードにタスクをデプロイするには、DataStudioページの上部ナビゲーションバーにある [デプロイ] をクリックします。 詳細については、「タスクのデプロイ」をご参照ください。
タスクを表示します。
対応するノードの構成タブの右上隅にある [オペレーションセンター] をクリックして、本番環境のオペレーションセンターに移動します。
スケジュールされたタスクを表示します。 詳細については、「自動トリガータスクの表示と管理」をご参照ください。
タスクの詳細を表示するには、DataStudioページの上部ナビゲーションバーにある [オペレーションセンター] をクリックします。 詳細については、「オペレーションセンター」をご参照ください。