DataWorks では、Cloudera's Distribution Including Apache Hadoop (CDH) Presto ノードを使用することで、分散 SQL クエリエンジンを利用してリアルタイムデータを分析できます。これにより、CDH 環境におけるデータ分析能力がさらに強化されます。このトピックでは、CDH Presto ノードの作成方法と使用方法について説明します。
前提条件
-
DataStudio でワークフローが作成されていること。
DataStudio では、開発タスクはワークフローにまとめられます。ノードを作成する前に、ワークフローを作成する必要があります。詳細については、「ワークフローの作成」をご参照ください。
-
CDH クラスターが作成され、お使いの DataWorks ワークスペースに登録されます。
CDH ノードとタスクを作成する前に、CDH クラスターを DataWorks ワークスペースに登録する必要があります。詳細については、「旧バージョンの DataStudio で CDH 計算リソースをバインドする」をご参照ください。
-
(オプション) RAM ユーザーを使用している場合、そのユーザーをワークスペースに追加し、Development または スペースマネージャー ロールを割り当てる必要があります。ワークスペース管理者ロールには広範な権限があるため、慎重に割り当ててください。メンバーの追加に関する詳細については、「ワークスペースへのメンバーの追加」をご参照ください。
-
サーバーレスリソースグループが購入され、設定されていること。設定には、リソースグループのワークスペースへのバインドやネットワークの設定が含まれます。詳細については、「サーバーレスリソースグループの使用」をご参照ください。
制限事項
このタイプのタスクは、サーバーレスリソースグループまたは旧バージョン専用スケジューリングリソースグループで実行できます。サーバーレスリソースグループの使用を推奨します。
ステップ 1: CDH Presto ノードの作成
DataWorks コンソールにログインします。対象のリージョンで、左側のナビゲーションウィンドウで をクリックします。ドロップダウンリストからワークスペースを選択し、入力 データ開発 をクリックします。
-
ワークフローを右クリックし、 を選択します。
説明または、上部にある New ボタンにカーソルを合わせ、画面の指示に従って CDH ノードを作成することもできます。
-
Create Node ダイアログボックスで、ノードの Name を入力し、OK をクリックします。その後、新しいノードでタスクを開発および設定できます。
ステップ 2: Presto タスクの開発
作成したノードの名前をダブルクリックしてノードの設定タブに移動し、以下の操作を行ってタスクを開発します。
(オプション) CDH コンピュートエンジンインスタンスの選択
複数の CDH クラスターがワークスペースに登録されている場合は、ページの上部で適切なクラスターを選択します。CDH クラスターが 1 つしかバインドされていない場合は、選択する必要はありません。[CDH エンジンインスタンス] ドロップダウンリストから、ターゲットのクラスターインスタンス (例: CDH 本番 + テスト環境) を選択します。ホワイトリストによって制限されているエンドポイントにアクセスするには、スケジューリングに従量課金のリソースグループを使用します。
シンプルな SQL コード開発の例
SQL エディターで、ノードのコードを入力します。例:
show tables;
select * from userinfo ;
SQL コードの開発: スケジューリングパラメーターの使用
DataWorks は Scheduling Parameter を提供しており、これによりコードに動的に値を渡すことができます。コード内で ${variable_name} というフォーマットを使用して変数を定義し、Scheduling Settings > Parameter で値を割り当てることができます。スケジューリングパラメーターでサポートされているフォーマットの詳細については、「スケジューリングパラメーターでサポートされているフォーマット」をご参照ください。
select '${var}'; -- var 変数に特定のスケジューリングパラメーターを割り当てることができます。
ステップ 3: タスクスケジューリングの設定
タスクを定期スケジュールで実行する必要がある場合は、右側のペインで Scheduling をクリックして、そのスケジューリングプロパティを設定します。
-
基本的なスケジューリングプロパティを設定します。詳細については、「基本プロパティの設定」をご参照ください。
-
スケジューリング周期、再実行プロパティ、および依存関係を設定します。詳細については、「時間プロパティの設定」および「同一周期のスケジューリング依存関係の設定」をご参照ください。
説明ノードをコミットする前に、Rerun attribute プロパティを設定し、Parent Nodes を指定する必要があります。
-
リソースプロパティを設定します。詳細については、「リソースプロパティの設定」をご参照ください。タスクがパブリックインターネットまたは VPC にアクセスする必要がある場合は、必要なネットワーク接続を備えたスケジューリングリソースグループを選択する必要があります。詳細については、「ネットワーク接続ソリューション」をご参照ください。
ステップ 4: コードのデバッグ
-
(オプション) ランタイムリソースグループを選択し、カスタムパラメーターに値を割り当てます。
-
ツールバーで
アイコンをクリックします。Parameter ダイアログボックスで、デバッグに使用するリソースグループを選択します。 -
タスクコードがスケジューリングパラメーターを使用している場合は、ここでデバッグ用の値を割り当てます。値の割り当てロジックの詳細については、「実行、高度な実行、開発環境のスモークテストにおける値の割り当てロジックの違い」をご参照ください。
-
-
SQL ステートメントを保存して実行します。
ツールバーで
アイコンをクリックして SQL ステートメントを保存し、次に
アイコンをクリックしてタスクを実行します。 -
(オプション) スモークテストを実行します。
開発環境でスモークテストを実行するには、コミットプロセス中またはノードのコミット後に行うことができます。詳細については、「スモークテストの実行」をご参照ください。
次のステップ
-
タスクをコミットしてデプロイします。
-
ツールバーで
アイコンをクリックしてノードを保存します。 -
ツールバーで
アイコンをクリックしてタスクをコミットします。 -
Commit Node ダイアログボックスで、Change Description を入力します。
-
Determine をクリックします。
標準モードのワークスペースでは、タスクをコミットした後、本番環境にデプロイする必要があります。トップメニューバーで デプロイ をクリックします。詳細については、「タスクのデプロイ」をご参照ください。
-
-
定期タスクを表示します。
-
エディターの右上隅にある O&M Personnel をクリックして、本番環境のオペレーションセンターを開きます。
-
実行中の定期タスクを表示します。詳細については、「定期タスクの管理」をご参照ください。
定期タスクの詳細を表示するには、トップメニューバーの Operation Center をクリックします。詳細については、「オペレーションセンターの概要」をご参照ください。
-