DataWorks において、CDH Presto ノードは、CDH クラスター上のリアルタイムデータ分析に使用される分散 SQL クエリエンジンです。このトピックでは、CDH Presto ノードの設定方法と使用方法について説明します。
前提条件
Alibaba Cloud CDH クラスターを作成し、DataWorks ワークスペースにバインド済みであること。詳細については、「データ開発 (DataStudio): CDH コンピューティングリソースの関連付け」をご参照ください。
重要CDH クラスターに Presto コンポーネントがインストールされており、クラスターをバインドする際にその設定が構成されていることを確認してください。
(オプション) RAM ユーザーを使用している場合、ユーザーをワークスペースに追加し、[開発者] または [ワークスペース管理者] ロールを付与する必要があります。 ワークスペース管理者ロールは広範な権限を持つため、慎重に付与する必要があります。 詳細については、「ワークスペースにメンバーを追加する」をご参照ください。
説明ルートアカウントを使用している場合は、このステップをスキップできます。
DataWorks で Hive データソースを設定し、接続テストに合格済みであること。詳細については、「データソース管理」をご参照ください。
ノードの作成
手順については、「ノードの作成」をご参照ください。
ノード開発
SQLエディターでタスクコードを開発します。コード内で ${variable_name} 形式を使用して変数を定義し、ノードエディターの右側にある [スケジュール構成] > [スケジュールパラメーター] でそれらに値を割り当てることができます。これにより、スケジュール実行時に動的にパラメーターを渡すことができます。スケジュールパラメーターの詳細については、「スケジュールパラメーターのソースと式」をご参照ください。例:
SHOW TABLES;
SELECT * FROM userinfo ;
-- You can use scheduling parameters.
SELECT '${var}'; ノードのデバッグ
[Run Configuration] > [コンピューティングリソース] で、[コンピューティングリソース] と [リソースグループ] を設定します。
[コンピューティングリソース] には、登録済みの CDH クラスターを選択します。
[リソースグループ] には、データソース接続テストに合格したスケジューリングリソースグループを選択します。詳細については、「ネットワーク接続ソリューション」をご参照ください。
ノードエディターのツールバーで、[実行] をクリックします。
次のステップ
ノードのスケジューリング構成: ノードを定期的なスケジュールで実行するには、ページの右側にある[スケジューリング構成] パネルで、その[時間プロパティ] と関連するスケジューリングプロパティを設定します。
ノードの公開:ノードを本番環境に公開するには、
アイコンをクリックします。本番環境に公開されたノードのみがスケジュールされます。タスク O&M:ノードを公開した後、O&M センターでスケジュールされた実行をモニターできます。詳細については、「オペレーションセンター入門」をご参照ください。