DataWorks で CDH Presto ノードを使用して、リアルタイムデータ分析を実行できます。このノードは、分散 SQL クエリエンジンを提供し、CDH 環境のデータ分析機能を強化します。このトピックでは、CDH Presto ノードの構成方法と使用方法について説明します。
前提条件
Alibaba Cloud CDH クラスターが作成され、DataWorks ワークスペースにアタッチされています。詳細については、「データ開発 (新規): CDH 計算リソースのアタッチ」をご参照ください。
重要Presto コンポーネントが CDH クラスターにインストールされており、クラスターをアタッチする際に Presto 関連情報が構成されています。
(オプション) RAM ユーザーを使用する場合、そのユーザーをタスク開発のために対応するワークスペースに追加し、[開発者] または [ワークスペース管理者] ロールを付与する必要があります。[ワークスペース管理者] ロールには広範な権限があるため、慎重に付与する必要があります。メンバーの追加に関する詳細については、「ワークスペースへのメンバーの追加」をご参照ください。
説明Alibaba Cloud アカウントを使用している場合は、このステップをスキップできます。
Hive データソースが DataWorks で構成され、接続性テストに合格しています。詳細については、「データソース管理」をご参照ください。
ノードの作成
詳細については、「ノードの作成」をご参照ください。
ノードの開発
SQL エディターで、タスクのコードを記述できます。コード内で ${variable_name} フォーマットを使用して変数を定義できます。次に、ノード構成ページの右側にある [スケジュール] タブの [スケジューリングパラメーター] セクションで、変数に値を割り当てます。これにより、スケジューリングシナリオで動的にパラメーターを渡すことができます。スケジューリングパラメーターの使用方法の詳細については、「サポートされているスケジューリングパラメーターのフォーマット」をご参照ください。次のコードは例です。
SHOW TABLES;
SELECT * FROM userinfo ;
-- スケジューリングパラメーターを使用できます。
SELECT '${var}'; ノードのテスト
[テスト] タブで、[計算リソース] セクションの [計算リソース] および [リソースグループ] パラメーターを設定します。
[計算リソース] には、DataWorks に登録した CDH クラスターの名前を選択します。
[リソースグループ] には、ネットワーク接続テストに合格したスケジューリング用のリソースグループを選択します。詳細については、「ネットワーク接続ソリューション」をご参照ください。
ノード構成ページの上部にあるツールバーで、[実行] をクリックします。
次のステップ
ノードのスケジューリング: プロジェクトフォルダー内のノードを定期的に実行する必要がある場合は、ノードページの右側にある [スケジューリング設定] セクションで [スケジューリングポリシー] を設定し、スケジューリングプロパティを構成できます。
ノードの公開: タスクを本番環境で実行する必要がある場合は、
アイコンをクリックしてタスクを公開します。プロジェクトフォルダー内のノードは、本番環境に公開された後にのみスケジュールに従って実行されます。タスク O&M: タスクを公開した後、オペレーションセンターで定期タスクのステータスを表示できます。詳細については、「オペレーションセンター入門」をご参照ください。