DataWorks DataStudio で MaxCompute SQL ワークフローをスケジュール - DataWorks

DataWorks は、さまざまな種類の MaxCompute タスクを開発するために、多様な MaxCompute ノードタイプを提供します。また、柔軟なタスクスケジューリングを実現するための豊富なスケジューリング構成も提供します。このトピックでは、MaxCompute ノードの作成方法と管理方法について説明します。

適用範囲

MaxCompute タスクの開発に使用するアカウントは、ワークスペースに追加され、[開発者] または [ワークスペース管理者] のロールが割り当てられている必要があります。ワークスペース管理者ロールには広範な権限があります。このロールは慎重に割り当ててください。メンバーの追加方法の詳細については、「ワークスペースへのメンバーの追加」をご参照ください。

MaxCompute ノードの作成

DataStudio ページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[データ開発と O&M] > [データ開発] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発へ] をクリックします。
ワークスペースに MaxCompute コンピュートエンジンをアタッチし、ワークフローを作成します。
データ開発 (DataStudio) では、ワークフローを使用して、さまざまなコンピュートエンジンの開発タスクを整理します。ノードを作成する前に、ワークフローを作成する必要があります。
次の手順では、ODPS SQL ノードを例として、ノードを作成する方法について説明します。
1. ワークフローを右クリックし、[新規ノード] > [MaxCompute] > [ODPS SQL] を選択します。ページ上部の [新規作成] ボタンをクリックし、画面の指示に従って MaxCompute ノードを作成することもできます。
  重要
  データ開発ページに [新規ノード] > [MaxCompute] > [ODPS SQL] パスが表示されない場合は、左側のナビゲーションウィンドウで [コンピュートエンジン] をクリックして、MaxCompute コンピュートエンジンがアタッチされていることを確認します。MaxCompute ノードを作成する前に、MaxCompute コンピュートエンジンをアタッチしてからページを更新する必要があります。
2. 表示されるダイアログボックスで、ノードの名前を入力し、[確認] をクリックします。ノードが作成されたら、ノードエディターで MaxCompute タスクを開発および構成できます。

MaxCompute タスクの開発

DataWorks は、MaxCompute タスクの開発に使用できるさまざまな種類の MaxCompute ノードをサポートしています。

説明

MaxCompute タスクを実行すると、参考として推定コストが表示されます。MaxCompute によって請求される実際の料金は、請求書に従います。課金の詳細については、「課金項目と課金方法」をご参照ください。
コスト見積もり中にエラーが発生した場合、テーブルが存在しないか、必要な権限がないことが原因である可能性があります。このエラーは無視して、ノードの実行後に表示される特定のエラーメッセージに基づいて解決できます。

ノードタイプ	利用シーン	タスク開発ガイド
ODPS SQL	MaxCompute SQL タスクを開発します。	ODPS SQL タスクの開発
SQL スクリプトテンプレート	MaxCompute SQL タスクを開発します。実際には、多くの SQL コードプロセスは類似しています。入力テーブルと出力テーブルの構造は同じか互換性がありますが、テーブル名は異なります。この場合、SQL プロセスを SQL スクリプトテンプレートノードに抽象化できます。可変の入力テーブルはリクエストパラメーターとして抽象化され、可変の出力テーブルはレスポンスパラメーターとして抽象化されます。これにより、SQL コードを再利用できます。	SQL スクリプトテンプレートの概要
PyODPS 3	MaxCompute 用の PyODPS タスクを開発します。PyODPS 3 ノードの基盤となる言語は Python 3 です。	PyODPS 3 タスクの開発
PyODPS 2	MaxCompute 用の PyODPS タスクを開発します。PyODPS 2 ノードの基盤となる言語は Python 2 です。	PyODPS 2 タスクの開発
ODPS Spark	MaxCompute Spark タスクを開発します。	ODPS Spark タスクの開発
ODPS Script	MaxCompute SQL スクリプトタスクを開発します。	ODPS Script タスクの開発
ODPS MR	MaxCompute MapReduce タスクを開発します。	ODPS MR タスクの開発

テーブル、リソース、関数の作成

一般的なタスク開発機能に加えて、DataWorks はテーブル、リソース、および関数をサポートしており、MaxCompute タスクを効率的に開発するのに役立ちます。

MaxCompute テーブル：DataWorks UI を使用して、テーブルの作成、テーブル情報の表示、およびテーブルの管理を行うことができます。詳細については、「MaxCompute テーブルの作成と使用」および「テーブルの管理」をご参照ください。
MaxCompute の関数とリソース：
- DataWorks で MaxCompute タスクを開発する場合、MaxCompute のビルトイン関数を直接使用できます。利用可能な MaxCompute ビルトイン関数の一覧については、「ビルトイン関数の使用」をご参照ください。
- DataWorks でユーザー定義関数 (UDF) を MaxCompute リソースとして作成し、MaxCompute 関数として登録できます。その後、MaxCompute タスクを開発する際に直接呼び出すことができます。UDF の使用方法の詳細については、「MaxCompute リソースの作成と使用」および「ユーザー定義関数の作成と使用」をご参照ください。
- ローカルで開発したリソースパッケージを DataWorks にアップロードするか、DataWorks で直接リソースを作成できます。
  DataWorks では、テキストファイル、Python コード、および .zip、.tgz、.tar.gz、.tar、.jar などの圧縮パッケージをアップロードして、MaxCompute でさまざまな種類のリソースとして使用できます。UDF や MapReduce タスクを実行する際に、これらのリソースを読み取って使用できます。リソースのアップロードと使用方法の詳細については、「MaxCompute リソースの作成と使用」をご参照ください。

次のステップ

ノードでタスクを開発した後、次の操作を実行できます。

スケジューリングプロパティの構成：ノードの定期的なスケジューリングプロパティを構成します。タスクを定期的に実行する必要がある場合は、再実行プロパティやスケジューリング依存関係などのプロパティを構成する必要があります。詳細については、「タスクスケジューリングプロパティの概要」をご参照ください。
タスクのデバッグ：ノードのコードをテストして、コードロジックが期待どおりに機能することを確認します。詳細については、「タスクのデバッグプロセス」をご参照ください。
タスクの公開：タスクの開発が完了したら、ノードを公開します。ノードが公開されると、そのスケジューリング構成に基づいて定期的に実行されます。詳細については、「タスクの公開」をご参照ください。