DataWorks スケジュールで Redshift SQL ジョブを自動化 - DataWorks

DataWorks の Redshift ノードを使用すると、Redshift タスクを開発し、定期的にスケジューリングできます。これらのタスクを他のジョブと統合することも可能です。このトピックでは、Redshift ノードを使用したタスク開発の主なプロセスについて説明します。

背景情報

Amazon Redshift は、クラウドで提供されるペタバイト規模のフルマネージドデータウェアハウスサービスです。Amazon Redshift Serverless を使用すると、プロビジョニングされたデータウェアハウスを構成することなく、データにアクセスして分析できます。詳細については、「Amazon Redshift」をご参照ください。

前提条件

ビジネスフローの作成
DataStudio では、ビジネスフローごとに開発が整理されます。ノードを作成する前に、ビジネスフローを作成する必要があります。詳細については、「ワークフローの作成」をご参照ください。
Redshift データソースの作成
データベースにアクセスする前に、ご利用の Redshift データベースを DataWorks の Redshift データソースとして追加する必要があります。データソースの作成方法の詳細については、「データソース管理」をご参照ください。DataWorks での Redshift データソースの使用方法の詳細については、「Amazon Redshift データソース」をご参照ください。
説明
Redshift ノードは、Java Database Connectivity (JDBC) 接続文字列を使用して作成された Redshift データソースのみをサポートします。
データソースとリソースグループ間のネットワーク接続の確立
データソースが使用したいリソースグループに接続できることを確認してください。ネットワーク接続の設定方法については、「ネットワーク接続ソリューション」をご参照ください。
(任意、RAM ユーザーに必須) RAM ユーザーをワークスペースに追加し、[開発] または [ワークスペース管理者] ロールを割り当てます。[ワークスペース管理者] ロールは高い権限を持つため、慎重に付与してください。詳細については、「ワークスペースへのメンバーの追加」をご参照ください。

制限事項

サポートされているリージョン：中国 (杭州)、中国 (上海)、中国 (北京)、中国 (深セン)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、ドイツ (フランクフルト)、米国 (シリコンバレー)、および米国 (バージニア)。

ステップ 1：Redshift ノードの作成

DataStudio ページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[データ開発・運用保守] > [データ開発] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発へ] をクリックします。
ターゲットのビジネスフローを右クリックし、[ノードの作成] > [データベース] > [Redshift] を選択します。
[ノードの作成] ダイアログボックスで、ノードの [名前] を入力し、[OK] をクリックします。ノードが作成されます。その後、ノードでタスクを開発および設定できます。

ステップ 2：Redshift タスクの開発

(任意) Redshift データソースの選択

ご利用のワークスペースに複数の Redshift データソースがある場合は、Redshift ノードの設定ページで適切なデータソースを選択する必要があります。Redshift データソースが 1 つしか存在しない場合は、それがデフォルトで使用されます。

説明

Redshift ノードは、Java Database Connectivity (JDBC) 接続文字列を使用して作成された Redshift データソースのみをサポートします。

SQL コードの開発：簡単な例

Redshift ノードのコードエディタで、実行したいタスクのコードを記述します。次のコードは一例です。

SELECT * FROM usertablename;

SQL コードの開発：スケジューリングパラメーターの使用

DataWorks が提供する [スケジューリングパラメーター] を使用すると、定期的なスケジュールシナリオで動的なリクエストパラメーターを使用できます。コード内で ${variable_name} フォーマットを使用して変数を定義できます。その後、ノード設定ページの右側のナビゲーションウィンドウにある [スケジュール] タブで、[スケジューリングパラメーター] セクションに移動し、これらの変数に値を割り当てることができます。スケジューリングパラメーターでサポートされているフォーマットと設定の詳細については、「スケジューリングパラメーターでサポートされているフォーマット」および「スケジューリングパラメーターの設定と使用」をご参照ください。

次のコードは一例です。

SELECT '${var}'; -- スケジューリングパラメーターと併用します。

ステップ 3：タスクスケジューリングの設定

タスクをスケジューリングするには、右側の [スケジューリング設定] をクリックしてプロパティを設定します。詳細については、「概要」をご参照ください。

説明

送信する前に、[再実行プロパティ] と [依存する上流ノード] を設定してください。

ステップ 4：タスクコードのデバッグ

タスクをデバッグして、正しく実行されることを確認します：

(任意) デバッグリソースグループを選択し、パラメーター値を割り当てます。
- ツールバーのアイコンをクリックします。[パラメーター] ダイアログボックスで、リソースグループを選択します。
- デバッグ用にスケジューリングパラメーターに値を割り当てます。パラメーターの割り当てロジックの詳細については、「タスクのデバッグプロセス」をご参照ください。
タスクコードを保存して実行します。
アイコンをクリックして保存し、アイコンをクリックして実行します。
(任意) スモークテストを実行します。
送信中または送信後にスモークテストを実行して、開発環境での実行を検証します。詳細については、「スモークテストの実行」をご参照ください。

ステップ 5：タスクの送信と公開

ノードを送信して公開し、スケジュールを有効化します。

ツールバーのアイコンをクリックしてノードを保存します。
ツールバーのアイコンをクリックしてノードタスクを送信します。
[送信] ダイアログボックスで、[変更の説明] を入力し、コードレビューオプションを選択します。
説明
- 送信する前に、[再実行プロパティ] と [依存する上流ノード] を設定してください。
- コードレビューは品質を保証します。有効になっている場合、レビュー担当者は公開前にコードを承認する必要があります。詳細については、「コードレビュー」をご参照ください。

標準モードのワークスペースでは、右上の [公開] をクリックして本番環境にデプロイします。詳細については、「タスクの公開」をご参照ください。

次のステップ

タスクが送信されて公開されると、ノードの設定に基づいて定期的に実行されます。ノード設定タブの右上にある [運用保守] をクリックして、オペレーションセンターに移動できます。オペレーションセンターでは、定期タスクのスケジューリングと実行ステータスを表示できます。詳細については、「定期タスクの管理」をご参照ください。