DataWorks の Redshift ノードを使用すると、Redshift タスクを開発し、定期的にスケジューリングできます。これらのタスクを他のジョブと統合することも可能です。このトピックでは、Redshift ノードを使用したタスク開発の主なプロセスについて説明します。
背景情報
Amazon Redshift は、クラウドで提供されるペタバイト規模のフルマネージドデータウェアハウスサービスです。Amazon Redshift Serverless を使用すると、プロビジョニングされたデータウェアハウスを構成することなく、データにアクセスして分析できます。詳細については、「Amazon Redshift」をご参照ください。
前提条件
ビジネスフローの作成
DataStudio では、ビジネスフローごとに開発が整理されます。ノードを作成する前に、ビジネスフローを作成する必要があります。詳細については、「ワークフローの作成」をご参照ください。
Redshift データソースの作成
データベースにアクセスする前に、ご利用の Redshift データベースを DataWorks の Redshift データソースとして追加する必要があります。データソースの作成方法の詳細については、「データソース管理」をご参照ください。DataWorks での Redshift データソースの使用方法の詳細については、「Amazon Redshift データソース」をご参照ください。
説明Redshift ノードは、Java Database Connectivity (JDBC) 接続文字列を使用して作成された Redshift データソースのみをサポートします。
データソースとリソースグループ間のネットワーク接続の確立
データソースが使用したいリソースグループに接続できることを確認してください。ネットワーク接続の設定方法については、「ネットワーク接続ソリューション」をご参照ください。
(任意、RAM ユーザーに必須) RAM ユーザーをワークスペースに追加し、[開発] または [ワークスペース管理者] ロールを割り当てます。[ワークスペース管理者] ロールは高い権限を持つため、慎重に付与してください。詳細については、「ワークスペースへのメンバーの追加」をご参照ください。
制限事項
サポートされているリージョン:中国 (杭州)、中国 (上海)、中国 (北京)、中国 (深セン)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、ドイツ (フランクフルト)、米国 (シリコンバレー)、および米国 (バージニア)。
ステップ 1:Redshift ノードの作成
DataStudio ページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発へ] をクリックします。
ターゲットのビジネスフローを右クリックし、 を選択します。
[ノードの作成] ダイアログボックスで、ノードの [名前] を入力し、[OK] をクリックします。ノードが作成されます。その後、ノードでタスクを開発および設定できます。
ステップ 2:Redshift タスクの開発
(任意) Redshift データソースの選択
ご利用のワークスペースに複数の Redshift データソースがある場合は、Redshift ノードの設定ページで適切なデータソースを選択する必要があります。Redshift データソースが 1 つしか存在しない場合は、それがデフォルトで使用されます。
Redshift ノードは、Java Database Connectivity (JDBC) 接続文字列を使用して作成された Redshift データソースのみをサポートします。
SQL コードの開発:簡単な例
Redshift ノードのコードエディタで、実行したいタスクのコードを記述します。次のコードは一例です。
SELECT * FROM usertablename;SQL コードの開発:スケジューリングパラメーターの使用
DataWorks が提供する [スケジューリングパラメーター] を使用すると、定期的なスケジュールシナリオで動的なリクエストパラメーターを使用できます。コード内で ${variable_name} フォーマットを使用して変数を定義できます。その後、ノード設定ページの右側のナビゲーションウィンドウにある [スケジュール] タブで、[スケジューリングパラメーター] セクションに移動し、これらの変数に値を割り当てることができます。スケジューリングパラメーターでサポートされているフォーマットと設定の詳細については、「スケジューリングパラメーターでサポートされているフォーマット」および「スケジューリングパラメーターの設定と使用」をご参照ください。
次のコードは一例です。
SELECT '${var}'; -- スケジューリングパラメーターと併用します。ステップ 3:タスクスケジューリングの設定
タスクをスケジューリングするには、右側の [スケジューリング設定] をクリックしてプロパティを設定します。詳細については、「概要」をご参照ください。
送信する前に、[再実行プロパティ] と [依存する上流ノード] を設定してください。
ステップ 4:タスクコードのデバッグ
タスクをデバッグして、正しく実行されることを確認します:
(任意) デバッグリソースグループを選択し、パラメーター値を割り当てます。
ツールバーの
アイコンをクリックします。[パラメーター] ダイアログボックスで、リソースグループを選択します。デバッグ用にスケジューリングパラメーターに値を割り当てます。パラメーターの割り当てロジックの詳細については、「タスクのデバッグプロセス」をご参照ください。
タスクコードを保存して実行します。
アイコンをクリックして保存し、
アイコンをクリックして実行します。(任意) スモークテストを実行します。
送信中または送信後にスモークテストを実行して、開発環境での実行を検証します。詳細については、「スモークテストの実行」をご参照ください。
ステップ 5:タスクの送信と公開
ノードを送信して公開し、スケジュールを有効化します。
ツールバーの
アイコンをクリックしてノードを保存します。ツールバーの
アイコンをクリックしてノードタスクを送信します。[送信] ダイアログボックスで、[変更の説明] を入力し、コードレビューオプションを選択します。
説明送信する前に、[再実行プロパティ] と [依存する上流ノード] を設定してください。
コードレビューは品質を保証します。有効になっている場合、レビュー担当者は公開前にコードを承認する必要があります。詳細については、「コードレビュー」をご参照ください。
標準モードのワークスペースでは、右上の [公開] をクリックして本番環境にデプロイします。詳細については、「タスクの公開」をご参照ください。
次のステップ
タスクが送信されて公開されると、ノードの設定に基づいて定期的に実行されます。ノード設定タブの右上にある [運用保守] をクリックして、オペレーションセンターに移動できます。オペレーションセンターでは、定期タスクのスケジューリングと実行ステータスを表示できます。詳細については、「定期タスクの管理」をご参照ください。