DataWorks の Vertica ノードを使用して、Vertica タスクの開発、スケジューリング、統合を行うことができます。
背景情報
Vertica は、大規模なデータセットの高速処理とクエリのために設計された、パフォーマンス専有型の列指向データベース管理システム (DBMS) です。ビッグデータ分析やリアルタイムクエリに最適です。詳細については、Vertica の公式サイトをご参照ください。
前提条件
-
ワークフローの作成
DataStudio では、さまざまなエンジンのタスクをワークフロー内で開発します。そのため、ノードを作成する前にワークフローを作成する必要があります。詳細については、「ワークフローの作成」をご参照ください。
Vertica データソースの作成
Vertica データベースのデータにアクセスするには、DataWorks で Vertica データベースを Vertica データソースとして追加する必要があります。データソースの作成方法の詳細については、「データソースの管理」をご参照ください。DataWorks での Vertica データソースの使用方法の詳細については、「Vertica データソース」をご参照ください。
説明Vertica ノードは、Java Database Connectivity (JDBC) 接続文字列方式で作成された Vertica データソースのみをサポートします。
データソースとリソースグループ間のネットワーク接続の確立
使用したいリソースグループに目的のデータソースが接続されていることを確認する必要があります。ネットワーク接続の設定方法の詳細については、「リソースグループとデータソース間のネットワーク接続の確立」をご参照ください。
-
(オプション、RAM ユーザーの場合) タスク開発用の RAM ユーザーをワークスペースに追加し、Development ロールまたは スペースマネージャー ロールを付与します。ワークスペース管理者ロールには広範な権限があるため、慎重に割り当ててください。メンバーの追加とロールの付与の詳細については、「ワークスペースへのメンバーの追加」をご参照ください。
制限事項
サポートされているリージョン:中国 (杭州)、中国 (上海)、中国 (北京)、中国 (深セン)、中国 (成都)、中国 (香港)、シンガポール、マレーシア (クアラルンプール)、ドイツ (フランクフルト)、米国 (シリコンバレー)、および米国 (バージニア)。
ステップ 1: Vertica ノードの作成
DataStudio ページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発へ移動] をクリックします。
対象のワークフローを右クリックし、 を選択します。
Create Node ダイアログボックスで、ノードの Name を入力し、OK をクリックします。ノードが作成されたら、ノード内でタスクを開発および設定できます。
ステップ 2: Vertica タスクの開発
(オプション) Vertica データソースの選択
ワークスペースに複数の Vertica データソースが作成されている場合は、Vertica ノードの設定タブで適切なデータソースを選択する必要があります。Vertica データソースが 1 つしか作成されていない場合は、デフォルトで使用されます。
Vertica ノードは、Java Database Connectivity (JDBC) 接続文字列方式で作成された Vertica データソースのみをサポートします。
SQL コードの開発:簡単な例
Vertica ノードのコードエディタで、タスクの SQL コードを記述します。以下のコードは一例です。
SELECT * FROM usertablename;スケジューリングパラメーターの使用
DataWorks は、定期的なスケジューリングのためにコードに動的に値を渡すことができる Scheduling Parameter を提供します。${variable_name} 形式を使用して、タスクコード内で変数を定義できます。その後、ノード編集ページの右側のナビゲーションウィンドウで、プロパティ > Scheduling Parameter を選択し、変数に値を割り当てます。サポートされているフォーマットとスケジューリングパラメーターの設定方法の詳細については、「スケジューリングパラメーターのフォーマット」および「スケジューリングパラメーターの設定と使用」をご参照ください。
以下のコードは一例です。
SELECT '${var}'; -- スケジューリングパラメーターの使用例。ステップ 3: タスクスケジューリングの設定
タスクを定期的に実行する必要がある場合は、ノードエディターの右側のナビゲーションウィンドウで Scheduling をクリックします。要件に基づいてノードのスケジューリング情報を設定します。詳細については、「タスクのスケジューリングプロパティの設定」をご参照ください。
ノードを送信する前に、ノードの Rerun attribute と Parent Nodes プロパティを設定する必要があります。
ステップ 4: タスクのデバッグ
タスクをデバッグして、期待どおりに実行されることを確認します:
-
コードを実行するリソースグループを選択し、カスタムパラメーターに値を割り当てます。
-
ツールバーの
アイコンをクリックします。Parameter ダイアログボックスで、デバッグに使用するスケジューリングリソースグループを選択します。 -
コードでスケジューリングパラメーター変数を使用する場合は、ここでデバッグ値を割り当てます。パラメーターの割り当てロジックの詳細については、「タスクのデバッグ」をご参照ください。
-
-
コードを保存して実行します。
ツールバーの
アイコンをクリックしてコードを保存します。次に、
アイコンをクリックしてタスクを実行します。 -
(オプション) スモークテストの実行
定期タスクが期待どおりに実行されることを確認するために、ノードの送信時または送信後に開発環境でスモークテストを実行できます。詳細については、「スモークテストの実行」をご参照ください。
ステップ 5: タスクの送信とデプロイ
ノードを設定した後、送信してデプロイする必要があります。その後、ノードはスケジューリング設定に基づいて定期的に実行されます。
-
ツールバーの
アイコンをクリックしてノードを保存します。 -
ツールバーの
アイコンをクリックしてノードタスクを送信します。Submission ダイアログボックスで、Change Description を入力し、ノードの送信後にコードレビューをリクエストするかどうかを選択します。
説明-
ノードを送信するには、そのノードの Rerun attribute と Parent Nodes を設定する必要があります。
-
コードレビュー機能は、コードの品質を保証し、未検証のコードが本番環境にデプロイされる際に発生する可能性のあるエラーを防ぎます。この機能を有効にすると、デプロイ前にレビュー担当者が送信されたコードを承認する必要があります。詳細については、「コードレビュー」をご参照ください。
-
ワークスペースが標準モードの場合、タスクを送信してから、ノードエディターページの右上隅にある [デプロイ] をクリックして、本番環境にデプロイします。詳細については、「タスクのデプロイ」をご参照ください。
次のステップ
タスクの O&M:タスクがコミットされデプロイされると、スケジューリング設定に基づいて定期的に実行されます。ノードエディターの右上隅にある [オペレーションセンター] をクリックして、スケジューリングと運用のステータスをモニターできます。詳細については、「自動トリガータスクの管理」をご参照ください。