DataWorks の StarRocks ノードを使用すると、StarRocks タスクを開発して定期的にスケジュールし、他のジョブと統合できます。このトピックでは、StarRocks ノードを使用してタスクを開発する主な手順について説明します。
背景情報
StarRocks は、次世代の超高速かつ全シナリオ対応の超並列処理 (MPP) データベースであり、MySQL プロトコルと互換性のある OLAP 分析エンジンです。優れたパフォーマンスを提供し、多次元 OLAP 分析、データレイク分析、高同時実行クエリ、リアルタイムデータ分析などの豊富な OLAP シナリオに対応しています。
前提条件
-
ビジネスフローが作成されている必要があります。
Data Studio では、ビジネスフローに基づいてエンジン固有の開発操作を実行します。ノードを作成する前に、まずビジネスフローを作成してください。詳細については、「ビジネスフローの作成」をご参照ください。
-
StarRocks データソースが作成されている必要があります。
まず、StarRocks データベースを DataWorks に StarRocks データソースとして登録する必要があります。詳細については、「StarRocks データソースの作成」をご参照ください。
説明StarRocks ノードは、JDBC 接続文字列を使用して作成された StarRocks データソースのみをサポートします。
-
(オプション。RAM ユーザーの場合は必須) タスク開発に使用する RAM ユーザーがターゲットワークスペースに追加され、[Development] または [スペースマネージャー] ロール (広範な権限を付与するため、慎重に割り当ててください) のいずれかが割り当てられている必要があります。メンバーの追加と権限の付与の詳細については、「ワークスペースへのメンバーの追加」をご参照ください。
制限事項
サポートされているリージョン:中国 (杭州)、中国 (上海)、中国 (北京)、中国 (深セン)、中国 (成都)、中国 (香港)、シンガポール、マレーシア (クアラルンプール)、ドイツ (フランクフルト)、米国 (シリコンバレー)、米国 (バージニア)。
ステップ 1: StarRocks ノードの作成
DataStudioページに移動します。
DataWorks コンソールにログインします。 左側のナビゲーションウィンドウで、 を選択します。 表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[DataStudioに移動] をクリックします。
-
ターゲットビジネスフローを右クリックし、 を選択します。
-
[Create Node] ダイアログボックスで、ノードの [Name] を入力し、[OK] をクリックします。ノードが作成されます。これで、ノードでタスクを開発および設定できます。
ステップ 2: StarRocks タスクの開発
(オプション) StarRocks データソースの選択
ワークスペースに複数の StarRocks データソースがある場合は、StarRocks ノード編集ページの上部にあるドロップダウンリストからターゲットデータソースを選択します。StarRocks データソースが 1 つしかない場合は、デフォルトでそれが使用されます。
StarRocks ノードは、JDBC 接続文字列を使用して作成された StarRocks データソースのみをサポートします。
SQL コードの開発:簡単な例
StarRocks ノードのコードエディターで StarRocks タスクを記述します。次の例では、StarRocks データベース内のすべてのベーステーブルに関する情報をクエリします。
SELECT * FROM information_schema.tables
WHERE table_type = 'BASE TABLE';
SQL コードの開発:カタログとデータベースの切り替え
SET CATALOG catalog_name; -- 現在のセッションで有効なカタログを切り替えます。
USE catalog_name.db_name; -- 現在のセッションで有効なデータベースを指定します。
カタログ名またはデータベース名がキーワードの場合は、バッククォート () で囲んで解析エラーを回避してください。
SQL コードの開発:スケジューリングパラメーターの使用
DataWorks の [Scheduling Parameter] を使用すると、定期実行の際に動的な値を入力できるようになります。ノードタスクで、 ${変数名} の形式を使用してコードに変数を定義します。次に、右側のナビゲーションペインの [Scheduling] > [Scheduling Parameter] セクションで、これらの変数に値を割り当てます。サポートされている形式と設定の詳細については、「サポートされているスケジューリングパラメーターの形式」および「スケジューリングパラメーターの設定と使用」をご参照ください。
次の例では、スケジューリングパラメーター a が $[yyyymmdd] (今日の日付) に設定されています。このコードは、当日に作成されたテーブルをクエリします。
SELECT * FROM information_schema.tables
WHERE CREATE_TIME = '${a}';
ステップ 3: タスクスケジューリングの設定
ノードタスクを定期的に実行するには、ノード編集ページの右側にある [Scheduling] をクリックし、必要に応じてスケジューリング設定を構成します。詳細については、「タスクスケジューリングプロパティの概要」をご参照ください。
ノードを送信する前に、ノードの [Rerun attribute] と [Parent Nodes] を設定する必要があります。
ステップ 4: タスクコードのテスト
タスクが期待どおりに動作することを確認するために、必要に応じて次のテスト操作を実行します。
-
(オプション) リソースグループを選択し、カスタムパラメーター値を割り当てます。
-
ツールバーの
アイコンをクリックします。[Parameter] ダイアログボックスで、テスト用のスケジュールリソースグループを選択します。 -
タスクコードでスケジューリングパラメーター変数を使用している場合は、ここでテスト用の値を割り当てます。パラメーター割り当てロジックの詳細については、「タスクデバッグプロセス」をご参照ください。
-
-
タスクコードを保存して実行します。
ツールバーの
アイコンをクリックしてタスクコードを保存します。次に、
アイコンをクリックしてタスクを実行します。 -
(オプション) スモークテストを実行します。
開発環境でスモークテストを実行し、スケジュールされたタスクが期待どおりに実行されることを確認するには、ノード送信中または送信後にスモークテストを実行します。詳細については、「スモークテストの実行」をご参照ください。
ステップ 5: タスクの送信とパブリッシュ
ノードタスクを設定したら、送信してパブリッシュします。パブリッシュされると、ノードはスケジューリング設定に基づいて定期的に実行されます。
-
ツールバーの
アイコンをクリックしてノードを保存します。 -
ツールバーの
アイコンをクリックしてノードタスクを送信します。[Submission] ダイアログボックスで、[Change Description] を入力します。必要に応じて、送信後にコードレビューを要求するかどうかを選択します。
説明-
ノードを送信する前に、ノードの [Rerun attribute] と [Parent Nodes] を設定する必要があります。
-
コードレビューは、コード品質を確保し、レビューされていないコードが本番環境に直接パブリッシュされることによるエラーを防ぎます。コードレビューが有効になっている場合、送信されたノードコードは、パブリッシュする前にレビュー担当者の承認を受ける必要があります。詳細については、「コードレビュー」をご参照ください。
-
標準モードのワークスペースを使用している場合、タスクの送信に成功したら、ノード編集ページの右上隅にある [パブリッシュ] をクリックして、タスクを本番環境にデプロイします。詳細については、「タスクのパブリッシュ」をご参照ください。
次のステップ
タスクが送信およびパブリッシュされると、設定に基づいて定期的に実行されます。ノード編集画面の右上隅にある [O&M Personnel] をクリックして、オペレーションセンターに移動し、定期タスクのスケジューリングステータスを監視します。詳細については、「定期タスクの管理」をご参照ください。