DataWorks のチェックノードは、MaxCompute パーティションテーブル、FTP ファイル、OSS ファイル、HDFS ファイル、OSS-HDFS ファイル、またはリアルタイム同期タスクなどのターゲットオブジェクトの可用性を検証します。チェックノードは、チェックポリシーが満たされると成功します。タスクがターゲットオブジェクトに依存している場合は、チェックノードを使用してオブジェクトの可用性を検証し、そのタスクをチェックノードのダウンストリーム依存関係として設定します。チェックが成功すると、チェックノードも成功となり、ダウンストリームタスクがトリガーされます。このトピックでは、チェックノードがチェックできるオブジェクト、使用可能なポリシー、およびノードの設定方法について説明します。
サポートされているオブジェクトとチェックポリシー
チェックノードは、データソースとリアルタイム同期タスクのみをチェックできます。チェックポリシーは次のとおりです:
-
データソース
-
MaxCompute パーティションテーブルまたは DLF (Paimon パーティションテーブル)
説明チェックノードは MaxCompute パーティションテーブル をサポートしますが、MaxCompute 非パーティションテーブル はサポートしていません。
チェックノードは、MaxCompute パーティションテーブルのデータの準備が完了しているかどうかを判断するために、次の 2 つのチェックポリシーを提供します。
-
ポリシー 1: ターゲットパーティションが存在するかどうかをチェックする
ターゲットパーティションが存在する場合、チェックノードはデータ生成が完了し、データが利用可能であると判断します。
-
ポリシー 2: ターゲットパーティションが指定期間内に更新されたかどうかをチェックする
ターゲットパーティションが指定期間内に更新された場合、チェックノードはデータ生成が完了し、データが利用可能であると判断します。
-
-
FTP、OSS、HDFS、または OSS-HDFS ファイル
ターゲットファイルが存在する場合、チェックノードはそれが利用可能であると判断します。
-
-
リアルタイム同期タスク
チェックは、チェックノードのスケジューリング時刻に基づきます。その時刻までにリアルタイム同期タスクがデータの書き込みを完了している場合、チェックに合格します。
また、チェック間隔 (連続するチェック間の時間) と停止条件 (最大チェック数またはチェック期限) を指定する必要があります。最大チェック数に達した、またはチェック期限を過ぎたにもかかわらずチェックに合格しない場合、チェックノードは失敗します。これらのポリシーの設定方法については、「ステップ 2: チェックポリシーの設定」をご参照ください。
-
チェックノードはターゲットオブジェクトを定期的にチェックします。チェックの想定開始時刻に基づいて、チェックノードのスケジューリング時刻を設定する必要があります。スケジューリング条件を満たすと、チェックノードは停止ポリシーに基づいてチェックに合格または失敗するまで、実行中のままです。スケジューリング設定の詳細については、「ステップ 3: タスクスケジューリングの設定」をご参照ください。
-
チェックノードは、チェックが完了するまでスケジューリングリソースを占有します。
制限事項
-
リソースグループの制約: チェックノードのタスクは、サーバーレスリソースグループでのみ実行できます。サーバーレスリソースグループの購入方法と使用方法については、「サーバーレスリソースグループの使用」をご参照ください。
-
データソースの制限: プロトコルが
SFTPに設定されており、キー 認証を使用するFTP データソースはサポートされていません。 -
ノード機能の制約
-
チェックノードでチェックできるオブジェクトは 1 つのみです。タスクが複数のオブジェクト (複数の MaxCompute パーティションテーブルなど) に依存している場合は、オブジェクトごとにチェックノードを作成してください。
-
チェックノードのチェック間隔は、
1~30分の範囲内である必要があります。
-
-
DataWorksエディションの制約: チェックノードは DataWorks Professional Edition 以降でのみ使用できます。以前のエディションを使用している場合は、アップグレードできます。詳細については、「DataWorksエディションの課金」をご参照ください。
-
サポートされているリージョン: チェックノードは、中国 (杭州)、中国 (上海)、中国 (北京)、中国 (深圳)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、ドイツ (フランクフルト)、英国 (ロンドン)、米国 (シリコンバレー)、米国 (バージニア) リージョンのワークスペースで使用できます。
前提条件
-
チェックノードが データソース をチェックする場合、まずオブジェクトタイプに基づいて対応するデータソースを作成する必要があります。
オブジェクトタイプ
準備
参照
MaxCompute パーティションテーブル
-
MaxCompute コンピュートエンジンが作成され、DataStudio にバインドされています。
DataWorks で MaxCompute コンピュートエンジンを作成してバインドすると、MaxCompute データソースが自動的に作成されます。
-
MaxCompute パーティションテーブルが存在する必要があります。
FTP ファイル
FTP データソースが存在する必要があります。
DataWorks では、FTP サービスからデータにアクセスするには、そのサービスを FTP データソースとして登録する必要があります。
OSS ファイル
OSS データソースが作成され、そのアクセスモードが [アクセスキー] に設定されています。
DataWorks では、OSS バケット内のデータにアクセスするには、そのバケットを OSS データソースとして登録する必要があります。
説明チェックノードは、RAM ロールベースの認可で設定された OSS データソースには対応していません。
HDFS ファイル
HDFS データソースが存在する必要があります。
DataWorks では、HDFS サービス内のデータにアクセスするには、そのサービスを HDFS データソースとして登録する必要があります。
OSS-HDFS ファイル
OSS-HDFS データソースが存在する必要があります。
DataWorks では、OSS-HDFS サービスのデータにアクセスするには、そのサービスを OSS-HDFS データソースとして登録する必要があります。
-
-
チェックノードが リアルタイム同期タスク をチェックする場合、Kafka から MaxCompute にデータを同期するタスクにのみ対応しています。チェックノードを使用する前に、リアルタイム同期タスクを作成してください。詳細については、「リアルタイム同期タスクの設定 (旧バージョン)」をご参照ください。
ステップ 1:チェックノードの作成
DataStudioページに移動します。
DataWorks コンソールにログインします。 左側のナビゲーションウィンドウで、 を選択します。 表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[DataStudioに移動] をクリックします。
-
アイコンをクリックし、 を選択します。画面の指示に従って、ノードパスや名前などの情報を入力します。
ステップ 2:チェックポリシーの設定
ビジネス要件に応じて、チェックノードを設定してデータソースまたはリアルタイム同期タスクをチェックし、対応するポリシーを設定します。
データソース
MaxCompute パーティションテーブル
FTP ファイル
OSS ファイル
HDFS ファイル
OSS-HDFS ファイル
リアルタイム同期タスク
次の表にパラメーターを示します。
|
パラメーター |
説明 |
|
[Check Object] |
Real-time Synchronization Task を選択します。 |
|
[Real-time Synchronization Task] |
チェック対象のリアルタイム同期タスク。 説明
|
|
[Policy for Stopping Check] |
チェックノードタスクの停止ポリシー。チェック期限または最大チェック数を設定し、チェック頻度を設定できます。
|
ステップ 3:タスクスケジューリングの設定
チェックノードを使用してパーティションデータを定期的にチェックする必要がある場合は、ノード編集タブの右側のペインで Scheduling をクリックし、必要に応じてノードのスケジューリングプロパティを設定します。詳細については、「基本プロパティの設定」をご参照ください。
一般的な自動トリガーノードと同様に、チェックノードでも、スケジューリング依存関係やスケジューリング時間などのスケジューリングプロパティを設定する必要があります。DataWorks では、各ノードにアップストリーム依存関係が必要です。チェックノードに実際のアップストリーム依存関係がない場合は、ビジネスワークフローの複雑さに応じて、その依存関係をゼロロードノードまたはワークスペースのルートノードに設定できます。詳細については、「ゼロロードノードの作成」をご参照ください。
ノードを送信する前に、プロパティの Rerun attribute と Parent Nodes を設定する必要があります。
ステップ 4: タスクの送信と発行
ノードタスクを設定した後、送信して発行する必要があります。タスクが発行されると、スケジューリング設定に基づいて定期的に実行されます。
-
ツールバーの
アイコンをクリックして、ノードを保存します。 -
ツールバーの
アイコンをクリックして、ノードタスクを送信します。Submission ダイアログボックスで、Change Description を入力します。ノードの送信後に、コードレビューとスモークテストを実行することもできます。
説明-
ノードを送信する前に、Rerun attribute と Parent Nodes のプロパティを設定する必要があります。
-
コードレビューは、タスクコードの品質管理に役立ち、レビューされていない誤ったコードが本番環境に発行されることで発生しうるエラーを防ぎます。コードレビューを有効にすると、送信されたコードは、発行される前にレビュアーが承認する必要があります。詳細については、「コードレビュー」をご参照ください。
-
スケジュールされたノードタスクが期待どおりに実行されることを確認するため、発行前にタスクのスモークテストを実行することを推奨します。詳細については、「スモークテスト」をご参照ください。
-
標準モードのワークスペースを使用している場合は、ノード編集タブの右上隅にある Deploy をクリックして、タスクを本番環境に発行する必要があります。詳細については、「タスクの発行」をご参照ください。
次のステップ
チェックノードがオペレーションセンターに送信・公開されると、その設定に基づいて定期的に実行されます。オペレーションセンターでは、チェック結果を表示し、関連する O&M オペレーションを実行できます。詳細については、「自動トリガーノードの基本的な O&M オペレーション」をご参照ください。