DataWorks のデータ品質モニタリングノードでは、監視ルールを設定することで、さまざまなデータソースから取得したテーブルのデータ品質を監視できます。たとえば、これらのルールを使用して「不正データ」を検出できます。また、カスタムスケジューリングポリシーを定義し、データ検証タスクを定期的に実行することも可能です。本トピックでは、データ品質モニタリングノードの使用方法について説明します。
背景情報
DataWorks のデータ品質機能は、ソースデータの変化を検出し、ETL(Extract、Transform、Load)プロセス中に生成される不正データを特定するのに役立ちます。また、問題のあるタスクを自動的にブロックし、不適切なデータが後続の処理に伝播するのを防ぎます。これにより、タスクの出力結果が期待通りとなり、ビジネス運用への影響を回避できます。さらに、トラブルシューティングおよびタスクの再実行に要する時間とコストを大幅に削減できます。詳細については、「Data Quality」をご参照ください。
制限事項
監視対象としてサポートされるテーブルの種類には、MaxCompute、E-MapReduce、Hologres、CDH Hive、AnalyticDB for PostgreSQL、AnalyticDB for MySQL、StarRocks があります。
以下の条件を満たすテーブルのみを監視できます。
監視対象テーブルは、ノードが属するワークスペースにバインドされたデータソースに所属している必要があります。
各ノードで監視できるテーブルは 1 つだけですが、そのテーブルに対して複数の監視ルールを設定できます。監視範囲はテーブルの種類によって異なります。
非パーティションテーブルの場合、デフォルトでテーブル全体が監視対象となります。
パーティションテーブルの場合、パーティション式を使用して監視対象のパーティションを指定する必要があります。
説明複数のテーブルを監視する必要がある場合は、各テーブルごとに個別のノードを作成してください。
以下の操作上の制限が適用されます。
DataStudio で作成したデータ品質監視ルールは、DataStudio 内でのみ実行、変更、公開が可能です。これらのルールは Data Quality モジュールで閲覧できますが、そこでスケジュール実行をトリガーしたり、管理操作を実行したりすることはできません。
データ品質モニタリングノードの監視ルールを変更してノードを公開すると、元の監視ルールが上書きされます。
前提条件
コンピューティングリソースをバインドし、そのリソース内で監視対象のテーブルを作成済みである必要があります。
データ品質モニタリングタスクを実行する前に、監視対象のテーブルを作成する必要があります。詳細については、「コンピューティングリソースの関連付け」および「ノード開発」をご参照ください。
リソースグループを作成しました。
データ品質モニタリングノードの実行には、Serverless リソースグループのみを使用できます。詳細については、「リソースグループ管理」をご参照ください。
(任意:RAM ユーザーの場合に必須)タスク開発用の RAM ユーザーが対応するワークスペースに追加され、Developer または Workspace Administrator のロールが割り当てられている必要があります。なお、Workspace Administrator ロールは広範な権限を持つため、慎重に付与してください。メンバーの追加および権限の付与に関する詳細については、「ワークスペースへのメンバー追加」をご参照ください。
ステップ 1:品質モニタリングノードの作成
DataWorks コンソールの ワークスペース ページに移動します。上部ナビゲーションバーから、目的のリージョンを選択します。目的のワークスペースを見つけ、操作 列の を選択します。
左側のナビゲーションウィンドウで
をクリックして DataStudio に移動します。ビジネスフロー の右側にある
をクリックし、 を選択します。画面上の指示に従って、ノードのパスおよび名前を入力し、ノードを作成します。
ステップ 2:データ品質監視ルールの構成
1. テーブルの選択
データ品質モニタリングノードの構成ページで、テーブルの追加 をクリックします。テーブルの追加 ダイアログボックスで、監視対象のテーブルを選択します。「詳細」フィルターを使用すると、テーブルを素早く見つけられます。
テーブルが表示されない場合は、「マイデータ」に移動して、該当テーブルを検索・管理してください。
2. データ範囲の指定
非パーティションテーブルの場合、デフォルトでテーブル全体が監視対象となります。このステップはスキップできます。
パーティションテーブルの場合、監視対象の特定のパーティションを選択する必要があります。式内に スケジューリングパラメーター を使用できます。パーティション式が正しく評価されることを確認するには、プレビュー をクリックします。
3. データ品質監視ルールの構成
新規ルールを作成するか、既存のルールをインポートできます。デフォルトでは、構成済みのすべてのルールが有効になります。
データ品質モニタリングノードは、コパイロットルール推奨 機能をサポートしており、テーブル情報に基づいて品質ルールを知的に生成します。これらの推奨内容は、必要に応じて承認または拒否できます。
DataWorks コパイロット コードプログラミングアシスタント 機能は、一部のリージョンでパブリックプレビュー中です。ご利用のリージョンでこの機能が利用できない場合は、以下に記載する手順に従って、手動でルールを作成またはインポートしてください。
ルールの作成
ルールの作成 をクリックして、テンプレートまたはカスタム SQL に基づくデータ品質監視ルールを作成します。以下でそれぞれの方法について説明します。
システムテンプレート
プラットフォームには、さまざまな組み込み監視ルールが提供されています。これらのテンプレートを使用すると、データ品質監視ルールを迅速に作成できます。以下の図は、このプロセスを示しています。
説明あるいは、左側のシステムテンプレート一覧からルールテンプレートを検索し、+ 使用 をクリックしてルールを作成することもできます。

カスタムテンプレート
この方法を使用する前に、まず に移動してカスタムルールテンプレートを作成する必要があります。その後、このテンプレートを使用してデータ品質監視ルールを作成できます。詳細については、「カスタムルールテンプレートの作成および管理」をご参照ください。
以下の図は、カスタムテンプレートに基づくデータ品質ルールの作成方法を示しています。
説明あるいは、左側のカスタムテンプレート一覧からカスタムルールテンプレートを検索し、+ 使用 をクリックしてルールを作成することもできます。

カスタム SQL
この方法では、テーブル向けのカスタムデータ品質検証ロジックを定義できます。

既存ルールのインポート
対象テーブル向けに、Data Quality モジュールで既に監視ルールを作成済みの場合は、それらをインポートしてルールを迅速に複製できます。ルールが存在しない場合は、まず Data Quality モジュールでルールを作成する必要があります。詳細については、「ルールの構成:テーブル単位(単一テーブル)」をご参照ください。
説明この方法では、複数のルールを一度にインポートし、テーブルレベルまたはフィールドレベルで構成できます。
ルールのインポート をクリックします。その後、ルール ID または名前、ルールテンプレート、関連する範囲(テーブル全体または特定のテーブルフィールド)で検索し、インポートするルールを選択できます。

データ品質モニタリングノード を公開した後、その監視ルールの詳細を Data Quality モジュールで確認できます。ただし、Data Quality モジュールからはこれらのルールを変更または削除することはできません。
4. 実行時リソースの構成
品質ルールチェックを実行するために必要な実行時リソースを選択します。これらのリソースは、監視タスクが実行されるデータソースを決定します。デフォルトでは、監視対象のテーブルが含まれるデータソースと同じものが選択されます。
異なるデータソースを選択する場合は、そのデータソースがテーブルに対する必要なアクセス権限を持っていることを確認してください。
ステップ 3:アラート処理ポリシーの構成
ノード構成ページの 品質モニタリングハンドラー セクションで、データ品質チェックによってトリガーされるアラートの処理ポリシーおよびサブスクリプション方法を構成できます。
アラートカテゴリ
アラートカテゴリ | 説明 |
強ルールのチェック失敗 |
|
強ルールの赤色アラート | |
強ルールのオレンジ色アラート | |
弱ルールのチェック失敗 | |
弱ルールの赤色アラート | |
弱ルールのオレンジ色アラート |
アラート処理ポリシー
ルールチェックによってトリガーされるアラートの処理ポリシーを構成できます。
継続:このポリシーでは、特定のアラート(たとえば、強ルールからの重大アラート)が検出された場合に、現在のノードを停止して失敗状態にするようシステムを構成できます。
説明現在のノードが失敗した場合、後続ノードは実行されません。これにより、プロダクションパイプラインがブロックされ、問題のあるデータが伝播するのを防ぎます。
このポリシーでは、複数のアラートカテゴリをチェックするよう構成できます。
このポリシーは、アラートがダウンストリームタスクをブロックする必要がある重大な問題を示す場合に通常使用されます。
無視:アラートを無視し、後続ノードの実行を継続させます。
アラートサブスクリプション方法
メールなどの通知方法を構成して、アラート通知を受信できます。アラートがトリガーされると、プラットフォームは指定されたチャネルを通じて通知を送信し、問題を迅速に検出して対応できるようにします。
プラットフォームでは、UI によって異なる通知方法がサポートされています。サポートされる方法には、以下のようなものがあります。
メール、メールおよび SMS、電話による通知の場合、受信者として現在のアカウント配下のユーザーのみを選択できます。これらのユーザーの連絡先情報が正しいことを確認してください。詳細については、「アラート連絡先の表示および設定」をご参照ください。
その他の方法の場合、通知を受信するために Webhook URL を入力する必要があります。URL の取得方法については、「Webhook URL の取得」をご参照ください。
ステップ 4:タスクのスケジューリング構成
ノードタスクをスケジュール実行する必要がある場合は、ノード構成ページの右側にある プロパティ をクリックします。ビジネス要件に応じて、ノードのスケジューリング情報を構成します。詳細については、「ノードのスケジューリング構成」をご参照ください。
ステップ 5:タスクのデバッグ
タスクが期待通りに実行されることを確認するために、以下のデバッグ操作を実行できます。
(任意)スケジューリング用のリソースグループを選択し、カスタムパラメーターに値を割り当てます。
データ品質モニタリングノードの右側で、Run Configuration をクリックし、デバッグ実行用の スケジューリングリソースグループ を構成します。
タスクでスケジューリングパラメーターを使用する場合、パラメーター セクションで変数に値を割り当てることができます。パラメーター割り当てのロジックについては、「タスクデバッグプロセス」をご参照ください。
タスクを保存して実行します。
タスクを保存するには、上部ツールバーの
アイコンをクリックします。タスクを実行するには、
アイコンをクリックします。タスクの実行が完了したら、ノード構成ページの下部で結果を確認できます。実行に失敗した場合は、エラーメッセージに基づいてトラブルシューティングを行えます。
ステップ 6:タスクの公開
ノードタスクを構成した後、それを公開する必要があります。公開後、ノードはスケジューリング構成に基づいて定期的に実行されます。
データ品質モニタリングノードを公開すると、構成済みの品質ルールも同時に公開されます。
上部ツールバーの
アイコンをクリックしてノードを 保存 します。上部ツールバーの
アイコンをクリックしてノードを 公開 します。
ノードの公開方法については、「ノードおよびワークフローのデプロイメント」をご参照ください。
次のステップ
タスクの O&M:タスクを公開すると、ノードのスケジューリング構成に基づいて定期的に実行されます。ノード構成ページの右上隅にある O&M をクリックして O&M センターに移動できます。そこでは、定期タスクのスケジューリングおよび実行ステータス(ノードステータスおよびトリガーされたルールの詳細を含む)を確認できます。詳細については、「定期タスクの管理」をご参照ください。
データ品質:データ品質モニタリングルールを公開した後、Data Quality モジュールに移動してその詳細を確認することもできます。ただし、そこではルールの変更や削除などの管理操作は実行できません。詳細については、「Data Quality」をご参照ください。