DataWorks はデータ品質監視ノードを提供します。これらのノードで監視ルールを構成して、ダーティデータの検出など、データソース内のテーブルのデータ品質をチェックできます。また、カスタムスケジューリングポリシーを定義して、監視タスクを定期的に実行することもできます。このトピックでは、データ品質監視ノードの使用方法について説明します。
背景情報
DataWorks の Data Quality 機能は、ソースデータの変更を検出し、抽出・変換・書き出し (ETL) プロセス中に生成されたダーティデータを追跡するのに役立ちます。問題のあるタスクを自動的にブロックして、ダーティデータがダウンストリームノードに広がるのを防ぎます。これにより、タスクが予期しないデータを生成して、通常の運用やビジネス上の意思決定に影響を与えるのを防ぎます。また、トラブルシューティングに費やす時間を大幅に短縮し、タスクの再実行によるリソースの浪費を回避します。詳細については、「Data Quality」をご参照ください。
制限事項
サポートされているデータソースタイプ: MaxCompute、E-MapReduce、Hologres、CDH Hive、AnalyticDB for PostgreSQL、AnalyticDB for MySQL、および StarRocks。
サポートされているテーブルの範囲:
データ品質監視ノードと同じワークスペースにバインドされているデータソース内のテーブルのみを監視できます。
各ノードは 1 つのテーブルしか監視できませんが、ノードに対して複数の監視ルールを構成できます。監視範囲はテーブルのタイプによって異なります:
非パーティションテーブル: デフォルトではテーブル全体が監視されます。
パーティションテーブル: パーティションフィルター式を指定して、特定のパーティションを監視します。
説明複数のテーブルを監視するには、複数のデータ品質監視ノードを作成する必要があります。
サポートされている操作の制限:
DataStudio で作成された Data Quality モニタリングルールは、DataStudio でのみ実行、変更、公開、管理できます。これらのルールは Data Quality モジュールで表示できますが、そこでスケジュールされた実行をトリガーしたり、管理したりすることはできません。
データ品質監視ノードの監視ルールを変更してからノードを公開すると、元の監視ルールが置き換えられます。
前提条件
ビジネスフローが作成されている。
データ開発 (DataStudio) では、さまざまなデータソースの開発操作がビジネスフローに基づいて実行されます。したがって、ノードを作成する前にビジネスフローを作成する必要があります。詳細については、「ビジネスフローの作成」をご参照ください。
データソースが作成され、現在のワークスペースにバインドされており、監視対象のテーブルがデータソースに作成されている。
データ品質監視タスクを実行する前に、監視ノードが監視するテーブルをデータソースに作成する必要があります。詳細については、「データソース管理」、「リソース管理」、および「ノード開発」をご参照ください。
リソースグループが作成されている。
データ品質監視ノードは、Serverless リソースグループでのみ実行できます。詳細については、「リソース管理」をご参照ください。
(オプション、RAM ユーザー向け) タスク開発用のリソースアクセス管理 (RAM) ユーザーがワークスペースに追加され、[開発者] または [ワークスペース管理者] ロールが付与されている。ワークスペース管理者ロールには広範な権限があるため、慎重に付与する必要があります。メンバーの追加と権限の付与の詳細については、「ワークスペースメンバーの追加」をご参照ください。
ステップ 1: データ品質監視ノードの作成
DataStudio ページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発へ] をクリックします。
対象のビジネスフローを右クリックし、 を選択します。
[ノードの作成] ダイアログボックスで、ノードの [名前] を入力し、[確認] をクリックします。ノードが作成されたら、ノードの構成ページでタスクを開発および構成できます。
ステップ 2: データ品質監視ルールの構成
1. 監視するテーブルの選択
2. 監視のデータ範囲の構成
3. データ品質監視ルールの構成
4. コンピューティングリソースの構成
ステップ 3: チェック結果の処理ポリシーの構成
ノード構成ページの [品質監視と処理] セクションで、異常なチェック結果を処理するためのポリシーと、それらをサブスクライブするためのメソッドを構成できます。
例外カテゴリ
例外の処理ポリシー
例外のサブスクリプションメソッド
ステップ 4: タスクスケジューリングの構成
作成したノードタスクを定期的に実行するには、ノード構成ページの右側のペインで [スケジューリング] をクリックし、必要に応じてノードタスクのスケジューリングプロパティを構成します。詳細については、「ノードのスケジューリングプロパティの構成」をご参照ください。
ノードを送信する前に、ノードの [再実行] および [親ノード] プロパティを設定する必要があります。
ステップ 5: タスクのデバッグ
必要に応じて次のデバッグ操作を実行し、タスクが期待どおりに実行されるかどうかを確認します。
(オプション) リソースグループを選択し、カスタムパラメーターに値を割り当てます。
ツールバーの
アイコンをクリックします。[パラメーター] ダイアログボックスで、デバッグに使用するスケジューリングリソースグループを選択します。タスクがスケジューリングパラメーターを使用する場合、ここでデバッグ用に変数に値を割り当てることができます。パラメーター割り当てロジックの詳細については、「タスクのデバッグプロセス」をご参照ください。
次の図は、スケジューリングパラメーター構成の例を示しています。

タスクの保存と実行
ツールバーの
アイコンをクリックしてタスクを保存します。
アイコンをクリックしてタスクを実行します。タスクが完了したら、ノード構成ページの下部で実行結果を表示できます。実行が失敗した場合は、エラーメッセージに基づいて問題をトラブルシューティングします。
(オプション) スモークテストの実行
開発環境でスモークテストを実行して、スケジューリングノードタスクが期待どおりに実行されるかどうかを確認する場合は、ノードの送信時またはノードの送信後にスモークテストを実行できます。詳細については、「スモークテストの実行」をご参照ください。
ステップ 6: タスクの送信と公開
ノードタスクが構成されたら、送信して公開します。ノードが公開されると、そのスケジューリング構成に基づいて定期的に実行されます。
ノードを送信して公開すると、ノードに構成されている品質ルールも送信および公開されます。
ツールバーの
アイコンをクリックしてノードを保存します。ツールバーの
アイコンをクリックしてノードタスクを送信します。タスクを送信するときは、[送信] ダイアログボックスに [変更の説明] を入力します。必要に応じて、ノードの送信後にコードレビューを実行するかどうかを選択することもできます。
説明ノードを送信する前に、ノードの [再実行] および [親ノード] プロパティを設定する必要があります。
コードレビューは、タスク構成の品質を管理し、レビューなしで誤った構成がオンラインで公開された場合に発生する可能性のあるエラーを防ぐのに役立ちます。コードレビューを実行する場合、送信されたノードは、レビュー担当者によって承認された後にのみ公開できます。詳細については、「コードレビュー」をご参照ください。
標準モードのワークスペースを使用している場合、タスクが正常に送信された後、ノード構成ページの右上隅にある [公開] をクリックして、タスクを本番環境に公開します。詳細については、「タスクの公開」をご参照ください。
次のステップ
タスクの O&M: タスクが送信および公開されると、ノードの構成に基づいて定期的に実行されます。ノード構成ページの右上隅にある [O&M] をクリックしてオペレーションセンターに移動し、ノードのステータスやトリガーされたルールの詳細など、定期タスクのスケジューリングと実行ステータスを表示できます。詳細については、「定期タスクの管理」をご参照ください。
Data Quality: データ品質監視ルールが公開された後、Data Quality モジュールに移動してルールの詳細を表示することもできます。ただし、ルールの変更や削除などの管理操作は実行できません。詳細については、「Data Quality」をご参照ください。





