すべてのプロダクト
Search
ドキュメントセンター

DataWorks:データ品質監視ノード

最終更新日:Nov 09, 2025

DataWorks はデータ品質監視ノードを提供します。これらのノードで監視ルールを構成して、ダーティデータの検出など、データソース内のテーブルのデータ品質をチェックできます。また、カスタムスケジューリングポリシーを定義して、監視タスクを定期的に実行することもできます。このトピックでは、データ品質監視ノードの使用方法について説明します。

背景情報

DataWorks の Data Quality 機能は、ソースデータの変更を検出し、抽出・変換・書き出し (ETL) プロセス中に生成されたダーティデータを追跡するのに役立ちます。問題のあるタスクを自動的にブロックして、ダーティデータがダウンストリームノードに広がるのを防ぎます。これにより、タスクが予期しないデータを生成して、通常の運用やビジネス上の意思決定に影響を与えるのを防ぎます。また、トラブルシューティングに費やす時間を大幅に短縮し、タスクの再実行によるリソースの浪費を回避します。詳細については、「Data Quality」をご参照ください。

制限事項

  • サポートされているデータソースタイプ: MaxCompute、E-MapReduce、Hologres、CDH Hive、AnalyticDB for PostgreSQL、AnalyticDB for MySQL、および StarRocks。

  • サポートされているテーブルの範囲:

    • データ品質監視ノードと同じワークスペースにバインドされているデータソース内のテーブルのみを監視できます。

    • 各ノードは 1 つのテーブルしか監視できませんが、ノードに対して複数の監視ルールを構成できます。監視範囲はテーブルのタイプによって異なります:

      • 非パーティションテーブル: デフォルトではテーブル全体が監視されます。

      • パーティションテーブル: パーティションフィルター式を指定して、特定のパーティションを監視します。

      説明

      複数のテーブルを監視するには、複数のデータ品質監視ノードを作成する必要があります。

  • サポートされている操作の制限:

    • DataStudio で作成された Data Quality モニタリングルールは、DataStudio でのみ実行、変更、公開、管理できます。これらのルールは Data Quality モジュールで表示できますが、そこでスケジュールされた実行をトリガーしたり、管理したりすることはできません。

    • データ品質監視ノードの監視ルールを変更してからノードを公開すると、元の監視ルールが置き換えられます。

前提条件

  • ビジネスフローが作成されている。

    データ開発 (DataStudio) では、さまざまなデータソースの開発操作がビジネスフローに基づいて実行されます。したがって、ノードを作成する前にビジネスフローを作成する必要があります。詳細については、「ビジネスフローの作成」をご参照ください。

  • データソースが作成され、現在のワークスペースにバインドされており、監視対象のテーブルがデータソースに作成されている。

    データ品質監視タスクを実行する前に、監視ノードが監視するテーブルをデータソースに作成する必要があります。詳細については、「データソース管理」、「リソース管理」、および「ノード開発」をご参照ください。

  • リソースグループが作成されている。

    データ品質監視ノードは、Serverless リソースグループでのみ実行できます。詳細については、「リソース管理」をご参照ください。

  • (オプション、RAM ユーザー向け) タスク開発用のリソースアクセス管理 (RAM) ユーザーがワークスペースに追加され、[開発者] または [ワークスペース管理者] ロールが付与されている。ワークスペース管理者ロールには広範な権限があるため、慎重に付与する必要があります。メンバーの追加と権限の付与の詳細については、「ワークスペースメンバーの追加」をご参照ください。

ステップ 1: データ品質監視ノードの作成

  1. DataStudio ページに移動します。

    DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[データ開発と O&M] > [データ開発] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発へ] をクリックします。

  2. 対象のビジネスフローを右クリックし、[新しいノード] > [Data Quality] > [データ品質監視] を選択します。

  3. [ノードの作成] ダイアログボックスで、ノードの [名前] を入力し、[確認] をクリックします。ノードが作成されたら、ノードの構成ページでタスクを開発および構成できます。

ステップ 2: データ品質監視ルールの構成

1. 監視するテーブルの選択

[テーブルの追加] をクリックします。[テーブルの追加] ダイアログボックスで、監視する対象のテーブルを検索して選択します。image

2. 監視のデータ範囲の構成

  • 非パーティションテーブル: デフォルトではテーブル全体が監視されます。このステップはスキップできます。

  • パーティションテーブル: 監視するパーティションを選択します。スケジューリングパラメーター を使用できます。[プレビュー] をクリックして、パーティションフィルター式の計算結果が正しいことを確認します。image

3. データ品質監視ルールの構成

新しいルールを作成するか、既存のルールをインポートできます。構成されたルールはデフォルトで有効になります。

  • ルールの作成

    [ルールの作成] をクリックして、テンプレートから、またはカスタム SQL 文を使用してデータ品質監視ルールを作成します。次のセクションでは、これらのメソッドについて説明します。

    方法 1: システムテンプレートから

    プラットフォームは、さまざまな組み込みの監視ルールを提供します。これらのルールテンプレートを使用して、データ品質監視ルールを迅速に作成できます。次の図に手順を示します。

    説明

    左側のシステムテンプレートリストで必要なルールテンプレートを見つけ、[+使用] をクリックしてルールを作成することもできます。

    image

    組み込みルールテンプレートに基づくルールを構成するためのパラメーター

    パラメーター

    説明

    ルール名

    監視ルールの名前。

    テンプレート

    テーブルで実行する必要があるルール検証のタイプを定義します。

    Data Quality は、すぐに使用できる多くの組み込みのテーブルレベルおよびフィールドレベルのルールテンプレートを提供します。詳細については、「組み込みルールテンプレートの表示」をご参照ください。

    説明

    次のタイプのフィールドレベルの監視ルールは、数値フィールドに対してのみ構成できます: 平均値、値の合計、最小値、および最大値。

    ルールの範囲

    ルールの適用範囲。テーブルレベルの監視ルールの場合、適用範囲はデフォルトで現在のテーブルです。フィールドレベルの監視ルールの場合、適用範囲は特定のフィールドです。

    比較方法

    ルールがテーブルデータが期待どおりかどうかをチェックするために使用する比較方法。

    • [手動設定]: ビジネス要件に基づいて、データ出力結果を期待される結果と比較するように比較方法を構成できます。

      さまざまなルールテンプレートに対してさまざまな比較方法を選択できます。DataWorks コンソールでルールテンプレートでサポートされている比較方法を表示できます。

      • [数値] の結果については、数値結果を固定値 (期待値) と比較できます。次の比較方法がサポートされています: [より大きい][以上][等しい][等しくない][より小さい]、および [以下]。ビジネス要件に基づいて、正常なデータ範囲 (正常しきい値) と異常なデータ範囲 (重大しきい値) を構成できます。

      • [変動] の結果については、変動結果を変動範囲と比較できます。次の比較方法がサポートされています: [絶対値][上昇]、および [下降]。ビジネス要件に基づいて、正常なデータ範囲 (正常しきい値) を構成できます。また、異常な逸脱の程度に基づいて、データ出力の例外 (警告しきい値) と予期しないデータ出力 (重大しきい値) を定義することもできます。

    • [インテリジェント動的しきい値]: このオプションを選択した場合、変動しきい値や期待値を手動で構成する必要はありません。システムは、インテリジェントアルゴリズムに基づいて合理的なしきい値を自動的に決定します。異常なデータが検出された場合、アラートがすぐにトリガーされるか、関連するタスクがすぐにブロックされます。[比較方法] パラメーターが [インテリジェント動的しきい値] に設定されている場合、[重要度] パラメーターを構成できます。

      説明

      カスタム SQL 文カスタム範囲、または動的しきい値に基づいて構成した監視ルールのみが、インテリジェント動的しきい値比較方法をサポートします。

    監視しきい値

    • [比較方法] パラメーターを [手動設定] に設定した場合、[正常しきい値] および [赤色しきい値] パラメーターを構成できます。

      • [正常しきい値]: データ品質チェックの結果が指定された条件を満たす場合、データ出力は期待どおりです。

      • [赤色しきい値]: データ品質チェックの結果が指定された条件を満たす場合、データ出力は期待どおりではありません。

    • 構成するルールが [変動タイプ] のルールである場合は、[警告しきい値] を構成する必要があります。

      • [警告しきい値]: データ品質チェックの結果が指定された条件を満たす場合、データは異常ですが、ビジネスには影響しません。

    問題データを保持

    監視ルールが有効になっており、ルールに基づくデータ品質チェックが失敗した場合、システムはデータ品質チェック中に特定された問題のあるデータを保存するためのテーブルを自動的に作成します。

    重要
    • [問題データを保持] パラメーターは MaxCompute テーブルでのみ使用できます。

    • [問題データを保持] パラメーターは、Data Quality の特定の監視ルールでのみ使用できます。

    • 監視ルールの [ステータス] を [オフ] にすると、問題のあるデータは保存されません。

    ステータス

    本番環境でルールを [有効] にするか [無効] にするかを指定します。

    重要

    ルールのスイッチを [オフ] にすると、ルールをトリガーしてテスト実行を実行したり、関連するスケジューリングノードによってトリガーしたりすることはできません。

    重要度

    ビジネスにおけるルールの強度。

    • 強制ルールは重要なルールです。パラメーターを [強制ルール] に設定し、重大しきい値を超えた場合、モニターに関連付けるスケジューリングノードはデフォルトでブロックされます。

    • 通常ルールは通常のルールです。パラメーターを [通常ルール] に設定し、重大しきい値を超えた場合、モニターに関連付けるスケジューリングノードはデフォルトでブロックされません。

    構成ソース

    ルール構成のソース。デフォルト値は [Data Quality] です。

    説明

    ルールに追加の説明を追加できます。

    方法 2: カスタムテンプレートから

    この方法を使用する前に、[Data Quality] > [品質資産] > [ルールテンプレートライブラリ] に移動して、カスタムルールテンプレートを作成します。その後、そのテンプレートに基づいてデータ品質監視ルールを作成できます。詳細については、「カスタムルールテンプレートの作成と管理」をご参照ください。

    次の図は、カスタムテンプレートからデータ品質ルールを作成する方法を示しています。

    説明

    左側のカスタムテンプレートリストで必要なルールテンプレートを見つけ、[+使用] をクリックしてルールを作成することもできます。

    image

    カスタムルールテンプレートに基づくルールを構成するためのパラメーター

    次の表では、カスタムルールテンプレートに基づくルールに固有のパラメーターのみを説明します。他のパラメーターについては、組み込みルールテンプレートに基づくルールを構成するためのパラメーターをご参照ください。

    パラメーター

    説明

    FLAG パラメーター

    ルール内の SQL 文が実行される前に実行する SET 文。

    SQL

    完全なチェックロジックを決定する SQL 文。返される結果は数値で、1 行 1 列で構成されている必要があります。

    カスタム SQL 文では、パーティションフィルター式を角括弧 [] で囲みます。例:

    SELECT count(*) FROM ${tableName} WHERE ds=$[yyyymmdd];
    説明
    • この文では、${tableName} 変数の値は、監視ルールを構成しているテーブルの名前に動的に置き換えられます。

    • パーティションフィルター式の構成方法については、このトピックの「付録 2: 組み込みパーティションフィルター式」セクションをご参照ください。

    • テーブルの モニター を作成した場合、モニター構成中に [データ範囲] パラメーターで指定したテーブルパーティションの設定は、このパラメーターを構成した後はテーブルに対して有効ではなくなります。ルールは、SQL 文の WHERE の設定に基づいてチェックするテーブルパーティションを決定します。

    方法 3: カスタム SQL 文から

    この方法では、テーブルのカスタムデータ品質チェックロジックを定義できます。

    image

    カスタム SQL 文に基づくルールを構成するためのパラメーター

    次の表では、カスタム SQL 文に基づくルールに固有のパラメーターのみを説明します。他のパラメーターについては、組み込みルールテンプレートに基づくルールを構成するためのパラメーターをご参照ください。

    パラメーター

    説明

    FLAG パラメーター

    ルール内の SQL 文が実行される前に実行する SET 文。

    SQL

    完全なチェックロジックを決定する SQL 文。返される結果は数値で、1 行 1 列で構成されている必要があります。

    カスタム SQL 文では、パーティションフィルター式を角括弧 [] で囲みます。例:

    SELECT count(*) FROM <table_name> WHERE ds=$[yyyymmdd];
    説明
    • 監視ルールを構成しているテーブルの名前で <table_name> を置き換える必要があります。SQL 文は、監視する必要があるテーブルを決定します。

    • パーティションフィルター式の構成方法については、このトピックの「付録 2: 組み込みパーティションフィルター式」セクションをご参照ください。

    • テーブルの モニター を作成した場合、モニター構成中に [データ範囲] パラメーターで指定したテーブルパーティションの設定は、このパラメーターを構成した後はテーブルに対して有効ではなくなります。ルールは、SQL 文の WHERE の設定に基づいてチェックするテーブルパーティションを決定します。

  • 既存のルールのインポート

    対象テーブルの監視ルールが [Data Quality] モジュールに既に存在する場合、それらをインポートしてルールを迅速にクローンできます。ルールが存在しない場合は、まず Data Quality モジュールで作成する必要があります。詳細については、「単一テーブルのルールの構成」をご参照ください。

    説明

    この方法は、バッチでの複数のルールのインポートと、テーブルおよびフィールドレベルでの監視ルールの構成をサポートします。

    [ルールのインポート] をクリックします。ルール ID または名前、ルールテンプレート、または関連する範囲 (テーブル全体またはテーブルの特定のフィールド) でインポートするルールを検索して選択できます。

    image

説明

データ品質監視ノードを公開した後、Data Quality モジュールで品質監視ルールの詳細を表示できます。ただし、ルールの変更や削除などの管理操作は実行できません。

4. コンピューティングリソースの構成

品質ルールチェックの実行に必要なコンピューティングリソースを選択します。これにより、データ品質監視タスクが実行されるデータソースが指定されます。デフォルトでは、監視対象テーブルのデータソースが使用されます。

説明

別のデータソースを選択した場合は、そのデータソースがテーブルへのアクセス権を持っていることを確認してください。

ステップ 3: チェック結果の処理ポリシーの構成

ノード構成ページの [品質監視と処理] セクションで、異常なチェック結果を処理するためのポリシーと、それらをサブスクライブするためのメソッドを構成できます。

例外カテゴリ

次の表に、チェック例外のカテゴリを示します。

例外カテゴリ

説明

強制ルール - チェック失敗

  • 強度: ルールの重大度を示します。

  • 重大しきい値を超えました: データ品質チェックのメトリックの値が重大しきい値に達しました。ほとんどの場合、監視対象データが重大しきい値に達した場合、品質チェックの結果は期待を満たさず、後続のビジネス運用に深刻な影響を与えます。

  • 警告しきい値を超えました: データ品質チェックのメトリックの値が警告しきい値に達しました。ほとんどの場合、監視対象データが警告しきい値に達した場合、データに例外が特定されますが、後続のビジネス運用には影響しません。

  • [チェック失敗]: モニターの実行に失敗しました。たとえば、監視対象のパーティションが生成されない、またはデータの監視に使用される SQL 文の実行に失敗した場合などです。

強制ルール - エラーアラート

強制ルール - 警告アラート

通常ルール - チェック失敗

通常ルール - エラーアラート

通常ルール - 警告アラート

例外の処理ポリシー

必要に応じて、ルールチェックで見つかった例外を処理するポリシーを構成します:

  • 無視しない: 強制ルールのエラーアラートなど、特定の例外カテゴリが検出されると、現在のノードは停止し、そのステータスは失敗に設定されます。

    説明
    • 現在のノードの実行に失敗すると、そのダウンストリームノードは実行されません。これにより、本番パイプラインがブロックされ、問題のあるデータが広がるのを防ぎます。

    • 検出のために複数の例外カテゴリを追加できます。

    • このポリシーは通常、例外が大きな影響を与え、ダウンストリームタスクの実行をブロックする場合に使用されます。

  • 無視: 例外を無視し、ダウンストリームノードの実行を続行します。

例外のサブスクリプションメソッド

電子メールなど、例外通知の受信方法を構成できます。例外が発生すると、プラットフォームは指定されたメソッドを使用して通知を送信するため、例外を迅速に見つけて処理できます。

説明

プラットフォームは複数の通知方法をサポートしています。UI で利用可能な方法は異なる場合があります。次の点に注意してください:

  • 電子メール、電子メールとショートメッセージ、または電話の場合、現在のアカウント内のユーザーのみを受信者として選択できます。関連する担当者の電子メールアドレスまたは電話番号が正しく構成されていることを確認してください。詳細については、「アラート連絡先の表示と設定」をご参照ください。

  • 他のメソッドについては、情報を受信するための Webhook URL を入力します。Webhook URL の取得方法の詳細については、「Webhook URL の取得」をご参照ください。

ステップ 4: タスクスケジューリングの構成

作成したノードタスクを定期的に実行するには、ノード構成ページの右側のペインで [スケジューリング] をクリックし、必要に応じてノードタスクのスケジューリングプロパティを構成します。詳細については、「ノードのスケジューリングプロパティの構成」をご参照ください。

説明

ノードを送信する前に、ノードの [再実行] および [親ノード] プロパティを設定する必要があります。

ステップ 5: タスクのデバッグ

必要に応じて次のデバッグ操作を実行し、タスクが期待どおりに実行されるかどうかを確認します。

  1. (オプション) リソースグループを選択し、カスタムパラメーターに値を割り当てます。

    • ツールバーの 高级运行 アイコンをクリックします。[パラメーター] ダイアログボックスで、デバッグに使用するスケジューリングリソースグループを選択します。

    • タスクがスケジューリングパラメーターを使用する場合、ここでデバッグ用に変数に値を割り当てることができます。パラメーター割り当てロジックの詳細については、「タスクのデバッグプロセス」をご参照ください。

      次の図は、スケジューリングパラメーター構成の例を示しています。

      image

  2. タスクの保存と実行

    ツールバーの 保存 アイコンをクリックしてタスクを保存します。运行 アイコンをクリックしてタスクを実行します。

    タスクが完了したら、ノード構成ページの下部で実行結果を表示できます。実行が失敗した場合は、エラーメッセージに基づいて問題をトラブルシューティングします。

  3. (オプション) スモークテストの実行

    開発環境でスモークテストを実行して、スケジューリングノードタスクが期待どおりに実行されるかどうかを確認する場合は、ノードの送信時またはノードの送信後にスモークテストを実行できます。詳細については、「スモークテストの実行」をご参照ください。

ステップ 6: タスクの送信と公開

ノードタスクが構成されたら、送信して公開します。ノードが公開されると、そのスケジューリング構成に基づいて定期的に実行されます。

説明

ノードを送信して公開すると、ノードに構成されている品質ルールも送信および公開されます。

  1. ツールバーの 保存 アイコンをクリックしてノードを保存します。

  2. ツールバーの 提交 アイコンをクリックしてノードタスクを送信します。

    タスクを送信するときは、[送信] ダイアログボックスに [変更の説明] を入力します。必要に応じて、ノードの送信後にコードレビューを実行するかどうかを選択することもできます。

    説明
    • ノードを送信する前に、ノードの [再実行] および [親ノード] プロパティを設定する必要があります。

    • コードレビューは、タスク構成の品質を管理し、レビューなしで誤った構成がオンラインで公開された場合に発生する可能性のあるエラーを防ぐのに役立ちます。コードレビューを実行する場合、送信されたノードは、レビュー担当者によって承認された後にのみ公開できます。詳細については、「コードレビュー」をご参照ください。

標準モードのワークスペースを使用している場合、タスクが正常に送信された後、ノード構成ページの右上隅にある [公開] をクリックして、タスクを本番環境に公開します。詳細については、「タスクの公開」をご参照ください。

次のステップ

  • タスクの O&M: タスクが送信および公開されると、ノードの構成に基づいて定期的に実行されます。ノード構成ページの右上隅にある [O&M] をクリックしてオペレーションセンターに移動し、ノードのステータスやトリガーされたルールの詳細など、定期タスクのスケジューリングと実行ステータスを表示できます。詳細については、「定期タスクの管理」をご参照ください。

  • Data Quality: データ品質監視ルールが公開された後、Data Quality モジュールに移動してルールの詳細を表示することもできます。ただし、ルールの変更や削除などの管理操作は実行できません。詳細については、「Data Quality」をご参照ください。