すべてのプロダクト
Search
ドキュメントセンター

:品質監視

最終更新日:Jul 07, 2025

DataWorks では、データ品質監視ノードを作成し、ノードに監視ルールを追加して、データソースの特定のテーブルのデータ品質を監視できます。たとえば、データ品質監視ノードを使用して、ダーティデータが存在するかどうかを確認できます。また、データ品質監視ノードのカスタムスケジュールポリシーを構成して、ノードを定期的に実行してデータを確認することもできます。このトピックでは、データ品質監視ノードを作成および使用して、テーブルのデータ品質を監視する方法について説明します。

背景情報

データ品質を確保するために、DataWorks Data Quality はソースデータの変更を検出し、抽出、変換、ロード (ETL) プロセス中に生成されるダーティデータを追跡します。 DataWorks Data Quality は、ダーティデータを含むタスクの実行を自動的にブロックし、ダーティデータが子孫タスクに拡散するのを効果的に阻止します。これにより、タスクが予期しないダーティデータを生成して、タスクのスムーズな実行とビジネス上の意思決定に影響を与えるのを防ぐことができます。また、問題のトラブルシューティングにかかる時間を短縮し、タスクの再実行によるリソースの浪費を防ぐのにも役立ちます。詳細については、「Data Quality の概要」をご参照ください。

制限事項

  • サポートされているデータソースの種類: MaxCompute、E-MapReduce (EMR)、Hologres、Cloudera's Distribution Including Apache Hadoop (CDH) Hive、AnalyticDB for PostgreSQL、AnalyticDB for MySQL、および StarRocks。

  • 監視可能なテーブルの範囲:

    • 現在のデータ品質監視ノードが属するワークスペースに追加されたデータソースのテーブルのみを監視できます。

    • 各データ品質監視ノードは、1 つのテーブルのデータ品質のみを監視できます。ただし、1 つのデータ品質監視ノードに複数の監視ルールを追加できます。監視範囲は、テーブルの種類によって異なります。

      • パーティション化されていないテーブル: デフォルトでは、テーブル内のすべてのデータが監視されます。

      • パーティションテーブル: データ品質を監視するパーティションを決定するために、パーティションフィルタ式を指定する必要があります。

      説明

      複数のテーブルのデータ品質を監視する場合は、複数のデータ品質監視ノードを作成します。

  • サポートされている操作:

    • Data Studio でデータ品質監視ルールを作成した後、Data Studio でのみ監視ルールを実行、変更、公開したり、監視ルールに対して他の管理操作を実行したりできます。DataWorks Data Quality では、監視ルールを表示できますが、監視ルールをトリガーして定期的に実行したり、監視ルールに対して管理操作を実行したりすることはできません。

    • データ品質監視ノードで構成された監視ルールを変更してノードをデプロイすると、元の監視ルールが置き換えられます。

前提条件

  • 必要な計算リソースはワークスペースに関連付けられています。データ品質を監視するテーブルは、計算リソースに作成されます。

    データ品質監視ノードを実行する前に、データ品質を監視するテーブルを作成する必要があります。詳細については、「ワークスペースへの計算リソースの関連付け (Data Studio のパブリックプレビューへの参加が有効になっている)」および「ノード開発」をご参照ください。

  • リソースグループが作成されます。

    サーバーレスリソースグループを使用してのみ、データ品質監視ノードを実行できます。詳細については、「リソースグループ管理」をご参照ください。

  • (RAM ユーザーを使用してタスクを開発する場合に必要) RAM ユーザーは、メンバーとして DataWorks ワークスペースに追加され、[開発] ロールまたは [ワークスペース管理者] ロールが割り当てられます。ワークスペース管理者ロールには広範な権限があります。必要な場合にのみ、ワークスペース管理者ロールをユーザーに割り当てることをお勧めします。メンバーを追加してメンバーにロールを割り当てる方法の詳細については、「ワークスペースメンバーを追加し、ロールを割り当てる」をご参照ください。

ステップ 1: データ品質監視ノードを作成する

  1. DataWorks コンソールの ワークスペース ページに移動します。上部のナビゲーションバーで、目的のリージョンを選択します。目的のワークスペースを見つけ、[アクション] 列で [ショートカット] > Data Studio を選択します。

  2. Data Studio ページの左側のナビゲーションウィンドウで、image アイコンをクリックします。 [Workspace Directories] セクションの DATA STUDIO ウィンドウで、image アイコンをクリックし、[ノードの作成] > [データ品質] > [品質モニタリング]を選択します。 [ノードの作成] ダイアログボックスで、Path と Name パラメーターを設定し、[OK] をクリックします。

ステップ 2: データ品質監視ルールを構成する

1. データ品質を監視するテーブルを選択する

ノードの構成タブの [監視ルール] セクションで、[テーブルの追加] をクリックします。[テーブルの追加] パネルで、データ品質を監視するテーブルを選択します。[詳細] をクリックしてフィルタ条件を指定し、目的のテーブルをすばやく見つけることができます。image

説明

目的のテーブルが表示されない場合は、データマップに移動し、テーブルのメタデータを手動で更新 できます。

2. 監視するデータの範囲を構成する

  • パーティション化されていないテーブル: デフォルトでは、テーブル内のすべてのデータが監視されます。テーブルがパーティション化されていないテーブルの場合は、この構成をスキップできます。

  • パーティションテーブル: テーブルがパーティションテーブルの場合は、データ品質を監視するパーティションを選択する必要があります。スケジューリングパラメータ を使用してパーティションを指定できます。[プレビュー] をクリックして、指定したパーティションフィルタ式の計算結果が期待どおりかどうかを確認できます。

3. データ品質監視ルールを構成する

監視ルールを作成するか、既存の監視ルールをインポートできます。デフォルトでは、構成されたルールは有効になっています。

説明
  • DataWorks は、データ品質監視ノードのデータ品質監視ルールを作成するための [Copilot ベースのルール推奨] 機能を提供します。この機能は、テーブルの情報に基づいてデータ品質監視ルールを自動的に生成できます。ビジネス要件に基づいて、監視ルールを受け入れるか拒否できます。

  • DataWorks Copilot は、特定のリージョンでのみパブリックプレビューで利用できます。ワークスペースが存在するリージョンで DataWorks Copilot を使用できない場合は、以下の情報を参照して、既存のデータ品質監視ルールをインポートするか、作成できます。

  • 監視ルールを作成する

    [ルールの作成] をクリックして、テンプレートまたはカスタム SQL 文に基づいて監視ルールを作成します。

    方法 1: 組み込みルールテンプレートに基づいて監視ルールを作成する

    DataWorks は、データ品質監視ルールを作成するために使用できるさまざまな組み込みルールテンプレートを提供します。次の図は、手順を示しています。

    説明

    [ルールの作成] パネルの左側にある組み込みルールテンプレートリストで目的のテンプレートを見つけて、[+ 使用] をクリックして監視ルールを作成することもできます。

    image

    組み込みルールテンプレートに基づいてルールを構成するためのパラメータ

    パラメータ

    説明

    ルール名

    監視ルールの名前。

    テンプレート

    テーブルで実行する必要があるルールの検証の種類を定義します。

    Data Quality は、すぐに使用できる多くの組み込みのテーブルレベルおよびフィールドレベルのルールテンプレートを提供します。詳細については、「組み込みルールテンプレートを表示する」をご参照ください。

    説明

    数値フィールドに対してのみ、平均値、値の合計、最小値、最大値の次の種類のフィールドレベル監視ルールを構成できます。

    ルールのスコープ

    ルールの適用範囲。テーブルレベルの監視ルールの場合、適用範囲はデフォルトで現在のテーブルです。フィールドレベルの監視ルールの場合、適用範囲は特定のフィールドです。

    比較方法

    ルールがテーブルデータが期待どおりかどうかを確認するために使用する比較方法。

    • 手動設定: ビジネス要件に基づいて、データ出力結果を期待される結果と比較するように比較方法を構成できます。

      ルールテンプレートごとに異なる比較方法を選択できます。DataWorks コンソールで、ルールテンプレートでサポートされている比較方法を表示できます。

      • 数値結果の場合、数値結果を固定値 (期待値) と比較できます。次の比較方法がサポートされています: [より大きい][以上][等しい][等しくない][未満]、および [以下]。ビジネス要件に基づいて、通常のデータ範囲 (通常のしきい値) と異常なデータ範囲 (クリティカルなしきい値) を構成できます。

      • 変動結果の場合、変動結果を変動範囲と比較できます。次の比較方法がサポートされています: [絶対値][上昇]、および [下降]。ビジネス要件に基づいて、通常のデータ範囲 (通常のしきい値) を構成できます。また、異常偏差の程度に基づいて、データ出力例外 (警告しきい値) と予期しないデータ出力 (クリティカルなしきい値) を定義することもできます。

    • インテリジェントな動的しきい値: このオプションを選択すると、変動しきい値または期待値を手動で構成する必要はありません。システムは、インテリジェントなアルゴリズムに基づいて適切なしきい値を自動的に決定します。異常データが検出されると、アラートがすぐにトリガーされるか、関連するタスクがすぐにブロックされます。[比較方法] パラメータを [インテリジェントな動的しきい値] に設定すると、[重要度] パラメータを構成できます。

      説明

      カスタム SQL 文、カスタム範囲、または動的しきい値に基づいて構成する監視ルールのみが、インテリジェントな動的しきい値比較方法をサポートします。

    監視しきい値

    • [比較方法] パラメータを [手動設定] に設定した場合、[通常のしきい値] パラメータと [赤のしきい値] パラメータを構成できます。

      • 通常のしきい値: データ品質チェック結果が指定された条件を満たしている場合、データ出力は期待どおりです。

      • 赤のしきい値: データ品質チェック結果が指定された条件を満たしている場合、データ出力は期待どおりではありません。

    • 構成するルールが [変動タイプ] のルールである場合、[警告しきい値] を構成する必要があります。

      • 警告しきい値: データ品質チェック結果が指定された条件を満たしている場合、データは異常ですが、ビジネスには影響しません。

    問題のあるデータを保持する

    監視ルールが有効になっていて、ルールに基づくデータ品質チェックが失敗した場合、システムはデータ品質チェック中に特定された問題のあるデータを格納するテーブルを自動的に作成します。

    重要
    • [問題のあるデータを保持する] パラメータは、MaxCompute テーブルでのみ使用できます。

    • [問題のあるデータを保持する] パラメータは、Data Quality の特定の監視ルールでのみ使用できます。

    • 監視ルールのステータスを [オフ] にすると、問題のあるデータは保存されません。

    ステータス

    本番環境でルールを [有効] にするか [無効] にするかを指定します。

    重要

    ルールのスイッチを [オフ] にすると、ルールをトリガーしてテスト実行を実行したり、関連付けられたスケジューリングノードによってトリガーしたりすることはできません。

    重要度

    ビジネスにおけるルールの強さ。

    • 強力なルールは重要なルールです。パラメータを [強力なルール] に設定し、クリティカルなしきい値を超えた場合、モニターに関連付けられているスケジューリングノードはデフォルトでブロックされます。

    • 弱いルールは通常のルールです。パラメータを [弱いルール] に設定し、クリティカルなしきい値を超えた場合、モニターに関連付けられているスケジューリングノードはデフォルトではブロックされません。

    構成ソース

    ルール構成のソース。デフォルト値は [データ品質] です。

    説明

    ルールに追加の説明を追加できます。

    方法 2: カスタムルールテンプレートに基づいて監視ルールを作成する

    この方法を使用する前に、次の手順を実行してカスタムルールテンプレートを作成する必要があります。[データ品質] ページに移動します。左側のナビゲーションウィンドウで、[品質資産] > ルールテンプレートライブラリ を選択します。[テンプレート] ページの [カスタムテンプレートカテゴリ] セクションで、プラスアイコンをクリックしてカスタムルールテンプレートを作成します。次に、ルールテンプレートに基づいて監視ルールを作成できます。詳細については、「カスタムルールテンプレートを作成および管理する」をご参照ください。

    次の図は、カスタムルールテンプレートに基づいて監視ルールを作成する方法を示しています。

    説明

    [ルールの作成] パネルの左側にあるカスタムルールテンプレートリストで目的のテンプレートを見つけて、[+ 使用] をクリックして監視ルールを作成することもできます。

    image

    カスタムルールテンプレートに基づいてルールを構成するためのパラメータ

    次の表では、カスタムルールテンプレートに基づくルールに固有のパラメータのみについて説明します。その他のパラメータの詳細については、組み込みルールテンプレートに基づいてルールを構成するためのパラメータを参照してください。

    パラメータ

    説明

    FLAG パラメータ

    ルール内の SQL 文が実行される前に実行する SET 文。

    SQL

    完全なチェックロジックを決定する SQL 文。返される結果は数値で、1 行 1 列で構成されている必要があります。

    カスタム SQL 文では、パーティションフィルタ式を角かっこ [] で囲みます。例:

    SELECT count(*) FROM ${tableName} WHERE ds=$[yyyymmdd];
    説明
    • この文では、${tableName} 変数の値は、監視ルールを構成しているテーブルの名前に動的に置き換えられます。

    • パーティションフィルタ式の構成方法の詳細については、このトピックの「付録 2: 組み込みパーティションフィルタ式」セクションを参照してください。

    • テーブルの モニター を作成した場合、このパラメータを構成した後、モニター構成中に [データ範囲] パラメータで指定したテーブルパーティションの設定は、テーブルに適用されなくなります。ルールは、SQL 文の WHERE の設定に基づいてチェックするテーブルパーティションを決定します。

    方法 3: カスタム SQL 文に基づいて監視ルールを作成する

    この方法では、テーブルのカスタムデータ品質チェックロジックを構成できます。

    image

    カスタム SQL 文に基づいてルールを構成するためのパラメータ

    次の表では、カスタム SQL 文に基づくルールに固有のパラメータのみについて説明します。その他のパラメータの詳細については、組み込みルールテンプレートに基づいてルールを構成するためのパラメータを参照してください。

    パラメータ

    説明

    FLAG パラメータ

    ルール内の SQL 文が実行される前に実行する SET 文。

    SQL

    完全なチェックロジックを決定する SQL 文。返される結果は数値で、1 行 1 列で構成されている必要があります。

    カスタム SQL 文では、パーティションフィルタ式を角かっこ [] で囲みます。例:

    SELECT count(*) FROM <table_name> WHERE ds=$[yyyymmdd];
    説明
    • <table_name> は、監視ルールを構成しているテーブルの名前に置き換える必要があります。SQL 文は、監視する必要があるテーブルを決定します。

    • パーティションフィルタ式の構成方法の詳細については、このトピックの「付録 2: 組み込みパーティションフィルタ式」セクションを参照してください。

    • テーブルの モニター を作成した場合、このパラメータを構成した後、モニター構成中に [データ範囲] パラメータで指定したテーブルパーティションの設定は、テーブルに適用されなくなります。ルールは、SQL 文の WHERE の設定に基づいてチェックするテーブルパーティションを決定します。

  • 既存の監視ルールをインポートする

    [データ品質] で選択したテーブルの監視ルールをすでに作成している場合は、ルールをインポートしてルールを複製できます。テーブルの監視ルールを作成していない場合は、Data Quality でテーブルの監視ルールを作成できます。詳細については、「単一テーブルの監視ルールを構成する」をご参照ください。

    説明

    一度に複数のルールをインポートし、テーブルのフィールドの監視ルールを構成できます。

    [ルールをインポート] をクリックします。「一括インポート」 パネルで、ルール ID や名前、ルールテンプレート、関連付け範囲などのフィルター条件を指定して、インポートするルールを検索して選択できます。関連付け範囲は、モニタリングするデータの範囲を指定します。この範囲には、テーブル全体、またはテーブル内の特定のフィールドを指定できます。

    image

説明

データ品質監視ノードで監視ルールを追加および構成する場合、ノードを公開した後、データ品質で監視ルールの詳細を表示できます。ただし、ルールの変更や削除などの管理操作は実行できません。

4. ランタイムリソースを構成する

ルールを実行するために必要なリソースを選択します。つまり、関連するデータ品質監視ノードを実行するデータソースを選択する必要があります。デフォルトでは、監視対象のテーブルが属するデータソースが選択されています。

説明

別のデータソースを選択する場合は、データソースが監視するテーブルにアクセスできることを確認してください。

ステップ 3: チェック結果の処理ポリシーを構成する

データ品質監視ノードの構成タブの [処理ポリシー] セクションで、監視ルールに基づいて特定された例外の処理ポリシーとサブスクリプション方法を構成します。

例外カテゴリ

例外カテゴリ

説明

強力なルール - チェック失敗

  • ルールの強さ: ルールの重要性。

  • クリティカルなしきい値を超えています: データ品質チェックのメトリックの値がクリティカルなしきい値に達しています。ほとんどの場合、監視対象のデータがクリティカルなしきい値に達すると、品質チェック結果は期待を満たさず、後続のビジネスオペレーションに深刻な影響を与えます。

  • 警告しきい値を超えています: データ品質チェックのメトリックの値が警告しきい値に達しています。ほとんどの場合、監視対象のデータが警告しきい値に達すると、データに例外が特定されますが、後続のビジネスオペレーションには影響しません。

  • チェック失敗: モニターの実行に失敗しました。たとえば、監視対象のパーティションが生成されないか、データの監視に使用される SQL 文の実行に失敗します。

強力なルール - クリティカルなしきい値を超えました

強力なルール - 警告しきい値を超えました

弱いルール - チェック失敗

弱いルール - クリティカルなしきい値を超えました

弱いルール - 警告しきい値を超えました

例外の処理ポリシー

監視ルールに基づいて特定された例外を処理するポリシーを構成できます。

  • 無視しない: ノードで特定の例外が特定されたときに、現在のノードを停止し、ノードのステータスを [失敗] に設定します。たとえば、このポリシーを使用して、強力な監視ルールのクリティカルなしきい値を超えた例外を処理できます。

    説明
    • 現在のノードの実行に失敗すると、現在のノードに依存するノードは実行されません。これにより、本番リンクがブロックされ、ダーティデータの拡散が防止されます。

    • 検出のために複数の例外カテゴリを追加できます。

    • 例外の影響が大きく、子孫ノードの実行をブロックする場合に、このポリシーを使用できます。

  • 無視する: 例外を無視し、子孫ノードの実行を続けます。

例外のサブスクリプション方法

メールなどで例外に関する情報を受信する方法を指定できます。例外が特定されると、DataWorks は指定された方法を使用して例外に関する情報をプッシュします。これにより、関係者は例外にできるだけ早く対応できます。

説明

DataWorks は、例外に関する情報を受信するための複数の方法をサポートしています。DataWorks コンソールで方法を表示できます。次の項目に注意してください。

  • メール、メールとショートメッセージ、または電話の方法を使用する場合、現在のアカウントが属するユーザーのみを受信者として構成できます。関連ユーザーのメールアドレスまたは携帯電話番号が正しく構成されていることを確認してください。詳細については、「アラート連絡先を構成および表示する」をご参照ください。

  • 他の方法を使用する場合は、例外情報を受信するために使用される Webhook URL を指定します。Webhook URL の取得方法の詳細については、「Webhook URL を取得する」を参照してください。

ステップ 4: ノードのスケジューリングプロパティを構成する

作成したデータ品質監視ノードを定期的に実行する場合は、ノードの構成タブの右側のナビゲーションウィンドウで [プロパティ] をクリックし、ビジネス要件に基づいてノードのスケジューリングプロパティを構成します。詳細については、「ノードスケジューリング構成」をご参照ください。

ステップ 5: データ品質監視ノードをデバッグする

次の操作を実行して、ノードがビジネス要件に基づいて期待どおりに構成されているかどうかを確認できます。

  1. オプション。リソースグループを選択し、スケジューリングパラメータを変数に割り当てます。

    • データ品質監視ノードの構成タブの右側のナビゲーションウィンドウで、[デバッグ構成] をクリックします。[デバッグ構成] タブで、スケジューリングのリソースグループを構成します。

    • ノードのスケジューリングパラメータを構成する場合は、デバッグのために [スクリプトパラメータ] セクションでスケジューリングパラメータに値を割り当てます。スケジューリングパラメータの値割り当てロジックの詳細については、「デバッグ手順」をご参照ください。

      image

  2. ノードを保存して実行します。

    構成タブの上部にあるツールバーで、image アイコンをクリックしてノードを保存し、image アイコンをクリックしてノードを実行します。

    ノードの実行が完了したら、ノードの構成タブの下部で実行結果を表示できます。ノードの実行に失敗した場合は、報告されたエラーに基づいて問題のトラブルシューティングを行います。

ステップ 6: データ品質監視ノードをデプロイする

ノードの構成が完了したら、ノードをデプロイする必要があります。ノードがデプロイされると、システムはノードのスケジューリングプロパティに基づいてノードを定期的に実行します。

説明

ノードをデプロイすると、ノードで構成された監視ルールもデプロイされます。

  1. ノードの構成タブの上部にあるツールバーで、image アイコンをクリックしてノードを保存します。

  2. 上部のツールバーで、image アイコンをクリックしてノードをデプロイします。

ノードをデプロイする方法の詳細については、「ノードまたはワークフローのデプロイ」をご参照ください。

次のステップ

  • ノードの O&M を実行する: ノードをデプロイした後、ノードは構成に基づいて定期的に実行されます。ノードの実行ステータスやトリガーされた監視ルールの詳細など、ノードのスケジューリングステータスを表示するには、ノードの構成タブの右上隅にある [O&M] をクリックして、オペレーションセンターに移動します。詳細については、「自動トリガータスクを表示および管理する」をご参照ください。

  • データ品質を監視する: データ品質監視ルールが公開された後、[データ品質] ページに移動してルールの詳細を表示できます。ただし、ルールの変更や削除などの管理操作は実行できません。詳細については、「データ品質」をご参照ください。