すべてのプロダクト
Search
ドキュメントセンター

:データクオリティ (新バージョン)

最終更新日:Aug 28, 2025

データクオリティを使用すると、ソースデータの変更と ETL タスクのダーティデータを検出できます。 問題のあるタスクをブロックし、ダーティデータがダウンストリームに拡散するのを防ぎます。 これにより、ビジネスの使用と意思決定に影響を与える可能性のある予期しない結果を回避できます。 また、問題の修正時間を短縮し、タスクの再実行を回避します。

課金

データクオリティルールの適用コストには、次の 2 つの部分が含まれます。

  • DataWorks 料金

    データクオリティルールインスタンスの数に応じて、従量課金制で課金されます。 詳細については、「データクオリティインスタンスの課金」をご参照ください。

  • エンジン固有の料金

    データ クオリティ チェックでは、エンジンで実行される SQL 文が生成され、エンジン料金が発生します。 詳細については、各エンジンの課金ドキュメントをご参照ください。 たとえば、従量課金モードで MaxCompute を使用する場合、データ クオリティ チェックによって MaxCompute エンジン料金が発生します。 これらは MaxCompute によって請求され、DataWorks の請求書には表示されません。

特徴

データクオリティは、MaxCompute、E-MapReduce、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL、CDH など、一般的なデータ分析エンジンのクオリティチェックをサポートしています。

完全性、正確性、妥当性、一貫性、独自性、適時性をカバーするルールを構成できます。 これらのデータクオリティルールをスケジューリングノードに関連付けることができます。 タスクが完了すると、データ クオリティ チェックがすぐにトリガーされます。 ルールの強度を設定して、タスクが失敗または終了するタイミングを制御することにより、ダーティデータの拡散を防ぎ、データリカバリの時間と経済的コストを効果的に削減できます。

各データクオリティモジュールの特徴を以下に示します。

名前

説明

クオリティダッシュボード

クオリティダッシュボードには、現在のワークスペースにおけるデータクオリティの主要な概要メトリック、インスタンスの実行後にトリガーされたデータクオリティチェックステータスの傾向と分布、クオリティの問題が発生している上位のテーブルと所有者、およびルール適用範囲が表示されます。 これにより、品質保証マネージャーはワークスペースの全体的なデータクオリティを迅速に把握し、問題に迅速に対処してデータクオリティを向上させることができます。

クオリティアセット

監視ルールのリストを表示する

構成されているすべてのクオリティルールが表示されます。

カスタムルールテンプレートを作成および管理する

データクオリティでは、カスタムルールテンプレートライブラリを構築して、一般的なカスタム監視ルールを一元管理し、ルール構成の効率を向上させることができます。

ルールの構成

単一テーブルの監視ルールを構成する

データクオリティは、テーブルごと、またはテンプレートごとにクオリティ監視ルールを構成することをサポートしています。

テンプレートに基づいて複数のテーブルの監視ルールを構成する

クオリティ O&M

モニター

このワークスペースで作成されたすべてのクオリティモニターが表示されます。

モニターの詳細を表示する

クオリティ監視タスクの実行時のデータクオリティチェック結果が表示されます。 クオリティ監視タスクが完了すると、実行履歴ページで詳細を表示できます。

クオリティ分析

レポートテンプレートを構成する

データクオリティでは、ユーザーはレポートテンプレートを作成し、ルール構成とルール実行のさまざまなメトリックを自由に追 加できます。 レポートは、構成された統計期間、送信時間、およびサブスクリプション情報に基づいて定期的に生成および送信されます。

使用上の注意

  • 各エンジンのサポートされているリージョンは次のとおりです。

    エンジン

    サポートされているリージョン

    E-MapReduce

    中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (深圳)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、ドイツ (フランクフルト)、米国 (シリコンバレー)。

    Hologres

    中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (深圳)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、ドイツ (フランクフルト)、米国 (シリコンバレー)、米国 (バージニア)。

    AnalyticDB for PostgreSQL

    中国 (杭州)、中国 (上海)、中国 (北京)、中国 (深圳)、日本 (東京)。

    AnalyticDB for MySQL

    中国 (深圳)、シンガポール、米国 (シリコンバレー)。

    CDH

    中国 (上海)、中国 (北京)、中国 (張家口)、中国 (香港)、ドイツ (フランクフルト)。

  • E-MapReduce、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL、および CDH のデータクオリティルールを構成する前に、最初にメタデータを収集する必要があります。 詳細については、「EMR データソースからメタデータを収集する」をご参照ください。

  • E-MapReduce、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL、および CDH のテーブルのデータクオリティルールを構成した後、データクオリティルールチェックを適切にトリガーするために、確立されたネットワーク接続を持つリソースグループでテーブルデータを生成するスケジューリングノードを実行します。

  • 単一のテーブルに複数のデータクオリティルールを構成できます。

シナリオ

オフラインデータチェックシナリオでは、データクオリティは、テーブルに構成されているパーティション式を使用して、ノードによって毎日生成されるテーブルパーティションをチェックします。 データクオリティルールは、テーブルデータを生成するスケジューリングノードに関連付けられています。 タスクの実行が完了すると、クオリティチェックがトリガーされます (ドライランタスクはクオリティチェックをトリガーしません)。 ルールの強度を設定して、ノードが失敗して終了するかどうかを制御することにより、ダーティデータの拡散を防ぐことができます。 また、アラート設定を構成して、アラート通知を受信し、問題に迅速に対処することもできます。

ルールの構成

  • ルールの作成: データクオリティでは、テーブルごとにデータクオリティルールを作成できます。 また、事前に定義されたルールテンプレートを使用して、複数のテーブルのデータクオリティルールをバッチで迅速に作成することもできます。 詳細については、「単一テーブルの監視ルールを構成する」および「テンプレートに基づいて複数のテーブルの監視ルールを構成する」をご参照ください。

  • ルールにサブスクライブする: ルールを作成した後、ルールにサブスクライブして、データクオリティルールチェックのアラート通知を受信できます。 サポートされているメソッドには、[メール][メールと SMS][DingTalk チャットボット][DingTalk チャットボット @ALL][Lark グループチャットボット][Enterprise WeChat チャットボット]、および [カスタム Webhook] があります。

  • 説明

    DataWorks Enterprise Edition のみ [カスタム Webhook] メソッドをサポートしています。

データクオリティチェックのトリガー

[オペレーションセンター] で、テーブルに関連付けられたスケジューリングノードの実行 (ノードコードロジックの実行) が完了すると、データクオリティチェックがトリガーされ、エンジンでデータを検証する SQL 文が生成されます。 DataWorks は、データクオリティルールの強度とチェック結果に基づいて、タスクを失敗させて終了するかどうかを判断します。 これにより、ダウンストリームノードの実行がブロックされ、ダーティデータの拡大が防止されます。

チェック結果の表示

データクオリティチェックの結果は、オペレーションセンターのノードの実行時ログとデータクオリティタスククエリページで確認できます。

  • [オペレーションセンター] でノードの実行時ログを表示する

    1. インスタンスのステータスを確認します。 ステータスが「失敗」と表示されている場合は、コードは実行された可能性がありますが、出力は強力なデータクオリティルールに合格しませんでした。 これにより、タスクが終了し、ダウンストリームインスタンスがブロックされました。

    2. インスタンスの [実行時ログ] にある [DQC ログ] を開いて、データクオリティチェックの結果を表示します。 詳細については、「自動トリガーされたインスタンスを表示する」をご参照ください。

  • [実行レコード] ページで表示する

    このページで、テーブルまたはノード別にデータクオリティ監視タスクのチェックの詳細を検索します。 詳細については、「モニターの詳細を表示する」をご参照ください。