DataWorks Data Quality (DQC) は、強力なデータ監視および保証プラットフォームです。データ生成パイプライン内のダーティデータを事前に特定してブロックするのに役立ちます。これにより、問題のあるデータがダウンストリームシステムに伝播するのを防ぎ、ビジネス上の意思決定の正確性を確保し、トラブルシューティングとリソースの再実行にかかるコストを大幅に削減します。
基本概念とワークフロー
Data Quality を使用する前に、その基本概念とワークフローを理解する必要があります。システムは次のコアコンポーネントに基づいて構築されています。
Template: データの検証方法を定義します。DataWorks には、テーブルの行数や列内の重複しない値の数などの組み込みテンプレートが豊富に用意されています。
Monitoring Rules: ルールテンプレートの特定の適用例です。テーブル内の列にテンプレートを適用し、特定のしきい値を設定できます。たとえば、
order_count列はdaily_salesテーブル内で NULL であってはなりません。Monitor: 1つ以上の Monitoring Rules と スケジューリングノード を関連付ける実行計画です。スケジューリングノードが正常に実行された場合、関連付けられたすべてのルールが自動的にトリガーされ、検証が実行されます。
強/弱ルールとブロック: ルールを設定して、ダウンストリームノードをBlocks するか、または検証失敗時にのみAlert を送信することができます。
一般的なワークフローは次のとおりです。
仮想ノードとドライランノードは実際のデータを生成しないため、Data Quality 検証ルールをトリガーできません。
機能
DataWorks Data Quality は、MaxCompute、E-MapReduce、Hologres、AnalyticDB for MySQL などの一般的なビッグデータストレージシステムに対する品質検証をサポートしています。完全性、正確性、一貫性を含む複数のディメンションで監視ルールを設定できます。これらのルールをスケジューリングノードに関連付けることで、自動検証を有効にし、アラートを発行し、ブロックを実行できます。
Data Quality の主な機能モジュールと、コンソール内の対応するページは次のとおりです。
モジュール | 説明 | |
ワークスペース内の Data Quality の包括的な概要を提供します。主要なメトリック、ルール検証の傾向、最も多くの問題があるテーブルとそのオーナー、およびルールカバー率を表示します。これにより、品質管理者はデータの全体的な健全性を迅速に評価し、問題を速やかに解決できます。 | ||
品質アセット | 設定されているすべてのルールの一覧を表示します。 | |
一般的な監視ニーズに対応するカスタムルールテンプレートを作成および管理できます。これにより、ルール定義が一元化され、ルール設定が効率化されます。 | ||
ルール設定 | この方法では、単一テーブルに対して高精度監視ルールを設定できます。 | |
この方法では、特定の条件を満たす複数のテーブルにルールテンプレートを一括で適用できます。 | ||
品質運用保守 | [モニター] ページには、現在のワークスペースで作成されたすべての品質監視計画が一覧表示されます。 | |
このページには、品質監視計画の実行による検証結果が表示され、各実行の詳細を確認できます。 | ||
品質分析 | レポートテンプレートを作成し、ルール設定と実行に関連するさまざまなメトリックを追加できます。レポートは、設定された統計期間、配信時間、およびサブスクリプション設定に基づいて、スケジュールに従って自動的に生成および送信されます。 | |
課金
Data Quality ルールの実行には、次の2種類のコストが発生します。
DataWorks 料金: DataWorks は、
ルールインスタンス の実行数に基づいて従量課金 料金を請求します。詳細については、「Data Quality インスタンス課金」をご参照ください。コンピューティングエンジンコスト: このプロセスには、MaxCompute などのコンピューティングコストが発生します。これらのコストはエンジンプロバイダーによって請求され、DataWorks の請求書には含まれません。
注意事項
サポートされているデータソース: MaxCompute、Hologres、E-MapReduce、Data Lake Formation (DLF)、CDH Hive、AnalyticDB for PostgreSQL、AnalyticDB for MySQL、StarRocks、MySQL、Lindorm、および SQL Server のみがサポートされています。サポートされているリージョンは
データソース タイプによって異なります。特定のリージョンサポートについては、各エンジンのドキュメントをご参照ください。メタデータ収集: E-MapReduce、Hologres、AnalyticDB、CDH などの MaxCompute 以外の
データソース のルールを設定する前に、まずメタデータ収集 を完了する必要があります。詳細については、「メタデータ収集」をご参照ください。ネットワーク接続: MaxCompute 以外の
データソース を検証する場合、関連付けられているスケジューリングノードは、ネットワーク接続ソリューションで設定されたリソースグループで実行する必要があります。
Data Quality の設定と使用
1. ルールの設定
Create Rule: 単一のテーブル、または組み込みまたはカスタムのルールテンプレートを使用して複数のテーブルをバッチでルールを作成できます。詳細については、「テーブル別に設定する」および「テンプレート別に設定する」をご参照ください。
アラートサブスクリプション: ルール作成後、
アラート 通知を受信するためのサブスクリプションを設定できます。サポートされているチャネルには、Email 、SMS 、DingTalk Chatbot 、Enterprise Wechat Chatbot 、Lark Group Chatbot 、Telephone 、およびカスタム Webhook が含まれます。カスタム Webhook オプションは、DataWorks Enterprise Edition 以降でのみ利用可能です。
2. トリガー ルールの検証
「Monitor」で、ルールをスケジューリングノードに関連付けます。スケジューリングノードが「[オペレーションセンター]」で正常に実行されると、関連付けられた Data Quality ルールが自動的に検証用にトリガーされます。ルールの種類(強ルールまたは弱ルール)および検証結果に基づき、DataWorks はノードインスタンスを失敗としてマークし、ダウンストリームノードをブロックするかどうかを判断します。これにより、ダーティデータの拡散を防止します。
3. 検証結果の表示
「Running Records」ページでは、テーブル名またはノード名で検索して、各品質モニタリング実行の詳細な検証結果およびログを表示できます。詳細については、「品質モニタリングの実行詳細を表示する」をご参照ください。