DataWorks では、異種データストアのデータ品質制御を行う Data Quality モジュールが提供されます。 Data Quality では、データ品質の確認、アラート通知の設定、接続の管理を行うことができます。

Data Quality は、様々な特徴を備えた包括的なデータ品質スキームの提供を DataWorks に依存しています。 Data Quality では、たとえば、データの検出や比較、データ品質のモニタリング、SQL ノードのスキャン、インテリジェントアラートの使用などを行うことができます。

Data Quality は、プロセス全体おけるデータ処理のモニタリング、モニタリングルールに基く問題検出、アラートの受信者へのアラート通知の迅速な送信などを行うことができます。

Data Quality は、dataset ごとにデータ品質をモニタリングします。 現在、E-MapReduce テーブル、AnalyticDB for PostgreSQL テーブル、MaxCompute テーブル、Datahub トピックのデータをモニタリングできます。 E-MapReduce、AnalyticDB for PostgreSQL、および MaxCompute のオフラインデータが変更されると、Data Quality はデータを確認し、異常が検出された場合はそのデータを使用するノードをブロックします。 これにより、ノードに影響が及ぶのを防ぎます。 Data Quality を使用すると、確認結果の履歴を管理することが可能になるため、データ品質の分析および評価を行うこともできるようになります。

ストリーミングデータの場合、Data Quality は Datahub を使用してデータの流れをモニタリングし、流れの不連続性を検出した場合はサブスクライバーにアラート通知を送信します。 警告やエラーアラートなどのアラートの重大度、およびアラートの頻度を設定すると、アラートの繰り返しを最小限に抑えることができます。

次の図は、Data Quality のデータモニタリングフローチャートを示しています。 データモニタリングフローチャート
Data Quality は、E-MapReduce テーブル、AnalyticDB for PostgreSQL テーブル、MaxCompute テーブル、および Datahub トピックのデータ品質をモニタリングします。 Data Quality 機能を使用する場合、テーブルまたはトピックを作成し、これらにデータを書き込む必要があります。

作成したテーブルとトピックを DataWorks コンソール内に設置し、そこにデータを書き込むことができます。 MaxCompute テーブルを作成し、MaxCompute クライアントのテーブルにデータを書き込むこともできます。