数据质量是支持多种异构数据源的质量校验、通知及管理服务的一站式平台。

数据质量依托DataWorks平台,为您提供全链路的数据质量方案,包括数据探查、对比、质量监控、SQL扫描和智能报警等功能。

数据质量监控可以全程监控数据加工流水线,根据质量规则及时发现问题,并通过报警通知负责人及时处理。

数据质量以数据集(DataSet)为监控对象。目前,数据质量支持EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、MaxCompute数据表和DataHub实时数据流的监控。当离线数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量支持管理历史校验结果,您可以对数据质量进行分析和定级。

在流式数据场景下,数据质量能够基于Datahub数据通道进行监控和断流,第一时间告警给订阅用户。数据质量支持设置橙色、红色告警等级和告警频次,最大限度地减少冗余报警。

数据质量监控的流程如下图所示。 流程图
说明 数据质量主要对EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、MaxCompute和DataHub数据集的质量进行监控。因此,您需要先创建表,并在表中写入数据后,才可以使用数据质量功能。