全部产品
Search
文档中心

大数据开发治理平台 DataWorks:数据质量

更新时间:Dec 18, 2025

DataWorks 数据质量(DQC)是一个强大的数据监控和保障平台。它能帮助您在数据生产链路中主动发现并拦截不符合预期的“脏数据”,避免问题数据向下游扩散,从而保障业务决策的准确性,并显著降低问题排查与资源重跑的成本。

核心概念与工作流程

在使用数据质量功能前,理解其核心概念和工作流程至关重要。数据质量的整个体系围绕以下几个核心实体构建:

  1. 规则模板:定义如何检查数据。DataWorks 提供丰富的内置模板(如表行数、字段唯一值个数),您也可以创建自定义模板来满足特定业务需求。

  2. 监控规则:是规则模板的具体应用。您可以为某张表的某个字段,应用一个模板并配置具体的阈值(例如:daily_sales 表的 order_count 字段不能为空)。

  3. 质量监控:是一个执行计划,它将一个或多个监控规则与一个调度任务关联起来。当该调度任务运行成功后,会自动触发其关联的所有质量规则进行校验。

  4. 强/弱规则与阻塞:支持将规则设置为强规则弱规则,可按需设置强弱规则校验失败时,阻塞下游任务或仅告警

典型工作流程如下:

image

功能介绍

DataWorks 数据质量支持对常见大数据存储(MaxCompute、E-MapReduce、Hologres、AnalyticDB 等)进行质量校验,从完整性、准确性、一致性等多个维度配置监控规则,并与调度任务关联,实现自动化校验与问题告警、阻塞。

数据质量的主要功能模块及其在控制台的对应页面如下:

模块名称

模块描述

数据质量大盘

数据质量大盘为您展示当前工作空间下,需要重点关注的数据质量总览指标、实例运行后触发的质量规则校验状态的趋势及分布情况、TOP质量问题表及质量问题责任人、质量规则覆盖保障情况等,帮助质量负责人快速了解工作空间数据质量整体情况,及时处理质量问题提升数据质量。

质量资产

规则列表

展示已配置的所有质量规则的列表。

规则模板库

数据质量支持自建规则模板库,对通用的自定义监控规则进行统一管理,形成自建的规则模板库,帮助您提升规则配置的效率。

规则配置

配置规则:按表(单表)

配置监控规则的主要方式之一,可以针对单张表进行精细化配置。

配置规则:按模板(批量)

基于已有的规则模板,对符合条件的多张表进行批量规则配置。

质量运维

质量监控

质量监控列表页可以查看本工作空间下创建的所有质量监控任务。

运行记录

展示质量监控任务运行时的规则校验结果。质量监控任务运行后,您可以在运行记录页面查看详情。

质量分析

质量报告

数据质量支持用户创建报告模板,自由添加规则配置和规则运行的各项指标。根据设置的统计周期、发送时间和订阅信息,定时生成并发送报告。

计费说明

数据质量规则运行产生的费用由两部分组成:

  • DataWorks 相关收费:根据数据质量规则实例的运行次数进行按量计费。详情请参见:数据质量实例计费

  • 计算引擎费用:数据质量规则校验会生成 SQL 并下发到底层计算引擎执行,此过程会产生相应的引擎计算费用(例如 MaxCompute 计算费用)。此费用由对应引擎方收取,不在 DataWorks 账单中体现。

注意事项

  • 数据源支持:仅支持MaxCompute、Hologres、E-MapReduce、DLF、CDH Hive、AnalyticDB PostgreSQL、AnalyticDB MySQL、StarRocks、MySQL、Lindorm、SQL Server。不同数据源类型支持的地域存在差异,请以引擎本身支持的地域为准。

  • 元数据采集:对 E-MapReduce、Hologres、AnalyticDB、CDH 等非 MaxCompute 数据源配置规则前,需要先完成元数据采集。详情请参见元数据采集

  • 网络连通性:当校验非 MaxCompute 数据源时,关联的调度节点需要使用已配置好网络连通方案的资源组来执行。

配置与使用流程

1. 配置规则

  • 创建规则:数据质量支持您按表创建数据质量规则,同时,也支持您通过内置或自定义的规则模板来快速为一批表批量创建数据质量规则。详情请参见:配置规则:按表(单表)配置规则:按模板(批量)

  • 订阅告警:规则创建完成后,您可以通过订阅的方式配置报警,支持邮件、短信、钉钉群机器人、企业微信、飞书、电话和自定义Webhook等多种渠道。

    仅 DataWorks 企业版及以上版本支持使用自定义 Webhook 方式。

2. 触发规则校验

质量监控中将规则与一个调度节点关联。当该调度节点在运维中心中运行成功后,将会自动触发关联的数据质量规则进行校验。DataWorks 将根据规则的强弱和校验结果,决定是否将任务实例置为失败并阻塞下游,以防止脏数据扩散。

3. 查看校验结果

您可以在运行记录页面,通过表或节点名称搜索并查看每一次质量监控的详细校验结果和日志。详情请参见:查看质量监控执行详情