数据质量为您提供数十种预设表级别、字段级别的监控模板。本文为您介绍如何按模板配置监控规则。
背景信息
内置模板分为表级和字段级的模板规则,支持您通过内置规则模板来快速为一批表批量创建数据质量规则。
使用限制
按模板配置目前支持配置EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、MaxCompute数据源的监控规则。
进入按模板配置监控规则页面
- 登录DataWorks控制台。
- 在左侧导航栏,单击工作空间列表。
- 选择工作空间所在地域后,单击相应工作空间后的数据开发。
- 单击左上角的
图标,选择 。
- 在左侧导航栏选择 ,进入按模板配置页面。数据质量提供系统内置的表级规则模板和字段级规则模板,您可以单击对应模板后的配置监控规则来批量对表或字段配置监控规则。
配置监控规则
- 选择需要进行规则配置的模板,单击操作列的配置监控规则,进入该模板的批量新增监控规则页面。
- 配置监控规则的基本属性。
- 单击下一步,进入生成规则页面。根据您选择的表级规则模板和字段级规则模板,批量添加需要进行该规则校验的表或字段,添加后,请为分区表配置分区表达式。分区表达式用于确定校验数据的采样范围。对于非分区表,系统会默认配置为NOTAPARTITIONTABLE。
- 单击生成规则,进入规则验证页面。您可以单击自定义列,按需自定义规则详情表中需要显示的内容。在规则验证页面您可以进行如下操作:
- 校验规则配置的合理性:试跑规则创建完成后,您可以选择单个或多个规则进行试跑,在弹出来的试跑对话框中选择调度时间(模拟给定校验被触发的时间),系统会根据此时间以及设定的分区表达式,计算要验证的表的具体分区取值。 完成后单击试跑,去校验该表该分区下的数据是否符合当前配置的数据质量校验规则。试跑后您可以单击操作列的试跑记录,查看试跑状态详情,并进行相应的处理。说明 试跑错误的可能原因为:表或表分区不存在、表数据不符合质量校验规则。
- 定义规则触发方式:关联调度
您可以单击推荐关联调度或手动关联调度,为单个或多个数据质量规则关联产出表数据的调度节点(运维中心中产出表数据的节点,包括自动调度的周期实例,手动触发的补数据实例,测试实例),当节点任务执行时便会触发该数据质量规则校验,您可以设置规则的强弱来控制节点是否失败退出,从而避免脏数据影响扩大。
- 推荐关联调度:系统会根据产出该表的节点血缘关系选中的规则自动关联推荐的调度节点。
- 手动关联调度:您可以为选中的规则手动关联指定的调度节点。
重要 必须关联相应的调度节点,规则才会被自动触发运行。 - 删除规则:您可以选择单个或多个规则进行删除。
- 查看规则详情:您可以单击操作列的规则详情,查看规则详情,并对规则进行修改、启停、删除、设置规则强弱、查看日志等操作。
- 校验规则配置的合理性:试跑
- 试跑运行成功且关联调度后,单击保存。确认是否已完成所有配置,确认无误后单击确认完成配置。
后续步骤
- 完成后当您进行配置规则:按表(单表)质量监控规则的时候,即可查看已配置的模板规则详情,并对该规则手动设置订阅管理,目前支持通过钉钉群机器人、短信、邮件,报警给指定接收人。
- 如果您需要在指定业务时间内,不符合质量校验规则的数据不阻塞任务运行,可以用去噪管理功能,详情请参见:配置数据质量规则去噪。