数据质量为您提供数十种预设表级别、字段级别的监控模板。本文为您介绍如何按模板配置监控规则。

背景信息

内置模板分为表级和字段级的模板规则,支持您通过内置规则模板来快速为一批表批量创建数据质量规则。逻辑

使用限制

按模板配置目前支持配置EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、MaxCompute数据源的监控规则。

进入按模板配置监控规则页面

  1. 登录DataWorks控制台
  2. 在左侧导航栏,单击工作空间列表
  3. 选择工作空间所在地域后,单击相应工作空间后的数据开发
  4. 单击左上角的图标图标,选择全部产品 > 数据治理 > 数据质量
  5. 在左侧导航栏选择规则配置 > 按模板配置,进入按模板配置页面。
    数据质量提供系统内置的表级规则模板字段级规则模板,您可以单击对应模板后的配置监控规则来批量对表或字段配置监控规则。规则模板

配置监控规则

  1. 选择需要进行规则配置的模板,单击操作列的配置监控规则,进入该模板的批量新增监控规则页面。
  2. 配置监控规则的基本属性。
    1. 配置监控规则的基本属性。
      基本属性
      参数描述
      引擎/数据源选择后续需要应用此监控规则的表所属的计算引擎或数据源类型。
      说明

      按模板配置目前支持配置EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、MaxCompute数据源的监控规则。

      规则来源默认来源为内置模板
      规则模板此处展示配置选择的规则模板名称。详情请参见查看内置规则模板
      说明 平均值、汇总值、最小值和最大值仅对数值型字段生效。
      规则名称规则名称系统会自动生成,您可以按需调整名称后缀。
      描述对配置的监控规则进行简单描述。
    2. 配置监控规则的详细属性。
      规则设定
      参数描述
      强弱设置强规则或弱规则:
      • 如果设置强规则,红色异常报警并阻塞下游任务节点,橙色异常报警不阻塞。
      • 如果设置弱规则,红色异常报警不阻塞下游任务节点,橙色异常不报警不阻塞。
      比较方式
      • 当模板的规则类型为数值型时,比较方式包括大于大于等于等于不等于小于小于等于
      • 当模板的规则类型为波动率型时,比较方式包括绝对值上升下降
      期望值当模板的规则类型为数值型时,您需要填写期望值。当触发规则校验时将数据探查结果与期望值进行比较。如果发现数据异常,便会触发报警或阻塞。
      波动值比较当模板的规则类型为波动率型时,您可以设置橙色阈值红色阈值,对数据探查结果的波动率与指定时间内数据采样结果的波动率进行比较。支持上升范围、下降范围或波动范围(绝对值)的比较。
      例如,假设规则为强规则,并且规则橙色阈值为5%,红色阈值为10%。
      • 当波动率大于5%且小于等于10%时,将触发橙色报警,任务不会被阻塞,并且发送报警信息。
      • 当波动率大于10%时,将触发红色报警,任务将被阻塞,并且发送报警信息。
      启停状态单击开关按钮启用停用规则,用于控制该规则是否在生产环境中运行。
      重要 状态设置为停用时,规则将无法触发试跑,并且不会被关联的调度任务触发运行。
  3. 单击下一步,进入生成规则页面。
    根据您选择的表级规则模板和字段级规则模板,批量添加需要进行该规则校验的表或字段,添加后,请为分区表配置分区表达式。分区表达式用于确定校验数据的采样范围。对于非分区表,系统会默认配置为NOTAPARTITIONTABLE
    1. 添加表或字段。
      • 单击添加表,在弹出的对话框中,选择目标引擎/数据库实例,列表中为您展示当前引擎/数据库中的所有表信息,您还可以输入目标表名对结果进行过滤。选中需要配置监控规则的表添加至列表中。添加表
      • 单击添加字段,在弹出的对话框中,选择目标引擎/数据库实例待添加表区域为您展示当前引擎/数据库中的所有表信息,选中要配置监控规则的字段所在的表后,选择字段区域为您展示已添加表中的所有字段信息,支持您根据字段名字段描述对结果进行过滤。选中需要配置监控规则的字段后添加至生成规则页面的列表中。数据质量
    2. 配置分区表达式。
      单击目标表名右侧的按钮按钮,在弹出的批量设置分区表达式页面输入分区表达式,单击确认。数据质量将通过表配置的分区表达式来匹配调度节点每天产出的表分区。如果您需要批量为表配置分区表达式,则可以单击设置分区表达式按钮为选中的表批量添加分区表达式。分区表达式
  4. 单击生成规则,进入规则验证页面。
    您可以单击自定义列,按需自定义规则详情表中需要显示的内容。在规则验证页面您可以进行如下操作:
    • 校验规则配置的合理性:试跑
      规则创建完成后,您可以选择单个或多个规则进行试跑,在弹出来的试跑对话框中选择调度时间(模拟给定校验被触发的时间),系统会根据此时间以及设定的分区表达式,计算要验证的表的具体分区取值。 完成后单击试跑,去校验该表该分区下的数据是否符合当前配置的数据质量校验规则。试跑
      试跑后您可以单击操作列的试跑记录,查看试跑状态详情,并进行相应的处理。
      说明 试跑错误的可能原因为:表或表分区不存在、表数据不符合质量校验规则。
    • 定义规则触发方式:关联调度

      您可以单击推荐关联调度手动关联调度,为单个或多个数据质量规则关联产出表数据的调度节点(运维中心中产出表数据的节点,包括自动调度的周期实例,手动触发的补数据实例,测试实例),当节点任务执行时便会触发该数据质量规则校验,您可以设置规则的强弱来控制节点是否失败退出,从而避免脏数据影响扩大。

      • 推荐关联调度:系统会根据产出该表的节点血缘关系选中的规则自动关联推荐的调度节点。
      • 手动关联调度:您可以为选中的规则手动关联指定的调度节点。
      重要 必须关联相应的调度节点,规则才会被自动触发运行。
      关联调度
    • 删除规则:您可以选择单个或多个规则进行删除。
    • 查看规则详情:您可以单击操作列的规则详情,查看规则详情,并对规则进行修改、启停、删除、设置规则强弱、查看日志等操作。
  5. 试跑运行成功且关联调度后,单击保存。确认是否已完成所有配置,确认无误后单击确认完成配置。

后续步骤

  • 完成后当您进行配置规则:按表(单表)质量监控规则的时候,即可查看已配置的模板规则详情,并对该规则手动设置订阅管理,目前支持通过钉钉群机器人、短信、邮件,报警给指定接收人。
  • 如果您需要在指定业务时间内,不符合质量校验规则的数据不阻塞任务运行,可以用去噪管理功能,详情请参见:配置数据质量规则去噪