数据质量支持配置EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、MaxCompute和DataHub数据源的监控规则。本文以配置MaxCompute监控规则为例,为您介绍如何配置监控任务。

进入监控规则

  1. 登录DataWorks控制台
  2. 在左侧导航栏,单击工作空间列表
  3. 选择工作空间所在地域后,单击相应工作空间后的进入数据开发
  4. 单击左上角的图标图标,选择全部产品 > 数据治理 > 数据质量
  5. 在左侧导航栏,单击监控规则
  6. 选择引擎/数据源MaxCompute,并选择相应的引擎/数据库实例
    监控规则
    数据质量支持EMR、Hologres、AnalyticDB for PostgreSQL、MaxCompute和DataHub数据源:
    • 选择EMR、Hologres、AnalyticDB for PostgreSQL或MaxCompute数据源,显示当前数据源下所有的表。
    • 选择Datahub数据源,显示当前数据源下所有的Topic。
  7. 单击相应表后的配置监控规则
    数据质量监控规则包括模板规则自定义规则
    注意 配置模板规则前,请首先配置分区表达式,详情请参见配置分区表达式

创建模板规则

  1. 单击相应表名后的配置监控规则,进入该表的监控规则页面。
  2. 单击创建规则,默认显示模板规则对话框。
    您可以通过添加监控规则快捷添加两种方式创建模板规则
    • 添加监控规则
      单击添加监控规则,下表以内置模板为例,为您详细介绍各项参数的配置。
      参数 描述
      规则名称 请输入规则名称。
      强弱 设置强规则或弱规则:
      • 如果设置强规则,红色异常报警并阻塞下游任务节点,橙色异常报警不阻塞。
      • 如果设置弱规则,红色异常报警不阻塞下游任务节点,橙色异常不报警不阻塞。
      动态阈值 根据自身需求,选择是否开启动态阈值。
      注意 您需要购买DataWorks企业版及以上版本,才可以使用动态阈值功能。
      规则来源 包括内置模板规则模板库
      如果您选中规则模板库,需要选择相应的规则模板库,详情请参见新建、操作和应用规则模板
      注意 您需要购买DataWorks企业版及以上版本,才可以选择规则模板库
      规则字段 包括表级规则和字段级规则,字段级规则包括数据类型和非数据类型。
      规则模板 目前共有43种规则,不支持的规则模板将不能被选择。详情请参见离线规则内置模板说明
      说明 平均值、汇总值、最小值和最大值仅对数值型字段生效。
      比较方式 包括绝对值上升下降
      波动值比较
      • 计算波动率
        您可以根据波动率计算公式(波动率=(样本-基准值)/基准值)计算结果:
        • 样本

          当天采集的具体的样本的值。例如对于SQL任务表行数,1天波动检测,则样本是当天分区的表行数。

        • 基准值
          历史样本的对比值:
          • 如果规则是SQL任务表行数,1天波动检测,则基准值是前一天分区产生的表行数。
          • 如果规则是SQL任务表行数,7天平均值波动检测,则基准值是前7天的表行数据的平均值。
      • 计算方差波动

        (当次样本-历史N天平均值)/标准差,仅BIGINT和DOUBLE等数值类型可以使用方差。

      您可以设置橙色阈值红色阈值,对不同严重程度的问题进行监控:
      • 如果校验值的绝对值小于或等于橙色阈值,则返回正常
      • 如果校验值的绝对值不满足第1种情况,且小于或等于红色阈值,则返回橙色报警
      • 如果校验值不满足第2种情况,则返回红色报警
      • 如果没有橙色阈值,则只有红色报警正常2种情况。
      • 如果没有红色阈值,则只有橙色报警正常2种情况。
      • 两个都不填,则红色报警(通常禁止两个阈值都不填,阈值校验会默认橙色10%,红色50%)。
      描述 对配置的监控规则进行简单描述。
      下图为报警与阻塞的实现逻辑。逻辑图
    • 快捷添加
      单击快捷添加,配置各项参数。
      参数 描述
      规则名称 请输入规则名称。
      监控字段 包括表级规则和字段级规则,字段级规则包括数据类型和非数据类型。
      快捷规则 包括表行数大于0表行数动态阈值
      注意 您需要购买DataWorks企业版及以上版本,才可以选择表行数动态阈值
  3. 单击批量添加

创建自定义规则

如果模板规则不能满足您对分区表达式中数据质量的监控需求,您还可以通过创建自定义规则来满足个性化的监控需求:

  1. 单击相应表名后的配置监控规则,进入该表的监控规则页面。
  2. 单击创建规则,默认显示模板规则对话框。
  3. 单击自定义规则
    您可以通过添加监控规则快捷添加两种方式创建自定义规则
    • 添加监控规则
      添加监控规则时,规则字段支持表级规则自定义SQL字段级规则
      • 表级规则字段级规则表级规则
        参数 描述
        规则名称 请输入规则名称。
        强弱 设置强规则或弱规则:
        • 如果设置强规则,红色异常报警并阻塞下游任务节点,橙色异常报警不阻塞。
        • 如果设置弱规则,红色异常报警不阻塞下游任务节点,橙色异常不报警不阻塞。
        规则字段 此处选择表级规则。表级自定义规则,支持根据业务属性自定义where过滤条件。
        采样方式 支持countcount/table_count两种方式。
        过滤条件 输入过滤条件。例如,您需要查询业务日期下表的分区,可以设置过滤条件为pt=$[yyyymmdd-1]
        校检类型 支持数值型波动率型动态阈值型
        说明 您需要购买DataWorks企业版及以上版本,才可以选择动态阈值型
        比较方式 选择的校检类型不同,比较方式也不同:
        • 如果选择校检类型数值型,则比较方式包括大于大于等于等于不等于小于小于等于
        • 如果选择校检类型波动率型,则比较方式包括绝对值上升下降
        校检方式 选择的校检类型不同,校检方式也不同:
        • 如果选择校检类型数值型,则校检方式仅支持与固定值比较
        • 如果选择校检类型波动率型,则校检方式包括7天平均值波动30天平均值波动1天周期比较7天周期比较30天周期比较7天方差波动30天方差波动1,7,30天波动检测上一周期比较
        期望值 如果选择校检类型数值型,需要设置期望值。
        波动值比较 如果选择校检类型波动率型,则需要设置波动值的橙色阈值和红色阈值。您可以通过拖动进度条来设置,也可以直接输入阈值。
        描述 对创建的自定义规则进行描述。
      • 自定义SQL自定义SQL
        参数 描述
        规则名称 请输入规则名称。
        强弱 设置强规则或弱规则:
        • 如果设置强规则,红色异常报警并阻塞下游任务节点,橙色异常报警不阻塞。
        • 如果设置弱规则,红色异常报警不阻塞下游任务节点,橙色异常不报警不阻塞。
        规则字段 此处选择自定义SQL,支持自定义SQL逻辑(单行单列输出)。
        采样方式 仅支持自定义SQL
        Set Flag 输入SQL的前置set语句。
        自定义SQL 输入完整的SQL语句,查询结果只能返回一行一列的值。

        自定义SQL中,请使用中括号的形式匹配表的分区表达式。

        校检类型 支持数值型波动率型两种类型。
        比较方式 选择的校检类型不同,比较方式也不同:
        • 如果选择校检类型数值型,则比较方式包括大于大于等于等于不等于小于小于等于
        • 如果选择校检类型波动率型,则比较方式包括绝对值上升下降
        校检方式 选择的校检类型不同,校检方式也不同:
        • 如果选择校检类型数值型,则校检方式仅支持与固定值比较
        • 如果选择校检类型波动率型,则校检方式包括7天平均值波动30天平均值波动1天周期比较7天周期比较30天周期比较7天方差波动30天方差波动1,7,30天波动检测上一周期比较
        期望值 如果选择校检类型数值型,需要设置期望值。
        波动值比较 如果选择校检类型波动率型,则需要设置波动值的橙色阈值和红色阈值。您可以通过拖动进度条来设置,也可以直接输入阈值。
        描述 对创建的自定义规则进行描述。
    • 快捷添加快捷添加
      参数 描述
      规则名称 请输入规则名称。
      规则类型 仅支持多字段重复值
      规则字段 设置监控字段。
  4. 单击批量添加