数据质量支持配置EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、CDH、MaxCompute数据源的监控规则。本文以配置MaxCompute监控规则为例,为您介绍如何配置监控任务。
前提条件
EMR、Hologres、analyticDB for PostgreSQL、CDH在进行数据质量规则配置前,需要先进行元数据采集,详情请参见采集元数据。使用限制
- 自动落标规则暂不支持使用。
- EMR、Hologres、analyticDB for PostgreSQL、CDH配置表数据质量规则后,产出表数据的调度节点需要使用网络已连通的独享调度资源组进行调度,才可正常触发数据质量规则校验。
进入按表配置监控规则页面
- 进入数据质量。
- 登录DataWorks控制台。
- 在左侧导航栏,单击工作空间列表。
- 选择工作空间所在地域后,单击相应工作空间后的数据开发。
- 单击左上角的
图标,选择 。
- 在左侧导航栏,单击 ,进入按表配置规则页面。数据质量监控规则包括模板规则和自定义规则。重要 数据质量通过分区表达式来确定需要配置的规则,配置模板规则前,请首先在界面左侧单击
图标配置分区表达式。
如果您的检查对象为非分区表,可以配置分区表达式为NOTAPARTITIONTABLE。如果您的检查对象为分区表,可以配置为业务日期的表达式(例如$[yyyymmdd])。 详情请参见配置分区表达式。
创建模板规则
- 单击相应表名后的配置监控规则,进入该表的监控规则页面。
- 单击创建规则,默认显示模板规则对话框。 您可以通过添加监控规则和快捷添加两种方式创建模板规则:
- 添加监控规则单击添加监控规则,下表以内置模板为例,为您详细介绍各项参数的配置。
参数 描述 规则名称 请输入规则名称。 强弱 设置强规则或弱规则: - 如果设置强规则,红色异常报警并阻塞下游任务节点,橙色异常报警不阻塞。
- 如果设置弱规则,红色异常报警不阻塞下游任务节点,橙色异常不报警不阻塞。
动态阈值 根据自身需求,选择是否开启动态阈值。 开启动态阈值后,无需手动配置波动阈值或期望值,系统会根据智能算法,自动判断合理阈值;若发现数据异常,会立即触发报警或阻塞。 重要 您需要购买DataWorks企业版及以上版本,才可以使用动态阈值功能。规则来源 包括内置模板和规则模板库。 - 内置模板规则详情请参见查看内置规则模板。
- 如果您选中规则模板库,需要选择相应的规则模板库,详情请参见创建并管理自定义规则模板。
重要 您需要购买DataWorks企业版及以上版本,才可以选择规则模板库。规则字段 包括表级规则和字段级规则,字段级规则包括数值型和非数值型。 规则模板 数据质量为您提供内置表级别、字段级别的监控模板,不支持的规则模板将不能被选择。详情请参见查看内置规则模板。 说明 平均值、汇总值、最小值和最大值仅对数值型字段生效。比较方式 包括绝对值、上升和下降。 波动值比较 计算波动率 您可以根据波动率计算公式(波动率=(样本-基准值)/基准值
)计算结果:- 样本
当天采集的具体的样本的值。例如对于SQL任务表行数,1天波动检测,则样本是当天分区的表行数。
- 基准值历史样本的对比值:
- 如果规则是SQL任务表行数,1天波动检测,则基准值是前一天分区产生的表行数。
- 如果规则是SQL任务表行数,7天平均值波动检测,则基准值是前7天的表行数据的平均值。
您可以设置橙色阈值和红色阈值,对不同严重程度的问题进行监控:- 如果校验值的绝对值小于或等于橙色阈值,则返回正常。
- 如果校验值的绝对值不满足第1种情况,且小于或等于红色阈值,则返回橙色报警,任务不会被阻塞,并且发送报警信息。
- 如果校验值不满足第2种情况,则返回红色报警,任务将被阻塞,并且发送报警信息。
启停状态 单击开关按钮启用或停用规则,用于控制该规则是否在生产环境中运行。 重要 状态设置为停用时,规则将无法触发试跑,并且不会被关联的调度任务触发运行。保留问题数据 当配置为开启状态时,在本条质量规则校验不通过的情况下,系统自动创建问题数据表存储质量规则校验过程中发现的问题数据。详情请参见:管理问题数据。 重要- 目前仅支持MaxCompute表配置保留问题数据功能。
- 目前仅部分数据质量监控规则支持配置保留问题数据功能,支持保存问题数据的规则,详情请参见:附录:支持保留问题数据的规则列表与问题数据口径。
- 受启停状态影响,如果为停用状态,则不执行保留问题数据。
描述 对配置的监控规则进行简单描述。 - 快捷添加单击快捷添加,配置各项参数。
参数 描述 规则名称 请输入规则名称。 监控字段 包括表级规则和字段级规则,字段级规则包括数值类型和非数值类型。 快捷规则 包括表行数大于0和表行数动态阈值。 重要 您需要购买DataWorks企业版及以上版本,才可以选择表行数动态阈值。
- 添加监控规则
- 单击批量添加。
创建自定义规则
如果模板规则不能满足您对分区表达式中数据质量的监控需求,您还可以通过创建自定义规则来满足个性化的监控需求:
- 单击相应表名后的配置监控规则,进入该表的监控规则页面。
- 单击创建规则,默认显示模板规则对话框。
- 单击自定义规则。您可以通过添加监控规则和快捷添加两种方式创建自定义规则:
- 添加监控规则添加监控规则时,规则字段支持表级规则、自定义SQL和字段级规则:
- 表级规则和字段级规则
参数 描述 规则名称 请输入规则名称。 强弱 设置强规则或弱规则: - 如果设置强规则,红色异常报警并阻塞下游任务节点,橙色异常报警不阻塞。
- 如果设置弱规则,红色异常报警不阻塞下游任务节点,橙色异常不报警不阻塞。
规则字段 此处选择表级规则。表级自定义规则,支持根据业务属性自定义where过滤条件。 采样方式 支持count和count/table_count两种方式。 说明 这里的count/table_count指的是根据配置的过滤条件过滤后的结果条数与当前分区的表总行数的比值。过滤条件 输入过滤条件。例如,您需要查询业务日期下表的分区,可以设置过滤条件为 pt=$[yyyymmdd-1]
。校检类型 支持数值型、波动率型和动态阈值型。 说明 您需要购买DataWorks企业版及以上版本,才可以选择动态阈值型。比较方式 选择的校检类型不同,比较方式也不同: - 如果选择校检类型为数值型,则比较方式包括大于、大于等于、等于、不等于、小于和小于等于。
- 如果选择校检类型为波动率型,则比较方式包括绝对值、上升和下降。
校检方式 选择的校检类型不同,校检方式也不同: - 如果选择校检类型为数值型,则校检方式仅支持与固定值比较。
- 如果选择校检类型为波动率型,则校检方式包括7天平均值波动、30天平均值波动、1天周期比较、7天周期比较、30天周期比较、7天方差波动、30天方差波动、1,7,30天波动检测和上一周期比较。
期望值 如果选择校检类型为数值型,需要设置期望值。 波动值比较 如果选择校检类型为波动率型,则需要设置波动值的橙色阈值和红色阈值。您可以通过拖动进度条来设置,也可以直接输入阈值。 启停状态 单击开关按钮启用或停用规则,用于控制该规则是否在生产环境中运行。 描述 对创建的自定义规则进行描述。 - 自定义SQL
参数 描述 规则名称 请输入规则名称。 强弱 设置强规则或弱规则: - 如果设置强规则,红色异常报警并阻塞下游任务节点,橙色异常报警不阻塞。
- 如果设置弱规则,红色异常报警不阻塞下游任务节点,橙色异常不报警不阻塞。
规则字段 此处选择自定义SQL,支持自定义SQL逻辑(单行单列输出)。 采样方式 仅支持自定义SQL。 Set Flag 输入SQL的前置set语句。 自定义SQL 输入完整的SQL语句,查询结果只能返回一行一列的值。 自定义SQL中,请使用中括号的形式匹配表的分区表达式。示例如下:
select count(*) from table_name where ds=$[yyyymmdd];
说明- 此处table_name代指当前正在配置监控规则的表名,您需要在实际配置中将其替换为当前实际操作的表名。
- 配置分区表达式详情请参见配置分区表达式
- 基于自定义SQL创建的数据质量规则校验的表分区由当前SQL条件决定,与上述步骤中的分区表达式配置无关。
校检类型 支持数值型和波动率型两种类型。 比较方式 选择的校检类型不同,比较方式也不同: - 如果选择校检类型为数值型,则比较方式包括大于、大于等于、等于、不等于、小于和小于等于。
- 如果选择校检类型为波动率型,则比较方式包括绝对值、上升和下降。
校检方式 选择的校检类型不同,校检方式也不同: - 如果选择校检类型为数值型,则校检方式仅支持与固定值比较。
- 如果选择校检类型为波动率型,则校检方式包括7天平均值波动、30天平均值波动、1天周期比较、7天周期比较、30天周期比较、7天方差波动、30天方差波动、1,7,30天波动检测和上一周期比较。
期望值 如果选择校检类型为数值型,需要设置期望值。 波动值比较 如果选择校检类型为波动率型,则需要设置波动值的橙色阈值和红色阈值。您可以通过拖动进度条来设置,也可以直接输入阈值。 描述 对创建的自定义规则进行描述。
- 表级规则和字段级规则
- 快捷添加
参数 描述 规则名称 请输入规则名称。 规则类型 仅支持多字段重复值。 规则字段 设置监控字段。
- 添加监控规则
- 单击批量添加。