本文为您介绍数据质量的校检逻辑及离线数据的内置模板规则。
基本概念
- 样本:当天采集的具体的样本的值。例如对于SQL任务表行数,1天波动检测,则样本是当天分区的表行数。
- 基准值:历史样本的对比值。
- 如果规则是SQL任务表行数,1天波动检测,则基准值是前一天分区产生的表行数。
- 如果规则是SQL任务表行数,7天平均值波动检测,则基准值是前7天的表行数据的平均值。
校检逻辑
数据质量支持与固定值比较、波动值比较和动态阈值三种校检方式。
校检方式 | 校检逻辑 |
---|---|
与固定值比较 |
|
波动值比较 |
|
动态阈值 | 您无需手动设置阈值,系统会自动根据算法模型实时检测指标的正确性。如果超出合理的波动范围,便进行报警。
注意 您需要购买DataWorks企业版及以上版本,才可以使用动态阈值。
|
离线规则内置模板说明

模板名称 | 描述 |
---|---|
字段平均值,相比1天、1周和1个月前的波动率。 | 取该字段的平均值,同1天、7天和1个月的周期进行比较,计算波动率。再与阈值进行比较,只要有一个不符合规则即可触发报警。 |
字段汇总值,相比1天、1周和1个月前的波动率。 | 取该字段的sum值,同1天、7天和1个月的周期进行比较,计算波动率。再与阈值进行比较,只要有一个不符合规则即可触发报警。 |
字段最小值,相比1天、1周和1个月前的波动率。 | 取该字段的最小值,同1天、7天和1个月的周期进行比较,计算波动率。再与阈值进行比较,只要有一个不符合规则即可触发报警。 |
字段最大值,相比1天、1周和1个月前的波动率。 | 取该字段的最大值,同1天、7天和1个月的周期进行比较,计算波动率。再与阈值进行比较,只要有一个不符合规则即可触发报警。 |
字段唯一值的个数。 | 去重后的count数与一个期望数字进行比较,即固定值校检。 |
字段唯一值的个数,相比1天、1周和1个月前的波动率。 | 去重后的count数与1天、1周和1个月前进行比较,即固定值校检。 |
表行数,相比1天、1周和1个月前的波动率。 | 同1天、1周和1个月前采集的表行数进行比较,对比波动率。 |
字段空值个数。 | 取该字段的空值数与固定值进行比较。 |
字段空值个数/总行数。 | 空值的个数与行总数的比率与一个固定值进行比较。
说明 该固定值是一个小数。
|
字段重复值个数/总行数。 | 重复值个数与总行数的比率与一个固定值进行比较。 |
字段重复值个数。 | 总行数减去重后的个数,即字段重复值的个数。重复值个数与固定值进行比较。 |
字段唯一值个数/总行数。 | 唯一值个数与总行数的比率与一个固定值进行比较。 |
字段平均值,相比1天前的波动率。 | 取该字段的平均值,与前1天进行比较,计算出波动率后,再与阈值进行比较。 |
字段汇总值,相比1天前的波动率。 | 取该字段的sum值,与前1天进行比较,计算出波动率后,再与阈值进行比较。 |
字段最小值,相比1天前的波动率。 | 取该字段的最小值,与前1天进行比较,计算出波动率后,再与阈值进行比较。 |
字段最大值,相比1天前的波动率。 | 取该字段的最大值,与前1天进行比较,计算出波动率后,再与阈值进行比较。 |
字段汇总值,相比上一周期的波动率。 | 取该字段的sum值,与上一周期进行比较,计算出波动率后,再与阈值进行比较,只要有一个不符合规则即可触发报警。 |
字段最小值,相比上一周期的波动率。 | 取该字段的最小值,与上一周期进行比较,计算出波动率后,再与阈值进行比较,只要有一个不符合规则即可触发报警。 |
字段最大值,相比上一周期的波动率。 | 取该字段的最大值,与上一周期进行比较,计算出波动率后,再与阈值进行比较,只要有一个不符合规则即可触发报警。 |
字段分组,各离散点count值。 | 字段分组,各离散点count值。 |
字段分组,各离散点count值,相比1天、1周和1个月前的波动率。 | 字段分组,各离散点count值,相比1天、1周和1个月前的波动率。 |
字段分组,离散点总数。 | 字段分组,离散点总数。 |
字段分组,离散点总数,相比1天前的波动率。 | 字段分组,离散点总数,相比1天前的波动率。 |
相比上一周期,表大小不变(字节)。 | 相比上一周期,表大小不变(字节)。 |
相比上一周期,表大小变化(字节)。 | 相比上一周期,表大小变化(字节)。 |
相比上一周期,表行数变化。 | 相比上一周期,表行数变化。 |
相比上一周期,表行数不变。 | 相比上一周期,表行数不变。 |
表大小,相比上一周期的差值(字节)。 | 表大小,相比上一周期的差值(字节)。 |
表行数,相比上一周期的差值。 | 基准值为上一周期产生的分区的表行数,比较当天采集的表行数,对比差值。 |
表行数。 | 表行数。 |
表的空间大小(字节)。 | 表的空间大小(字节)。 |
表行数,相比1天前的差值。 | 基准值为昨天产生的分区的表行数,比较当天采集的表行数,对比差值。 |
表的空间大小,相比1天前的差值(字节)。 | 表的空间大小,相比1天前的差值(字节)。 |
表的空间大小,相比1天前的波动率。 | 该模板用于监控表大小的波动情况,样本对比值是与昨天的额度样本进行比较。
例如,填写橙色阈值为5%,红色阈值为10%。当波动率大于5%且小于等于10%时,会进行橙色报警。当波动率大于10%时,会进行红色报警。 |
表的空间大小,相比1周前的波动率。 | 该模板用于监控表大小的波动情况,样本对比值是与1周前的额度样本进行比较。
例如,填写橙色阈值为5%,红色阈值为10%。当波动率大于5%且小于等于10%时,会进行橙色报警。当波动率大于10%时,会进行红色报警。 |
表的空间大小,相比1个月前的波动率。 | 该模板用于监控表大小的波动情况,样本对比值是与1个月前的额度样本进行比较。
例如,填写橙色阈值为5%,红色阈值为10%。当波动率大于5%且小于等于10%时,会进行橙色报警。当波动率大于10%时,会进行红色报警。 |
表行数,相比最近7天平均值的波动率。 | 基准值是最近7天的表行数的平均值。 |
表行数,相比最近30天平均值的波动率。 | 基准值是最近30天的表行数的平均值。 |
表行数,相比1天前的波动率。 | 基准值为昨天产生的分区的表行数,比较当天采集的表行数,对比波动率。 |
表行数,相比1周前的波动率。 | 基准值为1周前产生的分区的表行数,比较当天采集的表行数,对比波动率。 |
表行数,相比1个月前的波动率。 | 基准值为1个月前产生的分区的表行数,比较当天采集的表行数,对比波动率。 |
表行数,相比1天、1周、1个月前和本月1号的波动率。 | 与1天、1周、1个月前和本月1号采集的表行数进行比较,对比波动率。 |
表行数,相比上一周期的波动率。 | 基准值为上周产生的分区的表行数,比较当天采集的表行数,对比波动率。 |