模型发布生产环境成功后,DataWorks智能数据建模支持自动生成数据质量监控规则,便于后续在生产环境中通过生成的数据质量规则来约束对应表的数据质量。本文为您介绍如何在表发布成功后自动生成数据质量规则。
前提条件
已将表发布至生产环境。表发布操作请参见物化逻辑模型。
注意事项
表成功发布至生产环境后,表的字段管理设置中,以下字段支持自动生成数据质量规则:
主键和非空字段。
配置了关联标准代码的字段。
操作步骤
发布维度表
进入智能数据建模页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的,在下拉框中选择对应工作空间后单击进入数据建模。
单击上方导航栏内的维度建模进入维度建模页面,选择需要配置数据落标的表,双击表名称进入表详情页面。
在字段管理模块下对该维度的表字段勾选配置主键、非空以及字段关联。
单击
保存该表,再单击
按钮,将该表提交为新的模型版本。单击
发布该表,在发布弹窗内进行配置:生效环境:勾选生产与开发。
自动落标:勾选是。
其余配置项保持默认即可,在配置完成后,单击发布,对表建模进行发布。
查看质量规则
自动落标生成规则
单击顶部的
质量规则,进入数据落标页面,即可查看到自动落标生成的质量规则,在数据落标页面单击生成质量规则,即可一键自动生成对应的质量规则。对维度表 testtb 单击生成质量规则后,系统自动生成两条已启用的弱规则:字段规则-唯一-(id)(质量维度为唯一性,规则模板为重复值个数固定值,监控阈值红点 !=0.0、绿点 =0.0)和 字段规则-非空-(id)(质量维度为完整性,规则模板为空值个数固定值,监控阈值红点 !=0.0、绿点 =0.0)。运行引擎为 MAXCOMPUTE,运行环境为 PRODUCT,schema 为 default。
手动配置生成规则
单击配置监控按钮,进入中,单击新建规则按钮,进行新建规则,详情可参见配置规则:按表(单表)。
右侧弹出 从规则模板新建 面板,提供 + 系统模板规则、+ 自定义模板规则、+ 自定义SQL 三种新建方式。系统模板共63个,按类型分为表行数、条件匹配率、表大小、空值行数、重复值行数、唯一值数、最小值、最大值、平均值、汇总值、枚举值、离散值、自定义SQL等分类。
生成质量监控
配置完质量规则后,在规则列表页面,单击规则列表的ID/规则名称列内的规则名称,进入页签后,单击进入质量监控页签,进行新建质量监控配置操作,详情配置如下:
模块 | 配置项 | 配置内容 |
基本配置 | 质量监控名称 | 自定义质量监控名称。 |
数据范围 | 按监控对象默认的表类型生成数据范围,当监控对象为分区表时,数据范围默认为按分区设置范围,可按照分区圈选范围,例如: | |
运行设置 | 触发方式 | 可选择:
|
关联调度节点(生产调度触发) | 单击添加节点后,选择需要创建质量监控的空间与节点。 说明 通过DataWork运维中心中,关联指定的周期调度任务,节点运行完成后,自动触发该质量监控下的质量规则 | |
运行资源选择 | 执行质量规则检测所需的运行资源,默认选择该工作空间下监控表所属数据源。如选取其他数据源,需确认对应资源可对该表进行访问。 | |
质量问题处理策略 | 问题策略 | 保持默认即可 |
选择质量规则 | 单击批量选择后,在面板内可根据ID/规则名称、规则模板、关联范围来圈选需要配置质量监控的质量规则。 | |
配置完成的质量监控可在中查看配置的质量监控最近一次的运行记录和修改告警订阅的订阅方式与接收对象。
若生成质量规则后,启用执行规则,则需注意数据质量规则的运行费用,计费详情请参见:数据质量实例计费。
修改/删除落标规则
数据建模侧修改/删除落标规则。
通过建模侧字段属性的修改,如修改字段名称,或从非空更改为不要求非空,或更改关联的标准代码规则的方式修改落标规则。
对字段进行删除或新增来进行修改或删除落标规则。
删除表建模来进行修改或删除落标规则。
对表建模字段进行的修改或删除,需要进行相应的变动与修改,需单击
重新发布该表。