您可以通过DataWorks的数据抽样采集器功能,从CDH Hive表中随机抽取表的部分数据用于数据保护伞的敏感数据识别。如果您在数据保护伞中配置了脱敏规则,那么在数据地图表详情页面进行数据预览时,命中的敏感字段将会被脱敏。本文为您介绍如何新建CDH Hive数据抽样采集器。
前提条件
- 已购买并创建DataWorks的独享调度资源组。详情请参见:新增和使用独享调度资源组。
- 在工作空间绑定CDH引擎后,您才可以进行CDH数据抽样采集操作,详情请参见绑定CDH计算引擎。
- 已经开通数据保护伞服务,并配置数据识别规则,详情请参见开通数据保护伞、数据识别规则。
使用限制
- 目前仅上海和成都地域可以使用数据抽样采集器功能。
- 支持基于集群按照数据库进行数据抽样采集。一个集群仅支持新建一个采集器,一个采集器中可以选择一个或多个需要进行数据抽样采集的数据库。
- 选择集群后,如果不选择数据库,默认对所有数据库下的表进行数据抽样。
- 阿里云主账号,拥有AliyunDataWorksFullAccess权限的子账号可以进行采集。
- CDH Hive新增、变更、删除表后需要重新进行数据抽样采集。
- 目前仅支持按需采集。
新建采集器
管理采集器
您可以在CDH Hive数据抽样采集器页面,对已创建的采集器进行查看、编辑、删除等管理操作。

序号 | 描述 |
---|---|
1 | 在该区域,您可以输入采集器名称,搜索目标采集器。
说明 搜索采集器支持模糊匹配,即输入关键词,即可显示名称中包含该关键词的所有采集器。
|
2 | 在该区域,您可以查看相应采集器的运行状态、运行计划、上次运行时间、上次消耗时间及平均运行耗时等信息。
同时,您还可以对目标采集器执行如下操作:
|