您可以通过DataWorks的数据抽样采集器功能,从CDH Hive表中随机抽取表的部分数据用于数据保护伞的敏感数据识别。如果您在数据保护伞中配置了脱敏规则,那么在数据地图表详情页面进行数据预览时,命中的敏感字段将会被脱敏。本文为您介绍如何新建CDH Hive数据抽样采集器。

前提条件

使用限制

  • 目前仅上海和成都地域可以使用数据抽样采集器功能。
  • 支持基于集群按照数据库进行数据抽样采集。一个集群仅支持新建一个采集器,一个采集器中可以选择一个或多个需要进行数据抽样采集的数据库。
  • 选择集群后,如果不选择数据库,默认对所有数据库下的表进行数据抽样。
  • 阿里云主账号,拥有AliyunDataWorksFullAccess权限的子账号可以进行采集。
  • CDH Hive新增、变更、删除表后需要重新进行数据抽样采集。
  • 目前仅支持按需采集。

新建采集器

  1. 登录DataWorks控制台后,进入数据地图页面,操作详情请参见进入首页
  2. 在顶部菜单栏,单击数据发现
  3. 新建采集器。
    1. 在左侧导航栏,单击数据抽样采集器 > CDH Hive
    2. CDH Hive数据抽样采集器页面,单击新建采集器,弹出新建数据抽样采集器对话框。
  4. 配置数据抽样采集器。
    新建采集器
    参数 描述
    集群 下拉列表中展示当前Region下DataWorks已进行引擎绑定的CDH集群。您可以选择需要采集数据的CDH集群。详情请参见:对接使用CDH
    数据库 选择需要进行数据抽样采集的数据库。如果不选择,默认对该集群内所有数据库的表数据进行抽样采集。
    独享资源组 选择在绑定CDH引擎时,网络已连通的独享调度资源组。
    抽样采集服务 选择需要进行数据抽样采集的服务。详情请参见:对接使用CDH
    采集账号 为您展示用于此次数据抽样采集的账号,该账号将自动根据工作空间引擎绑定页面配置的账号映射关系进行读取。详情请参见:绑定CDH计算引擎
    执行计划 定义该采集器多久进行一次数据抽样采集,目前仅支持按需采集。
  5. 单击确认,采集器创建完成。

管理采集器

您可以在CDH Hive数据抽样采集器页面,对已创建的采集器进行查看、编辑、删除等管理操作。管理采集器
序号 描述
1 在该区域,您可以输入采集器名称,搜索目标采集器。
说明 搜索采集器支持模糊匹配,即输入关键词,即可显示名称中包含该关键词的所有采集器。
2 在该区域,您可以查看相应采集器的运行状态运行计划上次运行时间上次消耗时间平均运行耗时等信息。
同时,您还可以对目标采集器执行如下操作:
  • 详情:查看目标采集器所配置的详细信息。
  • 编辑:修改目标采集器所配置的集群独享资源组等信息。
  • 删除:删除目标采集器。
  • 运行:运行采集器,根据目标采集器的配置信息采集数据。运行后,识别出的敏感字段会展示在数据保护伞页面,当您在数据保护伞中配置脱敏规则后,命中的敏感字段在数据地图中预览时将会被脱敏。
  • 停止:停止运行中的采集器。

后续步骤

CDH Hive数据抽样采集成功,如果您已在数据保护伞中配置脱敏规则,那么在数据地图表详情页面进行表数据预览时,命中脱敏规则的敏感字段将会被脱敏。详情请参见:数据保护伞查看表详情