您可以通过DataWorks的采集元数据功能,将表结构及血缘关系采集到数据地图中,清楚的查看表的内部结构及表间的关联关系。本文为您介绍如何新建CDH Hive采集器,采集CDH Hive元数据至DataWorks。采集完成后,您可以在数据地图查看相关数据。

前提条件

DataWorks工作空间绑定CDH引擎,详情请参见绑定CDH计算引擎

背景信息

全量采集元数据后,系统会开启自动增量采集,自动同步表中新增的元数据。

使用限制

  • DataWorks目前不支持跨地域采集数据,即DataWorks采集器所在的地域需要与元数据所在的地域相同。
  • DataWorks目前仅支持使用公网访问元数据。

新建采集器

  1. 进入数据发现页面。
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 选择工作空间所在地域后,单击相应工作空间后的进入数据开发
    4. 单击左上方的图标图标,选择全部产品 > 数据治理 > 数据地图
    5. 在顶部菜单栏,单击数据发现,进入数据发现页面。
  2. 新建采集器。
    1. 在左侧导航栏,单击元数据采集 > CDH Hive
    2. CDH Hive元数据采集页面,单击新建采集器
  3. 配置采集器。
    1. 选择CDH集群。
      新建采集器对话框选择需要采集数据的CDH集群
    2. 配置执行计划。
      新建采集器对话框选择执行计划
      执行计划包括按需执行每月每周每天每小时自定义。您需要根据业务需求配置合适的执行计划,不同的执行计划会生成不同的周期任务,系统会在该执行计划的时间内,对目标数据源进行元数据采集。具体如下:
      • 按需采集:根据实际业务需求,在业务需要时,您需要手动启动采集任务进行数据采集。
      • 月采集:即在每月的特定几天,在特定时间点自动采集一次元数据。
        注意 部分月份不包含29、30、31日,请您谨慎选择月末日期。
        如下图所示,在每月的1、11及21日的09:00,系统会自动采集一次元数据。CRON 表达式会根据您的配置自动生成。月采集
      • 周采集:即在每周的特定几天,在特定时间点自动采集一次元数据。
        如下图所示,在每周的星期一(MON)及星期天(SUN)的03:00,系统会自动采集一次元数据。CRON 表达式会根据您的配置自动生成。周采集不配置时间时,则默认在每周指定几天的00:00:00时间采集数据。
      • 天采集:即在每天特定的时间点自动采集一次元数据。
        如下图所示,在每天的01:00,系统会自动采集一次元数据。CRON 表达式会根据您的配置自动生成。天采集
      • 小时采集:即在每小时的第N*5分钟自动采集一次元数据。
        说明 目前小时周期的采集任务,仅支持选择的周期时间为第5分钟的倍数。
        如下图所示,在每小时的第5分钟和第10分钟,系统会自动采集一次元数据。CRON 表达式会根据您的配置自动生成。小时采集
      • 自定义采集时间:您可以根据业务需求,配置采集时间的CRON 表达式,系统会根据您的配置采集数据。
    3. 单击确认,采集器创建完成。

管理采集器

您可以在CDH Hive元数据采集页面,对已创建的采集器进行查看、编辑、删除等管理操作。CDH Hive采集器
序号 描述
1 在该区域,您可以输入采集器名称,搜索目标采集器。
说明 搜索采集器支持模糊匹配,即输入关键词,即可显示名称中包含该关键词的所有采集器。
2 在该区域,您可以查看相应采集器的运行状态运行计划上次运行时间上次消耗时间平均运行耗时等信息。
同时,您还可以对目标采集器执行如下操作:
  • 详情:查看目标采集器所配置的集群执行计划
  • 编辑:修改目标采集器所配置的集群执行计划
  • 删除:删除目标采集器。
  • 运行:运行采集器,根据目标采集器的配置信息采集数据。
  • 停止:停止运行中的采集器。
说明 仅当执行计划配置为按需执行时,采集器的操作列才会显示运行停止操作,其他周期计划的任务不涉及该操作。

后续步骤

采集CDH Hive元数据成功后,您可以在数据地图的全部数据页签查看已采集的数据详情。