DataWorks数据地图为您提供元数据采集器,便于您采集E-MapReduce所有DB或指定某些DB的元数据,同时您也可以使用手动同步表功能直接采集单表的元数据,提高单表元数据采集效率,元数据采集完成后,您可以在数据地图查看相关数据。本文为您介绍如何采集E-MapReduce元数据至DataWorks。

前提条件

在工作空间绑定EMR引擎后,您才可以进行EMR元数据采集操作,EMR引擎绑定详情请参见:创建并管理工作空间

背景信息

使用元数据采集器全量采集元数据后,系统会开启自动增量采集,自动同步EMR表中新增的元数据至DataWorks。

使用限制

  • 一个集群仅支持新建一个元数据采集器,一个采集器中可以选择一个或多个需要进行元数据采集的DB。
  • 不同类型的EMR集群、不同的元数据存储类型支持的元数据采集能力不一致,详情见下表。
    EMR集群类型元数据存储类型采集单表的元数据

    (全部数据中手工同步)

    采集整库的元数据

    (数据发现中新建采集器)

    新版数据湖(DataLake)集群 DLF统一元数据支持 无需配置,系统自动更新元数据
    自建RDS / 内置MySQL支持 需要配置,按需手动更新元数据
    旧版Hadoop集群 DLF统一元数据支持 无需配置,系统自动更新元数据
    自建RDS / 内置MySQL不支持 需要配置,按需手动更新元数据
    说明
  • 仅阿里云主账号,拥有AliyunDataWorksFullAccess权限的子账号、元数据采集管理员可以进行采集。

采集单表的元数据:手动同步表

  1. 登录DataWorks控制台后,进入数据地图页面,操作详情请参见进入首页
  2. 在顶部菜单栏,单击全部数据
  3. 单击右上角的手动同步表,选择数据类型为E-MapReduce,根据界面提示配置需要同步EMR表所在的EMR集群ID数据库表名信息。
    手动同步表
  4. 完成配置后单击开始同步,即开始同步指定表的元数据。

采集整库的元数据:新建采集器

使用元数据采集器全量采集元数据后,系统会开启自动增量采集,自动同步EMR表中新增的元数据至DataWorks。

  1. 登录DataWorks控制台后,进入数据地图页面,操作详情请参见进入首页
  2. 在顶部菜单栏,单击数据发现
  3. 新建采集器。
    1. 在左侧导航栏,单击元数据采集 > E-MapReduce
    2. E-MapReduce元数据采集页面,单击新建采集器
      新建采集器
  4. 配置采集器。
    1. 新建采集器对话框中,单击选择集群下拉列表,选择目标集群。
      新建采集器
    2. 可选:单击选择DB下拉列表选择需要进行元数据采集的DB,如果不选择,默认采集该集群内所有DB的元数据。
    3. 单击前往开启授权,在E-MapReduce控制台中所选集群的元数据页面,单击开启元数据收集
      开启元数据收集
      说明
      • DataWorks新绑定的EMR集群,默认已开启元数据收集权限。
      • DataWorks已绑定但还未采集元数据的EMR集群,需要前往开启授权。
    4. 在弹出的确认开关变更对话框中,单击确定
    5. 成功开启元数据收集后,返回数据地图中的新增采集器对话框,单击刷新
    6. 授权状态刷新为已授权后,单击确定,即可完成采集器的创建。

管理采集器

您可以在E-MapReduce元数据采集页面,对已创建的采集器进行删除、运行采集等操作。采集器
序号描述
在该区域,您可以输入采集器名称,搜索目标采集器。
说明 搜索采集器支持模糊匹配,即输入关键词,即可显示名称中包含该关键词的所有采集器。
在该区域,您可以查看相应采集器的运行状态采集对象上次运行时间等信息。
  • 运行状态:已创建的采集器的状态。
    • 收集成功:表示采集器已成功完成元数据采集。
    • 从未同步:表示您创建采集器后还未运行采集。
    • 采集失败:表示运行采集器后元数据采集失败,您可以尝试重新运行采集。
  • 采集对象:展示已采集的DB信息。
  • 上次运行时间:表示上次运行采集器的时间。
您还可以对目标采集器执行如下操作:
  • 运行采集:运行采集器,根据目标采集器的配置信息采集数据。
    • 对未运行采集的集群,您可以单击操作列的运行采集,执行成功后,运行状态变为收集成功,完成元数据采集。
    • 对已运行采集的集群,操作列的运行采集按钮无法单击。如果需要重新选择DB进行采集,您可以单击删除按钮,删除相应采集器后,重新创建采集器。
  • 删除:如果您需要删除采集器,请单击相应采集器后的删除,在删除实例对话框中,单击确定
在该区域,您可以执行如下操作:
  • 手工同步:如果表存在但是搜索不到或者表更新了但是数据地图显示还未更新,您可以单击手工同步,选择目标集群ID数据库表名后,手工同步该表。
  • 刷新:刷新采集器运行的状态及结果。

后续步骤

采集E-MapReduce元数据成功后,您可以在数据地图的全部数据页签查看已采集的数据详情。详情请参见查找表