采集元数据是用于把表结构及血缘关系采集到数据地图中,清楚的为您展示表的内部结构及与表相关的关联关系。本文为您介绍如何新建采集器,并采集OTS元数据至DataWorks。采集完成后,您可以在数据地图查看数据。

背景信息

使用元数据采集器全量采集元数据后,系统会开启自动增量采集,自动同步EMR表中新增的元数据至DataWorks。
  1. 登录DataWorks控制台后,进入数据地图页面,操作详情请参见进入首页
  2. 在顶部菜单栏,单击数据发现
  3. 在左侧导航栏,单击元数据采集 > OTS
  4. OTS元数据采集页面,单击新建采集器
  5. 新建采集器配置向导页面,完成以下操作。
    1. 基本信息页签,配置各项参数。
      基本信息
      参数描述
      采集器名称采集器的名称,必填且唯一。
      采集器描述对采集器进行简单描述。
      工作空间采集对象(数据源)所属的DataWorks工作空间。
      数据源类型采集对象的类型,默认为OTS
    2. 单击下一步
    3. 选择采集对象页签,从数据源下拉列表中选择相应的数据源。
      如果列表中没有您需要的数据源,请单击去新建,进入工作管理空间 > 数据源管理页面新建数据源,详情请参见配置OTS数据源
    4. 单击测试采集连通性
    5. 待显示测试成功,单击下一步
      如果显示测试连通性未通过,请检查数据源是否配置正确。
    6. 配置执行计划页签,配置执行计划
      执行计划包括按需执行每月每周每天每小时。根据不同的执行周期,生成不同的执行计划,在相应执行计划的时间内,对目标数据源进行元数据采集。具体如下:
      • 按需采集:根据实际业务需求,在业务需要时才会采集OTS元数据。
      • 月采集:即在每月的特定几天,在特定时间点自动采集一次OTS元数据。
        重要 部分月份不包含29、30、31日,请您谨慎选择月末日期。
        如下图所示,在每月的1、11及21日的09:00,系统会自动采集一次OTS元数据。CRON 表达式会根据您的配置自动生成。月采集
      • 周采集:即在每周的特定几天,在特定时间点自动采集一次OTS元数据。
        如下图所示,在每周的星期一(MON)及星期天(SUN)的03:00,系统会自动采集一次OTS元数据。周采集不输入时间时,则默认在每周指定几天的00:00:00采集。
      • 天采集:即在每天特定的时间点自动采集一次OTS元数据。
        如下图所示,在每天的01:00,系统会自动采集一次OTS元数据。天采集
      • 小时采集:即在每小时的第N*5分钟自动采集一次OTS元数据。
        说明 目前小时周期的采集任务,仅支持选择的周期时间为第5分钟的倍数。
        如下图所示,在每小时的第5分钟和第10分钟,系统会自动采集一次OTS元数据。小时采集
    7. 单击下一步
    8. 信息确认页签,确认配置信息无误后,单击确认
  6. OTS元数据采集页面,您可以查看并管理目标采集器的相关信息。查看采集器
    主要操作说明如下:
    • 您可以查看相应采集器的运行状态运行计划上次运行时间上次消耗时间平均运行耗时及上次运行时更新及添加的表数量。
    • 单击目标采集器操作列的详情编辑删除运行中停止,执行相应操作:
      • 详情:查看该采集器的采集器名称数据源类型执行计划
      • 编辑:修改该采集器的信息。
      • 删除:删除该采集器。
      • 运行:单击运行,即可根据该采集所配置的任务采集数据。仅当执行计划配置为按需执行时,才会生成运行操作,其他周期计划的任务不涉及该操作。
      • 停止:停止运行该采集器。

执行结果

采集OTS元数据成功后,您可以在全部数据 > OTS页面查看已采集的表。

单击表名所属工作空间数据库,即可查看对应类目的详细信息。

示例一:查看mysql_ots表的详细信息。查看表详情
示例二:查看datax-bvt数据库包含的所有表信息。查看数据库