本文为您介绍如何新建采集器,采集OSS元数据至DataWorks。采集完成后,您可以在数据地图查看数据。

背景信息

仅华东2(上海)地域支持采集OSS元数据,处于邀测阶段。

操作步骤

  1. 进入数据发现页面。
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 选择工作空间所在地域后,单击相应工作空间后的进入数据开发
    4. 单击左上角的图标图标,选择全部产品 > 数据治理 > 数据地图
    5. 在顶部菜单栏,单击数据发现
  2. 在左侧导航栏,单击OSS
  3. OSS元数据采集页面,单击新建采集器
  4. 新建采集器配置向导页面,完成以下操作。
    1. 基本信息页签下,配置各项参数。
      新建采集器
      参数 描述
      采集器名称 采集器的名称,必填且唯一。
      采集器描述 对采集器进行简单描述。
      数据源类型 采集对象的类型,默认为OSS
    2. 单击下一步
    3. 选择采集对象页签下,配置各项参数。
      选择采集对象
      参数 描述
      工作空间 工作空间列表中,选择需要采集的OSS数据源所在的工作空间。
      数据源 数据源列表中,选择需要采集的OSS数据源。如果没有您需要的数据源,请进入工作空间管理 > 数据源管理页面新建,详情请参见配置OSS数据源
      对象路径 待采集的OSS对象路径。
      遍历路径 是否遍历采集指定对象路径下的子路径。
      表前缀 采集器自动生成表时加的表名前缀,默认使用OSS对象名称作为表名。
    4. 单击下一步
    5. 配置执行计划页签下,配置各项参数。
      配置执行计划
      参数 描述
      执行计划 包括按需执行每月每周每天每小时自定义
      更新选项 设置更新目标表的条件。
      删除选项 设置删除目标表的条件。
    6. 单击下一步
    7. 信息确认页签下,确认配置信息无误后,单击确认
  5. OSS元数据采集页面,单击相应采集器后的运行
    运行完成后,单击上次运行更新表上次运行添加表列的数据,即可查看采集的表。
    您还可以在该页面进行以下操作:
    • 单击相应采集器后的详情,在采集器详情对话框中,查看该采集器的详情。
    • 单击相应采集器后的编辑,在编辑采集器对话框中,修改该采集器的信息。
    • 单击相应采集器后的删除,在请确认对话框中,单击确认,删除该采集器。
    • 单击处于运行中状态的采集器后的停止,停止运行该采集器。
  6. 查看OSS元数据。
    1. 在顶部菜单栏,单击全部数据
    2. 单击OSS
    3. OSS页签下,单击相应的表名,查看该表的详情。