本文为您介绍如何创建EMR(E-MapReduce)表。

前提条件

  • 您已创建阿里云EMR集群,且集群所在的安全组中入方向的安全策略包含以下策略。
    • 授权策略:允许
    • 协议类型:自定义 TCP
    • 端口范围:8898/8898
    • 授权对象:100.104.0.0/16
  • 您在工作空间配置页面添加E-MapReduce计算引擎实例后,当前页面才会显示EMR目录。详情请参见配置工作空间
  • 您需要在数据地图模块采集EMR元数据后,才可以在新建表时选择到EMR库。详情请参见采集E-MapReduce元数据

操作步骤

  1. 进入数据开发页面。
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 选择工作空间所在地域后,单击相应工作空间后的进入数据开发
  2. 鼠标悬停至新建图标,单击EMR >
    您也可以找到相应的业务流程,右键单击 EMR,选择 新建 >
  3. 新建表对话框中,配置各项参数。
    新建表
    参数 描述
    请选择引擎类型 默认为EMR,且不可以修改。
    表名 EMR表的名称。
    请选择引擎实例 从下拉列表中选择相应的引擎实例。
    请选择所属库 从下拉列表中选择引擎实例所在的数据库。
    说明 您需要采集元数据后,才能选择所属库。
  4. 单击提交,进入表的编辑页面。
    该页面上方为您展示 新建表对话框中的配置,您可以修改EMR引擎实例的 所属库。如果您需要新建数据库,请单击 新建库。在 新建库对话框中,配置各项参数,单击 确认
  5. 基本属性区域,配置各项参数。
    基本属性
    名称 描述
    一级主题 新建表所处的一级目标文件夹名称。
    说明 一级、二级主题仅仅是DataWorks上文件夹的摆放形式,目的是为了您能更好地管理您的表。
    二级主题 新建表所处的二级目标文件夹名称。
    新建主题 单击新建主题,进入主题管理页面,您可以在该页面创建一级主题、二级主题。
    刷新 新建主题后,单击刷新
    描述 对新建表进行简单描述。
  6. 物理模型设计区域,配置各项参数。
    物理模型
    参数 描述
    层级 从下拉列表中选择相应的层级和物理分类。如果您需要新建层级和物理分类,请联系工作空间管理员,单击新建层级,在层级管理页面进行添加。新建成功后,单击刷新
    物理分类
    分区类型 包括分区表非分区表
    表类型 包括内部表外部表
  7. 表结构设计区域,配置各项参数。
    表结构
    参数 描述
    添加字段 单击添加字段,配置字段信息后,单击保存,即可新增一个字段。
    上移 调整未创建的表的字段顺序。如果为已经创建的表调整字段顺序,会要求删除当前已经创建的表,再新建一张同名表。生产环境中禁止该操作。
    下移
    字段英文名 字段的英文名称,由字母、数字和下划线(_)组成。
    字段类型 支持TINYINT、SMALLINT、INT、BIGINT、FLOAT、DOUBLE、DECIMAL、VARCHAR、CHAR、STRING、BINARY、DATETIME、DATE、TIMESTAMP、BOOLEAN、ARRAY、MAP和STRUCT。
    长度/设置 当选择的字段类型需要设置长度时,请在文本框中进行配置。
    描述 对字段进行描述。
    主键 勾选表示该字段是主键。该主键为业务概念,您可以在业务上保证记录的唯一性,DataWorks对主键无约束。
    编辑 单击已保存字段后的编辑,修改当前字段的配置,并单击保存
    删除 删除已经创建的字段。
    说明 已经创建的表,删除字段重新提交时,会要求删除当前表,再去建一张同名表,在生产环境中禁止该操作。
    添加分区 如果您在物理模型设计区域,设置分区类型分区表,则需要配置分区。

    您可以为当前表新建一个分区。如果为已经创建的表添加分区,会要求删除当前已经创建的表,再新建一张同名表。生产环境中禁止该操作。

  8. 单击工具栏中的提交图标,提交EMR表至生产环境。
    如果您使用的是标准模式的工作空间,请先提交表至开发环境,再提交表至生产环境。
    注意 EMR不支持DDL模式创建表。