为保证您可以顺利完成本次实验,请您首先确保云账号已开通E-MapReduce(简称为EMR)、数据工场DataWorks和数据存储OSS。

前提条件

  • 注册阿里云账号。
  • 进行个人实名认证或企业实名认证。
  • 您需要购买DataWorks专业版及以上版本,才可以绑定E-MapReduce计算引擎实例。
  • 您需要在工作空间配置页面添加E-MapReduce计算引擎实例,当前页面才会显示EMR目录。

背景信息

本次实验涉及的阿里云产品如下:

操作步骤

  1. 创建EMR集群。
    1. 登录E-MapReduce控制台
    2. 选择华东2(上海)区域,单击创建集群
      说明
      • 由于源数据存储在华东2(上海),建议EMR集群创建在相同的区域。
      • 您可以通过一键购买自定义购买两种方式创建EMR集群,本文以自定义购买为例。
    3. 自定义购买 > 软件配置对话框中,选择集群类型Hadoop,其它配置项默认无需修改。单击下一步:硬件配置
    4. 硬件配置对话框中,选择付费类型按量付费,并进行网络配置实例配置,单击下一步:基础配置
    5. 基础配置对话框中,输入集群名称,并选择密钥对,单击下一步:确定
      EMR默认选项不开启挂载公网,创建集群后只能通过内网访问EMR集群。本次实验的Workshop操作中不涉及挂载公网,直接单击挂载公网说明对话框中的继续下一步即可。如果您需要公网访问,请进入ECS控制台挂载EIP。
    6. 确认对话框中,确认订单无误后,勾选《E-MapReduce服务条款》,单击创建
  2. 初始化集群。
    购买成功后,即可进入集群管理页面进行查看,集群初始化需要几分钟的时间。
    1. 集群初始化成功后,单击顶部菜单栏中的数据开发
    2. 数据开发页面,单击新建项目
    3. 新建项目对话框中,输入项目名称项目描述
      说明 请使用主账号创建项目,该项目用于关联DataWorks工作空间。
    4. 单击创建
  3. 创建DataWorks工作空间。
    说明 因本实验提供的数据资源都在华东2(上海),建议您将工作空间创建在华东2(上海),以避免工作空间创建在其它区域,添加数据源时出现网络不可达的情况。
    1. 鼠标悬停至EMR控制台左上角的图标图标,单击产品与服务 > 大数据(数加) > DataWorks
    2. 在左侧导航栏,单击工作空间列表
    3. 工作空间列表页面,鼠标悬停至左上角的地域,单击需要创建工作空间的地域。
    4. 单击创建工作空间,进行基本配置,单击下一步
      分类 参数 描述
      基本信息 工作空间名称 工作空间名称的长度需要在3~27个字符,以字母开头,且只能包含字母下划线和数字。
      显示名 显示名不能超过27个字符,只能字母、中文开头,仅包含中文、字母、下划线和数字。
      模式 包括简单模式标准模式,本文以创建简单模式的工作空间为例。
      描述 对创建的工作空间进行简单描述。
      高级设置 能下载select结果 设置是否允许下载数据开发中查询的数据结果。
    5. 选择引擎对话框中,选中E-MapReduce引擎,单击下一步
      DataWorks已正式商用,如果该地域没有开通,您需要首先开通正式商用服务。
    6. 引擎详情对话框中,配置各项参数。
      引擎详情
      参数 描述
      实例显示名称 自定义实例名称。
      Access ID 已经授权可以访问EMR集群的账号的AccessKey ID。
      Access Key 已经授权可以访问EMR集群的账号的AccessKey Secret。
      EmrClusterID 集群ID,从EMR端获取。
      集群ID 当前集群创建者的用户ID。
      项目ID 当前集群下的项目ID。
      YARN资源队列 当前集群下的队列名称。如果无特殊需求,请输入default
      Endpoint EMR的Endpoint,从EMR端获取。
    7. 配置完成后,单击创建工作空间
  4. 购买OSS并创建Bucket。
    1. 购买OSS,详情请参见开通OSS服务
    2. 登录OSS控制台
    3. 在左侧导航栏,单击Bucket列表
    4. Bucket列表页面,单击创建Bucket
    5. 创建Bucket对话框中,配置各项参数,单击确定
      说明 此处需要选择区域华东2(上海),更多参数说明请参见创建存储空间
    6. 单击相应的Bucket名称,进入Bucket的概览页面。
    7. 在左侧功能区域,单击文件管理
    8. 新建目录对话框中,输入目录名,单击确定
      说明 此处需要新建三个目录,分别存放同步过来的外部OSS数据源、RDS数据源和JAR资源。