为保证您可以顺利完成本次教程,您需要准备教程所需的EMR集群、DataWorks工作空间,并做好相关的环境配置。

前提条件

  • 注册阿里云账号。
  • 实名认证。
  • 进行本次教程实操需要开通如下服务:
    • 开源大数据平台E-MapReduce(简称为EMR):购买EMR,详情请参见计费概述
    • 大数据开发治理平台DataWorks:购买DataWorks,详情请参见购买指引
    • 对象存储OSS:购买OSS,详情请参见开通OSS服务

操作流程

执行本次实验,您需要完成如下环境准备操作:
  1. 创建并配置EMR集群

    EMR的DataLake(新版数据湖)集群提供了更灵活、可靠、高效的管理集群,更快的运行大数据计算引擎并提供出色的数据分析能力。此次实验您需要创建EMR的DataLake类型集群,并完成DataWorks On EMR开发任务所需的DataLake集群配置。详情请参见创建EMR集群

  2. 创建DataWorks工作空间

    工作空间为DataWorks支持的最大业务划分粒度,执行本实验前您需要先创建DataWorks工作空间。详情请参见创建DataWorks工作空间

  3. 配置DataWorks on EMR开发环境
    在DataWorks上运行EMR作业前,需要在DataWorks上进行资源组购买、添加工作空间成员、绑定EMR引擎等相关配置,确保EMR作业顺利执行。详情请参见配置DataWorks on EMR开发环境
    说明 工作空间创建完成后,您需要绑定EMR引擎后才能执行EMR任务。
  4. 创建Bucket

    创建Bucket,用于存储EMR元数据和运行EMR任务所需的IAR资源。详情请参见创建Bucket

创建EMR集群

说明 对于EMR集群的不同配置,DataWorks产品支持情况存在一定差异。如果您需要在DataWorks上进行EMR任务开发,建议您在创建EMR集群前先参考DataWorks on EMR集群配置最佳实践
  1. 创建EMR集群。
    1. 登录E-MapReduce新版控制台
    2. 选择华东2(上海)地域,单击创建集群
      说明 由于源数据存储在华东2(上海),建议EMR集群创建在相同的区域。
  2. 配置集群信息。
    创建集群时,您需要对集群进行软件配置、硬件配置、基础配置和确认订单。
    说明 集群创建完成后,除了集群名称以外,其他配置均无法修改,所以在创建时请仔细确认各项配置。
    1. 软件配置。
      1. 选择业务场景新版数据湖,或更多场景 > 数据湖,其它配置项默认无需修改。
      2. 单击下一步:硬件配置
    2. 硬件配置。
      1. 硬件配置对话框中,选择付费类型按量付费,并进行专有网络交换机节点组等配置。
        说明 EMR默认选项不开启挂载公网,创建集群后只能通过内网访问EMR集群。本次实验的Workshop操作中不涉及挂载公网。如果您需要公网访问,请进入ECS控制台挂载EIP。
      2. 单击下一步:基础配置
    3. 集群基础配置。
      1. 基础配置对话框中,输入集群名称,并选择密钥对
      2. 当所有的信息确认正确后,选中服务协议,单击下一步:确认订单

创建DataWorks工作空间

说明 因本实验提供的数据资源都在华东2(上海),建议您将工作空间创建在华东2(上海),以避免工作空间创建在其它区域,添加数据源时出现网络不可达的情况。
  1. 登录DataWorks控制台
  2. 单击左侧导航栏的工作空间列表
  3. 选择工作空间所在地域后,单击创建工作空间
  4. 配置工作空间信息。
    1. 配置基本信息。
      分类参数描述
      基本信息工作空间名称工作空间的名称。
      显示名工作空间在控制台的显示名称。
      模式DataWorks的工作空间分为简单模式标准模式
      • 简单模式:指一个DataWorks工作空间对应一个引擎项目,无法设置开发和生产环境,只能进行简单的数据开发,无法对数据开发流程以及表权限进行强控制。
      • 标准模式:指一个DataWorks工作空间对应两个引擎项目,可以设置开发和生产两种环境,提升代码开发规范,并能够对表权限进行严格控制,禁止随意操作生产环境的表,保证生产表的数据安全。

      详情请参见必读:简单模式和标准模式的区别

      描述工作空间的描述信息。
      高级设置能下载select结果控制数据开发中查询的数据结果是否能够下载,关闭后则无法下载select的数据查询结果。
      说明 此参数在工作空间创建完成后可以在工作空间配置页面进行修改,详情可参考文档:创建并管理工作空间
    2. 单击下一步直至引擎详情页。
    3. 引擎详情页单击创建工作空间,成功创建工作空间。

配置DataWorks on EMR开发环境

在DataWorks上运行EMR作业前,您需要配置如下开发环境。
产品配置说明参考链接
EMR侧在DataWorks运行EMR(E-MapReduce)作业前,为避免作业运行出错,您需要先检查EMR的DataLake(新版数据湖)集群关于鉴权等关键配置是否满足要求。DataLake集群配置
DataWorks侧
  • 资源组:您需要购买一个独享调度资源组,并与当前EMR集群所在的VPC网络连通。
  • 添加工作空间成员并授权:需要将目标用户添加为工作空间成员后,才可在DataStudio内正常运行EMR任务。
  • 绑定引擎:绑定DataLake集群为DataWorks运行EMR任务的引擎。
DataWorks配置

创建Bucket

  1. 登录OSS控制台
  2. 在左侧导航栏,单击Bucket列表
  3. Bucket列表页面,单击创建Bucket
  4. 创建Bucket对话框中,配置各项参数,单击确定
    说明 此处需要选择区域华东2(上海),更多参数说明请参见控制台创建存储空间
  5. 单击相应的Bucket名称,进入Bucket的文件管理页面。
  6. 新建目录对话框中,输入目录名,单击确定
    说明 此处需要新建三个目录,分别存放同步过来的外部OSS数据源、RDS数据源和JAR资源。