在DataWorks上运行EMR作业前,您需要在DataWorks上进行资源组购买、添加工作空间成员、引擎绑定等相关配置,确保EMR作业顺利执行。本文为您介绍DataWorks的关键配置事项。

背景信息

在DataWorks上运行EMR作业时,您需要绑定EMR的DataLake(新版数据湖)集群为DataWorks的引擎,该集群为后续在DataWorks上运行EMR任务的引擎环境,涉及的引擎绑定模式、资源组、权限管控说明如下。
  • 引擎绑定模式选择
    DataWorks为您提供快捷模式和安全模式两种绑定EMR引擎的模式,您可以基于快捷模式快速开展各类数据的工作,并可以基于安全模式实现更具安全性的数据权限管理。详情请参见配置访问方式
    • 快捷模式统一使用Hadoop账号执行任务。
    • 安全模式支持指定在DataWorks上执行任务所使用的账号。若您的集群开启LDAP认证或需要对不同的账号进行数据权限安全隔离,则可在DataWorks配置集群账号的映射,详情请参见配置访问身份的映射关系
    关于快捷模式与安全模式的差异,详情请参见快捷模式与安全模式差异比对
  • 资源组网络连通性及初始化
    DataWorks使用独享调度资源组来调度运行EMR作业,您需要确保:
    • 独享调度资源组与EMR集群网络联通,以便DataWorks可以正常访问EMR集群。详情请参见配置独享调度资源组
    • 独享调度资源组进行初始化,在DataWorks独享调度资源组部署EMR集群的客户端工具并配置,以便顺利执行各类型EMR任务(例如,Hive、Spark、Presto等类型EMR任务)。详情请参见下文引擎绑定的配置资源初始化
  • 权限管控
    • 引擎绑定权限

      授予目标账号AliyunEMRFullAccess权限策略,以便目标账号有权限将EMR集群绑定至DataWorks,作为开发EMR任务的引擎环境。授权操作,详情请参见用户、角色与权限概述

    • 数据开发权限

      您需要将DataWorks上进行数据开发的用户加入目标工作空间,并配置工作空间成员与集群账号映射,以便可在DataWorks上进行EMR集群账号认证及数据权限控制,后续可使用EMR集群身份在DataWorks上执行任务,并让每个空间成员拥有自己的权限,做到数据权限隔离。添加空间成员,详情请参见添加工作空间成员;配置工作空间成员与集群账号映射,详情请参见3

使用限制

  • 仅支持使用独享调度资源组在DataWorks运行EMR任务。
  • 您需要拥有AliyunEMRDevelopAccess权限策略才可绑定引擎。

配置流程

  1. 购买并配置独享调度资源组。
    运行EMR作业前,您需要购买一个独享调度资源组,并与当前EMR集群所在的VPC网络连通。购买并配置独享调度资源组,详情请参见独享调度资源组概述
  2. 添加工作空间成员并授权。
    您需要将目标用户添加为工作空间成员后,才可在DataStudio内正常运行EMR任务。添加工作空间成员,详情请参见角色及成员管理:空间级
  3. 进入引擎绑定页面。
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 进入工作空间配置页面绑定所需引擎。
      说明 如果您没有DataWorks工作空间,则需要新建工作空间。创建工作空间并选择EMR计算引擎服务,详情请参见创建工作空间并选择EMR计算引擎服务
      选择工作空间所在地域后,您可以通过如下两种方式进入:
      • 单击相应工作空间后的更多图标,选择工作空间配置。在工作空间配置对话框单击更多设置即可进入。
      • 单击相应工作空间后的数据开发,在数据开发页面单击顶部菜单栏右侧的配置图标即可进入。
  4. 绑定引擎。
    绑定DataLake集群为DataWorks运行EMR任务的引擎,详情请参见绑定引擎

绑定引擎

  1. 新增引擎。
    1. 工作空间配置页面的计算引擎信息区域,单击E-MapReduce
    2. E-MapReduce页签下,单击增加实例
  2. 配置引擎信息。
    新增EMR集群对话框中,配置各项参数。下图以生产环境为例,开发环境界面类似。引起绑定
    说明 DataWorks简单模式和标准模式工作空间的配置不同。DataWorks标准模式的工作空间需要分别配置生产环境和开发环境的参数。
    1. 配置访问模式。
      参数 描述
      实例显示名称 E-MapReduce引擎自定义实例的名称。
      地域 该引擎所在地域,默认为当前工作空间所在地域,不可修改。
      访问模式 DataWorks提供快捷模式安全模式两种引擎绑定方式。
      • 快捷模式:适用于对任务执行者无数据权限管控隔离要求的工作空间,将统一使用一个账号进行操作。
      • 安全模式:适用于对任务执行者数据权限有强管控要求的工作空间,通过个人账号与EMR集群权限账号映射的方式,实现使用个人账号提交运行任务,实现数据权限隔离。
        说明 若您的EMR集群开启LDAP,则需要手动配置LDAP映射。开启LDAP,详情请参见DataLake集群配置
    2. 配置基础信息。
      参数 描述
      集群访问身份 根据选择的访问模式配置相应访问身份。
      • 快捷模式

        无论是基于开发环境还是生产环境,阿里云主账号及RAM用户在DataWorks运行代码、自动调度任务,都只是下发代码至EMR集群,实际均是通过集群内的Hadoop账号提交任务。

      • 安全模式
        支持标准模式与简单模式工作空间,在开发环境、生产环境指定不同类型账号作为任务提交与运行的账号。
        • 标准模式工作空间
          • 开发环境:默认使用任务执行者提交任务。
          • 生产环境:支持指定以下三种身份提交运行调度任务。
            • 任务责任人所映射集群账号:使用任务责任人映射的Liunx账号或LDAP账号执行任务。
            • 阿里云主账号所映射集群账号:使用阿里云主账号映射的Liunx账号或LDAP账号执行任务。
            • 阿里云子账号所映射集群账号:使用阿里云子账号映射的Liunx账号或LDAP账号执行任务。
        • 简单模式工作空间:支持指定以下三种身份提交运行调度任务。
          • 任务责任人所映射集群账号:使用任务责任人映射的Liunx账号或LDAP账号执行任务。
          • 阿里云主账号所映射集群账号:使用阿里云主账号映射的Liunx账号或LDAP账号执行任务。
          • 阿里云子账号所映射集群账号:使用阿里云子账号映射的Liunx账号或LDAP账号执行任务。
        说明 若您的集群已开启LDAP,并使用安全模式绑定引擎,引擎绑定后请为DataWorks空间成员映射EMR引擎账号,以实现不同身份用户拥有不同权限的目的。开启LDAP,详情请参见DataLake集群配置
    3. 配置引擎信息。
      参数 描述
      集群ID 选择需要绑定在DataWorks上运行任务的EMR集群。仅展示当前地域下的DataLake集群。
      YARN资源队列 选择当前引擎在DataWorks提交任务时默认的YARN队列。默认为default
      覆盖DataStudio任务队列映射 用于配置任务的运行队列规则。
      • 勾选:所有任务将按照YARN资源队列指定的队列运行。
      • 不勾选:所有任务将根据queue参数的配置情况运行。
        • 如果节点的高级设置中配置了queue参数,则按照queue参数的配置运行。
        • 如果节点的高级设置中未配置queue参数,则按照YARN资源队列指定的队列运行。
      说明 如果界面不显示覆盖DataStudio任务队列映射,可能由于您的引擎版本过低,请提交工单进行升级。
      Endpoint EMR引擎的Endpoint,不可修改。
    4. 配置资源初始化。
      1. 选择与当前DataWorks工作空间网络连通的独享调度资源组。

        如果您没有可用的独享调度资源组则需要新建,新建独享调度资源组并配置网络连通性,详情请参见新增和使用独享调度资源组

      2. 单击初始化对资源组进行初始化,验证独享调度资源组和EMR引擎的网络连通性。

        您也可以选择多个资源组,批量进行初始化。

      说明 当EMR引擎配置或组件版本变更时,需要在此界面重新对资源组进行初始化操作。
  3. 配置访问身份的映射关系。
    成功绑定安全模式的EMR后,后续实际执行EMR任务时,使用的是EMR集群配置的访问身份对应的映射账号。配置访问身份的映射关系步骤如下:
    1. 进入EMR集群配置页面。
      您可以通过如下三种方式进入。
      方式 步骤
      1 成功添加E-MapReduce引擎后,在弹出的请注意对话框,单击去配置开发环境去配置生产环境
      2 计算引擎信息区域的引擎实例绑定页面,单击配置账号映射关系
      3 EMR集群配置页面,单击已绑定的EMR集群右上角的编辑
    2. 编辑EMR集群配置对话框,配置引擎权限映射。
      配置引擎映射您可以使用如下两种方式配置引擎权限映射关系。
      方式 步骤
      引用已创建的映射关系 引用映射关系中直接选择引用当前工作空间中已创建的权限映射关系。
      创建新的权限映射关系 选择映射类型后,在配置引擎权限映射区域,选择需要配置映射关系的云账号及相应的映射账号。
      说明
      • 阿里云主账号或拥有AliyunEMRFullAccess权限策略的RAM用户可以为本工作空间所有成员配置身份映射,其余工作空间成员仅可以为自己配置身份映射。
      • 您可以添加多个云账号系统账号LDAP账号的映射关系。DataWorks支持多个云账号映射至同一个映射账号。
    3. 单击确定,完成创建。