您可以通过创建EMR(E-MapReduce) MR节点,将一个大规模数据集拆分为多个Map任务并行处理,实现大规模数据集的并行运算。本文为您介绍如何创建EMR MR节点并进行代码编辑运行。

前提条件

  • 您已创建阿里云EMR集群,且集群所在的安全组中入方向的安全策略包含以下策略。
    • 授权策略:允许
    • 协议类型:自定义 TCP
    • 端口范围:8898/8898
    • 授权对象:100.104.0.0/16
  • 您在工作空间配置页面添加E-MapReduce计算引擎实例后,当前页面才会显示EMR目录。详情请参见配置工作空间
  • 使用EMR MR节点进行作业开发时,如果需要引用开源代码资源,您需先将开源代码作为资源上传至EMR JAR资源节点中,详情请参见创建EMR JAR资源
  • 使用EMR MR节点进行作业开发时,如果需要引用自定义函数时,您需要先将自定义函数作为资源上传至EMR JAR资源节点中,并,新建注册此函数,详情请参见注册EMR函数

创建EMR MR节点

  1. 进入数据开发页面。
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 选择工作空间所在地域后,单击相应工作空间后的进入数据开发
  2. 鼠标悬停至新建图标,单击EMR > EMR MR
    您也可以找到相应的业务流程,右键单击EMR,选择新建 > EMR MR
  3. 新建节点对话框中,输入节点名称,并选择目标文件夹
    说明 节点名称必须是大小写字母、中文、数字、下划线(_)和小数点(.),且不能超过128个字符。
  4. 单击提交

作业开发

  1. 可选:引用自定义函数或开源代码资源。
    引用自定义函数或开源代码资源时,您需要先参见创建EMR JAR资源注册EMR函数完成准备工作。提交完成后可在编译作业开发代码过程中引用。以引用开源代码资源为例,引用操作如下。
    1. 页面停留在EMR MR节点的代码编辑页面,找到资源文件夹下的待引用资源,右键选择引用资源
      引用资源
    2. 选择引用后,当EMR MR节点的代码编辑页面出现如下引用成功提示时,表明已成功引用代码资源。
      资源引用成功
  2. 保存并提交节点。
    注意 您需要设置节点的重跑属性依赖的上游节点,才可以提交节点。
    1. 单击工具栏中的保存图标,保存节点。
    2. 单击工具栏中的提交图标。
    3. 提交新版本对话框中,输入变更描述
    4. 单击确认
    如果您使用的是标准模式的工作空间,提交成功后,请单击右上方的发布。具体操作请参见发布任务

测试节点

测试节点,详情请参见查看周期任务