您可以通过创建EMR(E-MapReduce) MR节点,将一个大规模数据集拆分为多个Map任务并行处理,实现大规模数据集的并行运算。本文为您介绍如何创建EMR MR节点并进行代码编辑运行。
前提条件
- 您已创建阿里云EMR集群,且集群所在的安全组中入方向的安全策略包含以下策略。
- 授权策略:允许
- 协议类型:自定义 TCP
- 端口范围:8898/8898
- 授权对象:100.104.0.0/16
- 您在工作空间配置页面添加E-MapReduce计算引擎实例后,当前页面才会显示EMR目录。详情请参见配置工作空间。
- 使用EMR MR节点进行作业开发时,如果需要引用开源代码资源,您需先将开源代码作为资源上传至EMR JAR资源节点中,详情请参见创建EMR JAR资源。
- 使用EMR MR节点进行作业开发时,如果需要引用自定义函数时,您需要先将自定义函数作为资源上传至EMR JAR资源节点中,并,新建注册此函数,详情请参见注册EMR函数。
创建EMR MR节点
作业开发
测试节点
测试节点,详情请参见查看周期任务。