控制台和登录入口整合在这里了。

确定

E-MapReduce Service

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。

立即购买 联系销售

E-MapReduce

阿里云 Elastic MapReduce(E-MapReduce) 是运行在阿里云平台上的一种大数据处理的系统解决方案。E-MapReduce 构建于阿里云云服务器 ECS 上,基于开源的 Apache Hadoop 和 Apache Spark,让用户可以方便地使用Hadoop和Spark生态系统中的其他周边系统(如 Apache Hive、Apache Pig、HBase 等)来分析和处理自己的数据。不仅如此,用户还可以通过E-MapReduce将数据非常方便的导入和导出到阿里云其他的云数据存储系统和数据库系统中,如阿里云 OSS、阿里云 RDS 等。


优点

易用性

按照所选硬件机型(CPU、内存、磁盘),所选软件组合和版本,进行自动化部署

成本

可以按需创建集群,即离线作业运行结束就可以释放集群。可以动态的在需要的时候增加节点。 也可以选择包年包月长期运行

深度整合

与阿里云其他产品如 对象存储(OSS),消息服务(MNS),云数据库(RDS) 等深度整合,作为 E-MapReduce 产品中 Hadoop/Spark 计算引擎的输入源或者输出目的地

安全

整合阿里云 RAM 资源权限管理系统,可以通过主子账号对服务权限进行整合阿里云 RAM 资源权限管理系统,可以通过主子账号对服务权限进行隔离

产品功能

自动化按需创建集群

  • 自由选择机器配置(CPU,内存)和磁盘类型和容量

  • 自由选择服务器规模,包括 Master 和 Core 的数量

  • 根据业务量的上升可对集群动态扩容

  • 自由选择开源大数据生态软件组合和版本,目前包括 Hadoop 和 Spark

  • 自由选择启动集群的方式,分为临时集群和长时间运行集群

支持丰富的作业类型

  • MapReduce:离线处理作业

  • Hive:关系型分析查询作业

  • Pig:数据清洗,ETL 等脚本作业

  • Spark MLlib:基于 Spark 的机器学习作业

  • Spark GraphX:基于 Spark 的图处理作业

  • Spark Streaming:基于 Spark 的在线/流式 作业

  • Spark SQL & DataFrames:基于 Spark 的数据科学交互式作业

  • Sqoop:数据传输工具

  • Shell:Shell作业

灵活的作业执行计划

  • 将作业(包括 Hadoop/Spark/Hive/Pig)任意组合成执行计划

  • 执行计划的执行策略有两种,分为立即执行和定时周期执行


定价

E-MapReduce 产品的费用包含如下几个部分:

ECS 产品的费用:

在购买 E-MapReduce 集群的时候,阿里云 ECS 会被自动购买,所以您不需要提前准备 ECS。如果您有 ECS 的优惠折扣,这里购买的 ECS 同样享有该 ECS 折扣。

E-MapReduce 产品的费用:

E-MapReduce 会提供集群的多维度管理服务,包括页面的展示与控制、Open API 与 SDK 的支持、监控报警、运维工具、服务端后台的自动化运维等服务。

Master 节点的外网流量费用

创建完成的集群会默认给 Master 节点开启 8Mbps 的公网带宽(对于 HA 集群,2个 Master 都会有)。这个流量是按量计费的,并未包括在集群的费用中。每小时扣费,仅单向收取流出流量费用,流入流量免费。例如您在 1 小时内公网流出流量为 10GB,收取费用为 10GB * 每 G 价格 美元 / 小时。每个 Region 的流量费略有不同,请参考网络价格信息。

华东1,华东2,华北1,华南1

ECS实例类型 CPU MEMORY (GB) 包月 (美元/月) 按量 (美元/小时)
ecs.s2.large 2 4 11.8 0.0564
ecs.s3.large 4 8 24.84 0.1144
ecs.m1.medium 4 16 38.04 0.1984
ecs.m1.xlarge 8 32 77.32 0.3992
ecs.c1.large 8 16 50.96 0.2304
ecs.c2.large 16 32 103.16 0.462
ecs.c2.xlarge 16 64 155.88 0.7996
ecs.n1.medium 2 4 11.96 0.0532
ecs.n1.large 4 8 25.16 0.1084
ecs.n1.xlarge 8 16 51.52 0.218
ecs.n1.3xlarge 16 32 104.24 0.4376
ecs.n1.7xlarge 32 64 209.68 0.8772
ecs.n2.large 4 16 38.08 0.162
ecs.n2.xlarge 8 32 77.4 0.326
ecs.n2.3xlarge 16 64 156 0.6532
ecs.n2.7xlarge 32 128 313.16 1.3084

新加坡

ECS实例类型 CPU MEMORY (GB) 包月 (美元/月) 按量 (美元/小时)
ecs.s2.large 2 4 22 0.0428
ecs.s3.large 4 8 43.96 0.0856
ecs.m1.medium 4 16 61.52 0.1196
ecs.m1.xlarge 8 32 123.04 0.2388
ecs.c1.large 8 16 87.88 0.1708
ecs.c2.large 16 32 175.76 0.3412
ecs.c2.xlarge 16 64 n/a n/a
ecs.n1.medium 2 4 24.44 0.0476
ecs.n1.large 4 8 48.84 0.0948
ecs.n1.xlarge 8 16 97.64 0.1896
ecs.n1.3xlarge 16 32 195.28 0.3792
ecs.n1.7xlarge 32 64 390.56 0.758
ecs.n2.large 4 16 68.36 0.1328
ecs.n2.xlarge 8 32 136.72 0.2656
ecs.n2.3xlarge 16 64 273.4 0.5308
ecs.n2.7xlarge 32 128 546.76 1.0612

美西1

ECS实例类型 CPU MEMORY (GB) 包月 (美元/月) 按量 (美元/小时)
ecs.s2.large 2 4 18.68 0.0364
ecs.s3.large 4 8 22.96 0.0728
ecs.m1.medium 4 16 54.92 0.1068
ecs.m1.xlarge 8 32 109.84 0.2136
ecs.c1.large 8 16 47.12 0.1452
ecs.c2.large 16 32 95.44 0.29
ecs.c2.xlarge 16 64 219.68 0.4264
ecs.n1.medium 2 4 20.76 0.0404
ecs.n1.large 4 8 41.52 0.0808
ecs.n1.xlarge 8 16 83 0.1612
ecs.n1.3xlarge 16 32 166 0.3224
ecs.n1.7xlarge 32 64 331.96 0.6444
ecs.n2.large 4 16 61.04 0.1188
ecs.n2.xlarge 8 32 122.04 0.2372
ecs.n2.3xlarge 16 64 244.08 0.474
ecs.n2.7xlarge 32 128 488.16 0.9476

使用场景

离线处理

E-MapReduce + OSS + ECS + HBase + ODPS + ApsaraDB for RDS + ApsaraDB for Redis

offline

分析处理大量的应用日志来进行用户行为分析,天气预测等等。E-MapReduce可以从各种数据库(关系型,NoSQL)或者OSS读取数据,然后使用MapReduce或者Apache Spark 或者 Apache hive 来分析处理。分析的结果可以被上传到OSS,或者写入到各种数据库中,并被Web应用访问和使用。

Ad hoc 数据分析查询

E-MapReduce + OSS + ODPS + RDS ( MySQL) + ApsaraDB for Redis + ECS (MongoDB)

adhoc

应对任何的临时查询任务,E-MapReduce 通过 Apache Zeppelin 和 Apache Hue 提供用户友好的 Web 界面来方便地运行 Hive 和 SparkSQL。临时查询使用的数据源可以来自于任何数据源,例如Mysql、MongoDB、Redis和OSS。

海量数据在线服务

E-MapReduce + ECS + ODPS + RDS ( MySQL) + ApsaraDB for Redis

onlineservice

从离线处理得到的数据,或者是流式处理的数据,都可以被存储在基于 HDFS 的 HBase 上,然后被控制面板或者是 Web 应用直接在线访问。

流式数据处理

E-MapReduce + OSS + Log Service + MNS + RDS ( MySQL) + ApsaraDB for Redis

streaming

E-MapReduce 能够方便的接收流式数据源的数据,例如日志服务、消息服务、Flume 和 Kafka,然后使用 Spark Streaming 或者 Storm 来进行处理,并将结果写入到各种类型的数据存储中,例如 HDFS、OSS、Mysql、MongoDB、Redis。


使用入门

通过管理控制台使用阿里云 E-MapReduce

阿里云管理控制台提供简单的基于 Web 的用户界面,您可以利用它访问和配置阿里云E-MapReduce。

您可以使用该控制台对E-MapReduce的相关组件进行创建、查看和管理。

前往E-MapReduce控制台

有关如何通过管理控制台创建和使用阿里云E-MapReduce,请参阅:

快速创建E-MapReduce

访问阿里云文档

要创建阿里云E-MapReduce,请参阅E-MapReduce文档以详细了解阿里云E-MapReduce的工作原理以及如何修改和管理E-MapReduce。

E-MapReduce文档

阿里云 E-MapReduce API 参考

您可以使用基于 Web 的阿里云API ,通过编程创建、管理阿里云E- MapReduce 中的资源,并实现更好的掌控力。

API文档

资源

这些资源可以帮助您了解阿里云高速通道的工作原理。

以下是相关资源的链接。

开发者资源

通过以下链接,您可以查看高级功能、文档等。这些链接可以帮助开发者将阿里云高速通道与其现有应用进行整合或改进配置。

常见问题

1. 如何查看作业日志

在E-MapReduce系统里,系统已经将作业运行日志按照jobid的规划上传到OSS中(路径由用户在创建集群时设置),用户可以直接在网页上点击查看作业日志。如果用户是登录到master机器进行作业提交和脚本运行等,则日志根据用户自己的脚本而定,用户可以自行规划。

2. 如何登录Core节点

1.首先在Master节点上切换到Hadoop账号

su hadoop

2.然后即可免密码ssh登录到对应的core节点

ssh emr-worker-1

3. 如何直接在OSS上查看日志

用户也可以直接从OSS上直接查找所有的日志文件,并下载。但是因为OSS不能直接查看,使用起来会比较麻烦一些。如果用户打开了日志,并且指定了一个OSS的日志位置,那么作业的日志要如何找到呢?例如对下面这个保存位置OSS://mybucket/emr/spark

1.首先来到执行计划的页面,找到对应的执行计划,点击“运行记录”进入运行记录页面

2.在运行记录页面找到具体的哪一条执行记录,比如最后的一条执行记录。然后点击它对应的“执行集群”查看这个执行集群的ID

3.然后再OSS://mybucket/emr/spark目录下寻找OSS://mybucket/emr/spark/集群ID 这个目录

4.在OSS://mybucket/emr/spark/集群ID/jobs 目录下会按照作业的执行ID存放多个目录,每一个目录下存放了这个作业的运行日志文件

4. E-MapReduce中能否查看作业的Worker上日志?

以。前置条件:是创建集群时发开“保存日志”选项。查看日志位置:执行计划列表->点击“运行记录”->执行记录->点击“查看作业列表”->作业列表->点击“查看作业Worker实例”。

5. Exception in thread “main” java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.aliyun.fs.oss.nat.NativeOssFileSystem not found

在Spark作业中读写OSS数据时,需要将E-MapReduce提供的SDK打进作业Jar包中,具体操作请参考:开发手册->Spark->开发准备。

6. Spark SQL连RDS出现ConnectionException

检查RDS数据库地址是否为内网地址,如不是请在RDS控制台将相应的数据库地址切换成内网地址

7. Spark SQL连RDS出现“Invalid authorization specification, message from server: ip not in whitelist”

检查RDS的白名单设置,将集群机器的内网地址加到RDS的白名单中。

8. 创建低配置机型集群注意事项

若Master节点选择2核4G机型,则Master节点内存非常吃紧,很容易造成物理内存不够用,建议调大Master内存。 2. 若 Slave节点选择2核4G机型,在运行MR作业或者Hive作业时,请调节参数。MR作业添加参数-D yarn.app.mapreduce.am.resource.mb=1024;Hive作业设置参数 set yarn.app.mapreduce.am.resource.mb=1024; 避免作业hang住。