E-MapReduce

基于开源生态,包括 Hadoop、Spark、Kafka、Flink、Storm等组件,为您提供集群、作业、数据管理等服务的一站式企业大数据平台

阿里云 Elastic MapReduce(E-MapReduce)是运行在阿里云平台上的一套大数据处理的系统解决方案。E-MapReduce 构建于阿里云云服务器 ECS 弹性虚拟机之上,基于开源的 Apache Hadoop 和 Apache Spark,您可以方便地使用Hadoop和Spark生态系统中的其他周边系统(如 Apache Hive、Apache Kafka、Flink、Druid、TensorFlow 等)来分析和处理自己的数据。您还可以通过E-MapReduce将数据非常方便地处理阿里云其他的云数据存储系统的数据,如OSS、SLS、RDS 等。

产品优势

易用
无需配置硬件与软件,直接选择即可快速启动集群使用。全Web化的管理运维操作
成本
按需创建集群,满足短时间计算的需求。动态的按需伸缩计算节点,应对各种的临时需求
稳定
深度优化的集群环境,后台的自动化运维,多渠道的在线支持
安全
支持Kerberos认证与数据加密,支持 RAM 主子账号对服务权限进行细化管理

精心打造的功能

自动化集群部署与伸缩

通过Web页面即可快速的进行集群的部署与伸缩,无需关心底层的硬件与软件处理

集群的创建

通过界面方便快速的部署多种用途的集群,如Hadoop、Kafka、Druid、ZooKeeper等

集群的扩容

通过界面方便快速的对已有集群进行任意类型节点的扩容

定期的自动创建

通过执行计划可以定期自动创建集群和运行作业,并在运行结束后释放集群

组件的自动部署

通过界面可以方便的增加需要的组件,并进行组件的配置与运维操作

动态扩容

在指定时间点对集群计算资源进行动态的伸缩,降低TCO

工作流调度

方便的作业编排与作业调度

作业编辑和管理

界面化的作业编辑与管理,方便进行多种类型作业的运行编排

工作流调度

界面化的将多个作业编排成DAG流进行调度,支持作业的定时和依赖调度

动态集群

可以定期的启动一个临时的集群进行作业的执行,完成以后自动关闭集群

作业的稳定保证

作业支持设置失败自动重试,运行失败可以进行实时报警

丰富的组件

丰富的组件支持,可以根据需要进行组件的选择

Hadoop

支持PB级别数据存储与计算能力的大数据平台

Spark

基于内存的新一代分布式计算框架,支持离线,实时计算,也支持 SQL 语法以及机器学习的处理

Hive

基于Hadoop的一套离线数据处理系统,在HDFS之上提供了结构化的表数据的管理能力,提供类 SQL 的查询语法进行数据分析处理

Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统,具有出色的性能和可靠性

Storm

实时处理计算引擎,支持毫秒级别的实时数据处理

ZooKeeper

分布式的,开放源码的分布式应用程序协调服务,为分布式应用提供一致性服务的软件

Hue

方便的Web端管理工具

Oozie

开源的作业调度工具

Druid

开源的实时大数据分析软件

Flink

针对流数据和批数据的分布式处理引擎

完善的生态支持

对阿里云上的产品环境进行了深度的整合支持

支持OSS

支持在几乎所有的组件中使用OSS,将OSS像HDFS一样使用

支持SLS

支持将SLS作为实时数据输入源使用,提供了SDK直接操作

支持ElasticSearch

在Hadoop中内置了ES-Hadoop插件,可以直接支持ES的相关操作

支持MaxCompute

支持阿里云的MaxCompute产品的数据的读写

支持阿里云的消息产品

支持如消息队列,消息服务等的读写,提供SDK包装,方便用户使用

应用场景

  • 离线计算
  • Ad Hoc数据分析
  • 流式计算
数据集成

数据集成

支持丰富的数据集成方式

支持开源、阿里云自研、离线、实时等各种的数据集成工具连接到 E-MapReduce 之上。

能够解决

  • 文件数据

    实时日志文件或其他文本数据的采集

  • 数据库

    批量或者实时数据库数据的采集

离线计算

离线计算

丰富灵活,高性价比的离线处理模式

支持Hive、Pig、Spark、SparkSQL、Tez等多种计算引擎。您可以根据需要选择,同时支持丰富的数据存储选择,不同存储位置的数据都可以被访问和使用。

能够解决

  • 丰富的计算引擎

    支持MR、Hive、Pig、Spark、Tez等等多种方式

  • 支持丰富的数据源

    支持OSS、HDFS、MaxCompute、Kafka等

  • 支持丰富的数据目的地

    可以将计算结果数据,以各种形式根据需要写到各种软件中去

Ad Hoc数据分析

Ad Hoc数据分析

灵活快速的数据分析

通过阿里云的弹性,在云上可以快速的创建出一个 Hadoop 集群,并进行数据分析。而集群可以在任务完成以后被释放。

能够解决

  • 弹性集群

    通过 EMR 可以快速的创建一个临时的Hadoop集群,任务结束后就释放

  • 弹性的计算量

    根据任务的需要,可以在集群上自定义计算节点,快速的满足计算需求

流式计算

流式计算

丰富灵活,性能可靠稳定的实时计算

支持丰富的实时数据源,支持社区的所有现有方案,支持阿里云自由的云产品方案。

能够解决

  • 丰富的数据源

    日志文件以及数据库binlog都可以作为数据源使用

  • 丰富的计算引擎

    支持Spark Streaming、Storm以及Flink