E-MapReduce

基于开源生态,包括 Hadoop、Spark、Kafka、Flink、Storm等组件,为您提供集群、作业、数据管理等服务的一站式企业大数据平台

阿里云 Elastic MapReduce(E-MapReduce)是运行在阿里云平台上的一套大数据处理的系统解决方案。E-MapReduce 构建于阿里云云服务器 ECS 弹性虚拟机之上,基于开源的 Apache Hadoop 和 Apache Spark,您可以方便地使用Hadoop和Spark生态系统中的其他周边系统(如 Apache Hive、Apache Kafka、Flink、Druid、TensorFlow 等)来分析和处理自己的数据。您还可以通过E-MapReduce将数据非常方便地处理阿里云其他的云数据存储系统的数据,如OSS、SLS、RDS 等。

产品优势

易用
无需配置硬件与软件,直接选择即可快速启动集群使用。全Web化的管理运维操作
成本
按需创建集群,满足短时间计算的需求。动态的按需伸缩计算节点,应对各种的临时需求
稳定
深度优化的集群环境,后台的自动化运维,多渠道的在线支持
安全
支持Kerberos认证与数据加密,支持 RAM 主子账号对服务权限进行细化管理

精心打造的功能

  • 自动化集群部署与伸缩

    集群的创建

    通过界面方便快速的部署多种用途的集群,如Hadoop、Kafka、Druid、ZooKeeper等

    集群的扩容

    通过界面方便快速的对已有集群进行任意类型节点的扩容

    定期的自动创建

    通过执行计划可以定期自动创建集群和运行作业,并在运行结束后释放集群

    组件的自动部署

    通过界面可以方便的增加需要的组件,并进行组件的配置与运维操作

    动态扩容

    在指定时间点对集群计算资源进行动态的伸缩,降低TCO

  • 工作流调度

    作业编辑和管理

    界面化的作业编辑与管理,方便进行多种类型作业的运行编排

    工作流调度

    界面化的将多个作业编排成DAG流进行调度,支持作业的定时和依赖调度

    动态集群

    可以定期的启动一个临时的集群进行作业的执行,完成以后自动关闭集群

    作业的稳定保证

    作业支持设置失败自动重试,运行失败可以进行实时报警

  • 丰富的组件

    Hadoop

    支持PB级别数据存储与计算能力的大数据平台

    Spark

    基于内存的新一代分布式计算框架,支持离线,实时计算,也支持 SQL 语法以及机器学习的处理

    Hive

    基于Hadoop的一套离线数据处理系统,在HDFS之上提供了结构化的表数据的管理能力,提供类 SQL 的查询语法进行数据分析处理

    Kafka

    Kafka是一种高吞吐量的分布式发布订阅消息系统,具有出色的性能和可靠性

    Storm

    实时处理计算引擎,支持毫秒级别的实时数据处理

    ZooKeeper

    分布式的,开放源码的分布式应用程序协调服务,为分布式应用提供一致性服务的软件

    Hue

    方便的Web端管理工具

    Oozie

    开源的作业调度工具

    Druid

    开源的实时大数据分析软件

    Flink

    针对流数据和批数据的分布式处理引擎

  • 完善的生态支持

    支持OSS

    支持在几乎所有的组件中使用OSS,将OSS像HDFS一样使用

    支持SLS

    支持将SLS作为实时数据输入源使用,提供了SDK直接操作

    支持ElasticSearch

    在Hadoop中内置了ES-Hadoop插件,可以直接支持ES的相关操作

    支持MaxCompute

    支持阿里云的MaxCompute产品的数据的读写

    支持阿里云的消息产品

    支持如消息队列,消息服务等的读写,提供SDK包装,方便用户使用

应用场景

  • 离线计算
  • Ad Hoc数据分析
  • 流式计算
数据集成

数据集成

支持丰富的数据集成方式

支持开源、阿里云自研、离线、实时等各种的数据集成工具连接到 E-MapReduce 之上。

能够解决

  • 文件数据

    实时日志文件或其他文本数据的采集

  • 数据库

    批量或者实时数据库数据的采集

离线计算

离线计算

丰富灵活,高性价比的离线处理模式

支持Hive、Pig、Spark、SparkSQL、Tez等多种计算引擎。您可以根据需要选择,同时支持丰富的数据存储选择,不同存储位置的数据都可以被访问和使用。

能够解决

  • 丰富的计算引擎

    支持MR、Hive、Pig、Spark、Tez等等多种方式

  • 支持丰富的数据源

    支持OSS、HDFS、MaxCompute、Kafka等

  • 支持丰富的数据目的地

    可以将计算结果数据,以各种形式根据需要写到各种软件中去

Ad Hoc数据分析

Ad Hoc数据分析

灵活快速的数据分析

通过阿里云的弹性,在云上可以快速的创建出一个 Hadoop 集群,并进行数据分析。而集群可以在任务完成以后被释放。

能够解决

  • 弹性集群

    通过 EMR 可以快速的创建一个临时的Hadoop集群,任务结束后就释放

  • 弹性的计算量

    根据任务的需要,可以在集群上自定义计算节点,快速的满足计算需求

流式计算

流式计算

丰富灵活,性能可靠稳定的实时计算

支持丰富的实时数据源,支持社区的所有现有方案,支持阿里云自由的云产品方案。

能够解决

  • 丰富的数据源

    日志文件以及数据库binlog都可以作为数据源使用

  • 丰富的计算引擎

    支持Spark Streaming、Storm以及Flink