阿里云E-MapReduce(简称EMR)为您提供相对方便可控的企业级开源大数据服务。您可以快速搭建开源大数据服务,例如Hadoop、Spark、Flink、Kafka和HBase服务。

稳定可靠的开源组件

  • 100%采用社区开源组件,随开源版本升级迭代,详情请参见版本概述
  • 适配开源组件,避免开源组件之间的版本兼容性问题。
  • 基于开源组件,优化和增强阿里云部署环境,性能远高于开源版本。

节约成本

  • 通过有效弹性伸缩和数据分层存储机制,相较于传统HDFS固定集群方式,可以节省高达50%以上的费用。
  • 支持创建抢占式实例,相较于按量付费的购买方式,可以节省50%~80%的费用,详情请参见抢占式实例概述

易用性

  • 分钟级别创建和扩容集群,无需手动部署和启动服务。
  • 完善集群的监控和告警体系,覆盖硬件和Hadoop服务,您可以配置告警模板,详情请参见概述

弹性

  • 计算存储分离:解耦了计算与存储之间的绑定关系,实现了资源的弹性利用。
  • 自定义集群环境:您可以通过引导操作和集群脚本灵活配置集群环境,将第三方优化和集群管理工具部署到EMR环境,详情请参见引导操作集群脚本
  • 自主运维:您可以登录Master节点,查看集群日志和部署环境,优化和部署配置,详情请参见常用文件路径
  • 弹性伸缩:可以通过弹性伸缩的方式灵活扩容或缩容。

深度整合

  • 支持基于阿里云ECS和ACK部署EMR集群,支持ECS多种实例规格,您可以根据使用场景灵活选择,详情请参见ECS实例说明
  • 集成在DataWorks,您可以在DataWorks上使用EMR作为作业计算和数据存储引擎。
  • 集成了数据湖构建(Data Lake Formation),实现数据湖场景下多引擎的统一元数据管理。