本文为您介绍E-MapReduce支持的集群类型以及各集群相关的操作。

介绍

集群 描述 重要操作
Hadoop
  • 提供半托管的Hadoop、Hive和Spark离线大规模分布式数据存储和计算。
  • 提供Presto和Impala交互式查询。
  • 提供Oozie等Hadoop生态圈的组件。
DataScience 主要面向大数据+AI场景,提供Hive和Spark离线大数据ETL和TensorFlow模型训练,您可以选择CPU+GPU的异构计算框架,通过英伟达GPU对部分深度学习算法进行高性能计算。
Dataflow 是EMR平台上提供的实时计算一站式解决方案,拥有分布式的、高吞吐量和高可扩展性的消息系统Kafka和基于Apache Flink官方产品Ververica提供的Flink商业内核两大组件,专注于解决实时计算端到端的各类问题、广泛应用于实时数据ETL和日志采集分析等场景,您也可以单独使用其中任一组件。
Druid 提供半托管式实时交互式分析服务,大数据查询毫秒级延迟,支持多种数据摄入方式,可以与EMR Hadoop、EMR Spark、OSS和RDS等服务搭配组合使用,构建灵活稳健的实时查询解决方案。
组件
文档链接
HDFS 概述
YARN 概述
Hive 概述
Spark 概述
Knox 概述
Tez 概述
Sqoop 概述
SmartData 概述
OpenLDAP 概述
Hudi 概述
Hue 概述
HBase 概述
Zookeeper 概述
Presto 概述
impala 概述
Zeppelin 概述
Flume 概述
Livy 概述
Ranger 概述
Phoenix 概述
ESS 概述
Alluxio 概述
Kudu 概述
Oozie 概述
组件
文档链接
Druid 概述
Superset 概述
ZooKeeper 概述
Knox 概述
OpenLDAP 概述
集群模式
组件
文档链接
Flink HDFS 概述
YARN 概述
Zookeeper 概述
Knox 概述
Flink 概述
OpenLDAP 概述
Kafka Zookeeper 概述
Ganglia
Kafka 概述
Kafka-Manager 概述
OpenLDAP 概述
Knox 概述
Ranger 概述
Hue 概述