全部產品
Search
文件中心

E-MapReduce:產品架構

更新時間:Jan 31, 2024

本文介紹E-MapReduce(簡稱EMR)的產品架構,以便您直觀的瞭解EMR的產品組成。

EMR由四部分組成:

  • 社區開源產品

    整合Apache社區開源巨量資料元件,例如Hadoop、Hive和HBase,隨著EMR版本更新,開源軟體也會相應的升級。

    重要

    已經建立好的EMR叢集不支援組件升級。

  • EMR開源最佳化

    EMR基於開源社區版本的組件,增強了其效能和功能,例如:

    • Spark中增加了Spark Streaming SQL,效能較開源版本有大幅提升。

    • Delta Lake相較開源版本增加了ZOrder和Data Skipping能力。

  • EMR自研能力

    為讓開源巨量資料元件和服務更好的運行在阿里雲技術設施上,EMR自研了如下組件:

    • Shuffle Service是EMR在最佳化計算引擎的Shuffle操作上,推出的向外延展群組件。

    • SmartData,為EMR各個計算引擎提供統一的儲存最佳化、緩衝最佳化、計算緩衝加速最佳化和多個儲存功能擴充。

  • 阿里雲產品

    EMR銜接了開源巨量資料生態和阿里雲生態。EMR可以部署在阿里雲ECS(Elastic Compute Service)和Kubernetes(簡稱ACK)上;資料可以儲存在阿里雲OSS上;通過在EMR上建立Data Science叢集可以使用及學習Machine Learning Platform for AI;EMR整合在DataWorks,您可以在DataWorks上使用EMR作為作業計算和資料存放區引擎。