本文介紹E-MapReduce(簡稱EMR)的產品架構,以便您直觀的瞭解EMR的產品組成。
EMR由四部分組成:
社區開源產品
整合Apache社區開源巨量資料元件,例如Hadoop、Hive和HBase,隨著EMR版本更新,開源軟體也會相應的升級。
重要已經建立好的EMR叢集不支援組件升級。
EMR開源最佳化
EMR基於開源社區版本的組件,增強了其效能和功能,例如:
Spark中增加了Spark Streaming SQL,效能較開源版本有大幅提升。
Delta Lake相較開源版本增加了ZOrder和Data Skipping能力。
EMR自研能力
為讓開源巨量資料元件和服務更好的運行在阿里雲技術設施上,EMR自研了如下組件:
Shuffle Service是EMR在最佳化計算引擎的Shuffle操作上,推出的向外延展群組件。
SmartData,為EMR各個計算引擎提供統一的儲存最佳化、緩衝最佳化、計算緩衝加速最佳化和多個儲存功能擴充。
阿里雲產品
EMR銜接了開源巨量資料生態和阿里雲生態。EMR可以部署在阿里雲ECS(Elastic Compute Service)和Kubernetes(簡稱ACK)上;資料可以儲存在阿里雲OSS上;通過在EMR上建立Data Science叢集可以使用及學習Machine Learning Platform for AI;EMR整合在DataWorks,您可以在DataWorks上使用EMR作為作業計算和資料存放區引擎。