什麼是E-MapReduce
開源巨量資料開發平台E-MapReduce(簡稱EMR),是運行在阿里雲平台上的一種巨量資料處理的系統解決方案。
EMR基於開源的Apache Hadoop和Apache Spark,讓您可以方便地使用Hadoop和Spark生態系統中的其他周邊系統分析和處理資料。EMR還可以與阿里雲其他的雲資料存放區系統和資料庫系統(例如,阿里雲OSS和RDS等)進行資料轉送。
阿里雲EMR提供了on ECS、on ACK和Serverless形態,以滿足不同使用者的需求。
形態 | 描述 |
EMR on ECS | EMR負責將開源Hadoop生態的組件安裝部署在ECS上,並啟動相應的服務。您可以在EMR控制台完成對叢集ECS及服務的營運操作。 關於EMR on ECS的更多介紹,請參見什麼是EMR on ECS。 |
EMR on ACK | 您需要先完成ACK叢集的安裝部署。當ACK叢集準備就緒後,EMR將基於ACK的資源安裝部署巨量資料服務組件,並在容器內運行。關於EMR on ACK的更多介紹,請參見什麼是EMR on ACK。 |
產品優勢
EMR on ECS
EMR為您提供了相對方便可控的企業級開源巨量資料服務。您可以快速搭建開源巨量資料服務,例如Hadoop、Spark、Flink、Kafka和HBase服務。
100%採用社區開源組件,適配並最佳化開源組件,效能遠高於開源版本。
基於時間的Auto Scaling能力,搶佔式執行個體可進一步降低成本。
解耦了計算與儲存之間的綁定關係,實現了資源的彈性利用。
分鐘層級建立和擴容叢集,無需手動部署和啟動服務。
EMR on ACK
節省成本:無需單獨購買ACK叢集。
簡化營運:一套營運體系,一套叢集管理,全面覆蓋巨量資料和線上等多種業務。
最佳化體驗:支援ECS和ACK兩套IaaS資源模型,您可以無縫切換。
深度整合:完全採用雲原生資料湖架構,計算使用阿里雲ACK,計算資源可以無限擴充。