EMR on ECS是指在ECS上運行EMR,它將EMR的巨量資料處理能力與ECS的彈性靈活優勢相結合,使得您能夠更加便捷地配置和管理EMR叢集,同時支援多種開源和自研巨量資料元件,適用於複雜的巨量資料處理和分析情境。
產品架構
EMR主要由四部分組成,分別為整合的阿里雲產品、開源組件、自研組件和叢集管理。其中EMR提供的組件類型及使用情境,請參見組件概覽和應用情境。
整合的阿里雲產品
EMR可以部署在阿里雲ECS上。
資料可以儲存在阿里雲OSS上。
EMR與DataWorks整合,您可以在DataWorks上使用EMR作為作業計算和資料存放區引擎。
EMR Workflow提供全託管的工作流程和任務調度服務。
開源組件
整合Apache社區開源巨量資料元件,涵蓋Data Integration、資料存放區、資源管理、計算引擎、資料開發、資料服務等多個領域,方便快速搭建高效可靠的資料處理和管理平台。
自研組件
為了讓開源巨量資料元件和服務更好地運行在阿里雲基礎設施上,EMR提供的自研組件如下:
OSS-HDFS:相容HadoopDistributed File System介面的Object Storage Service解決方案,支援巨量資料計算任務通過標準HDFS協議直接存取阿里雲OSS的資料。
JindoCache:分布式緩衝解決方案,通過在記憶體中快取資料塊,提高資料讀取效能並減少對底層儲存系統的壓力。
DLF-Auth:資料湖構建DLF產品提供,可以開啟資料湖構建DLF的資料許可權功能。
叢集管理
快速建立、擴容叢集能力,支援Auto Scaling部署。
叢集組態管理、服務管理,提供節點和服務的可視化營運能力。
多維度指標監控、叢集日誌與分析、監控與警示能力。
產品優勢
EMR為您提供靈活易管理的企業級開源巨量資料服務。與自建Hadoop叢集對比資訊可參見EMR與自建Hadoop叢集對比優勢。
穩定可靠的開源組件
100%採用社區開源組件,隨開源版本升級迭代,詳情請參見發行版本。
適配開源組件,避免開源組件之間的版本相容性問題。
基於開源組件,最佳化和增強阿里雲部署環境,效能遠高於開源版本。
易用性
分鐘級搭建巨量資料計算環境,支援一鍵調整計算資源規模,無需人工部署和啟動服務。
完善的監控和警示體系,支援智能診斷分析,大幅縮減排障路徑,提升營運效率。
節約成本
計算資源按需使用,降低閑置算力成本。
自動資料冷熱階層式存放區,降低單位儲存成本。
豐富的營運協助工具輔助、智能診斷分析,便捷管理巨量資料平台,降低營運成本。
彈性
叢集資源可根據時間周期或叢集負載動態自動調整。
分鐘級Auto Scaling,支援多種彈性資源類型。
深度整合
支援基於阿里雲ECS和ACK部署EMR叢集,支援ECS多種執行個體規格,詳情請參見ECS執行個體說明。
整合在DataWorks,您可以在DataWorks上使用EMR作為作業計算和資料存放區引擎。
整合了資料湖構建(Data Lake Formation),實現資料湖情境下多引擎的統一中繼資料管理。
產品計費
EMR費用由E-MapReduce服務費用和ECS產品費用組成。如果您在使用EMR過程中還用到了其他雲產品,如OSS、資料湖構建、Workflow等,相關費用請參見對應產品的計費文檔。
EMR on ECS支援的計費方式如下:
訂用帳戶:按一定時間長度購買資源,先付費後使用。通過訂用帳戶,您可以提前預留資源,同時享受價格優惠,幫您節省支出。
隨用隨付:按需開通和釋放資源,先使用後付費。通過隨用隨付,您可以靈活使用,無需提前購買大量資源。
其中節點的公網流量費用與EMR叢集使用的計費方式無關,預設使用隨用隨付。
詳細的計費規則,請參見產品計費。
快速開始
通過EMR控制台快速建立叢集並執行作業,請參見E-MapReduce快速入門。
在DataWorks快速使用EMR叢集,完成一站式資料湖開發和治理,請參見DataWorks on EMR快速入門。