什麼是EMR on ECS - E-MapReduce

EMR on ECS是指在ECS上運行EMR，它將EMR的巨量資料處理能力與ECS的彈性靈活優勢相結合，使得您能夠更加便捷地配置和管理EMR叢集，同時支援多種開源和自研巨量資料元件，適用於複雜的巨量資料處理和分析情境。

產品架構

EMR主要由四部分組成，分別為整合的阿里雲產品、開源組件、自研組件和叢集管理。其中EMR提供的組件類型及使用情境，請參見組件概覽和應用情境。

整合的阿里雲產品
- EMR可以部署在阿里雲ECS上。
- 資料可以儲存在阿里雲OSS上。
- EMR與DataWorks整合，您可以在DataWorks上使用EMR作為作業計算和資料存放區引擎。
- EMR Workflow提供全託管的工作流程和任務調度服務。
開源組件
整合Apache社區開源巨量資料元件，涵蓋Data Integration、資料存放區、資源管理、計算引擎、資料開發、資料服務等多個領域，方便快速搭建高效可靠的資料處理和管理平台。
自研組件
為了讓開源巨量資料元件和服務更好地運行在阿里雲基礎設施上，EMR提供的自研組件如下：
- OSS-HDFS：相容HadoopDistributed File System介面的Object Storage Service解決方案，支援巨量資料計算任務通過標準HDFS協議直接存取阿里雲OSS的資料。
- JindoCache：分布式緩衝解決方案，通過在記憶體中快取資料塊，提高資料讀取效能並減少對底層儲存系統的壓力。
- DLF-Auth：資料湖構建DLF產品提供，可以開啟資料湖構建DLF的資料許可權功能。
叢集管理
- 快速建立、擴容叢集能力，支援Auto Scaling部署。
- 叢集組態管理、服務管理，提供節點和服務的可視化營運能力。
- 多維度指標監控、叢集日誌與分析、監控與警示能力。

EMR為您提供靈活易管理的企業級開源巨量資料服務。與自建Hadoop叢集對比資訊可參見EMR與自建Hadoop叢集對比優勢。

穩定可靠的開源組件
- 100%採用社區開源組件，隨開源版本升級迭代，詳情請參見發行版本。
- 適配開源組件，避免開源組件之間的版本相容性問題。
- 基於開源組件，最佳化和增強阿里雲部署環境，效能遠高於開源版本。
易用性
- 分鐘級搭建巨量資料計算環境，支援一鍵調整計算資源規模，無需人工部署和啟動服務。
- 完善的監控和警示體系，支援智能診斷分析，大幅縮減排障路徑，提升營運效率。
節約成本
- 計算資源按需使用，降低閑置算力成本。
- 自動資料冷熱階層式存放區，降低單位儲存成本。
- 豐富的營運協助工具輔助、智能診斷分析，便捷管理巨量資料平台，降低營運成本。
彈性
- 叢集資源可根據時間周期或叢集負載動態自動調整。
- 分鐘級Auto Scaling，支援多種彈性資源類型。
深度整合
- 支援基於阿里雲ECS和ACK部署EMR叢集，支援ECS多種執行個體規格，詳情請參見ECS執行個體說明。
- 整合在DataWorks，您可以在DataWorks上使用EMR作為作業計算和資料存放區引擎。
- 整合了資料湖構建（Data Lake Formation），實現資料湖情境下多引擎的統一中繼資料管理。

EMR費用由E-MapReduce服務費用和ECS產品費用組成。如果您在使用EMR過程中還用到了其他雲產品，如OSS、資料湖構建、Workflow等，相關費用請參見對應產品的計費文檔。

EMR on ECS支援的計費方式如下：

其中節點的公網流量費用與EMR叢集使用的計費方式無關，預設使用隨用隨付。

詳細的計費規則，請參見產品計費。