阿里雲開放的巨量資料平台 E‑MapReduce (EMR) 提供了多種產品形態,以滿足不同使用者的業務需求。根據部署方式可分為 EMR Serverless Spark、EMR Serverless StarRocks、EMR on ECS 和 EMR on ACK。為協助使用者選擇合適的產品,以下整理了各產品形態的主要特性、適用情境以及選型建議。
EMR Serverless Spark
EMR Serverless Spark 是一款面向 Data+AI 的高效能 Lakehouse 產品。它通過 Fusion Engine(Spark Native Engine)和阿里雲 Serverless 底座,為企業提供一站式作業開發、調試、發布、調度和營運等服務。
主要特性
企業級全託管的資料平台:無需自行構建基礎設施即可開始作業開發,提供任務開發、調試到營運的完整功能。
高效能運算引擎:內建 Fusion Engine,效能可達開源 Spark 的 4 倍;支援 Remote Shuffle Service Celeborn,提供 PB 級 Shuffle 能力並降低計算成本。
高擴充性與彈性:基於阿里雲 Serverless 底座,提供秒級資源Auto Scaling,按實際計算資源量計費,降低成本。
資源可觀測和安全:提供作業及資源層面的監控和警示;基於 VPC 部署,支援細粒度存取控制。
開放架構與生態整合:與 OSS‑HDFS、資料湖構建 DLF 以及 DataWorks 無縫整合,支援計算儲存分離並共用中心化中繼資料。
一站式開發體驗:內建版本管理、開發與生產隔離,支援作業開發、調試、發布和調度。
適用情境
希望通過全託管服務運行 Spark 作業,不願意管理叢集資源。
對Auto Scaling和按需計費要求高,需要在突發作業高峰時快速擷取計算資源。
對湖倉一體或 AI 工作負載有需求,需高效能 Spark + 支援資料湖的湖倉平台。
EMR Serverless StarRocks
EMR Serverless StarRocks 是一款雲原生全託管的 Lakehouse 分析服務,具備 100% 相容開源 StarRocks 的特性,並提供企業級的核心產品能力。該服務適用於多種情境,包括 OLAP 分析、即時資料倉庫、湖倉分析以及輕量級資料倉儲建設等,旨在助力企業實現湖倉一體的即時資料分析業務。
主要特性
全託管免營運:開箱即用,提供可視化執行個體管理、智能監控與健康診斷,大幅降低營運成本。
企業級雲原生核心(Stella):基於存算分離架構,深度最佳化存算分離、 Lakehouse 分析效能與穩定性,支援多計算群組隔離,保障關鍵業務資源隔離。
一站式資料管理平台:整合 SQL 編輯、許可權管控、物化視圖、匯入任務與 SQL 診斷等能力,提升開發與管理效率。
極速查詢效能:MPP 分布式架構 + 全面向量化執行引擎,查詢效能提升 3-10 倍。
智能查詢最佳化:基於成本的最佳化器(CBO),自動選擇最優執行計畫,提升複雜查詢效率。
即時資料更新:列式儲存支援秒級匯入、ACID 事務及高效 Upsert,滿足即時分析需求。
湖倉一體分析:智能物化視圖自動同步,簡化了 ETL 過程;原生支援 Paimon、Iceberg、Hudi、Delta Lake、Hive 等資料湖格式高效查詢。
適用情境
OLAP 多維分析:支援靈活的多維分析與即席查詢(Ad Hoc),廣泛應用於營運報表、使用者畫像、指標中台、BI 分析等情境,助力資料驅動決策。
即時資料倉庫:秒級資料攝入與更新,適用於即時庫存監控、訂單追蹤、使用者行為分析、即時風控等高時效性要求的業務情境。
湖倉加工與分析:無縫對接 OSS、HDFS 等資料湖儲存,直接查詢 Paimon、Iceberg等格式,打破資料孤島,實現高效統一分析。
EMR on ECS
EMR on ECS 指在阿里雲 Elastic Compute Service (ECS) 上啟動並執行 E‑MapReduce。EMR 利用 ECS 的彈性執行個體將開源 Hadoop 生態安裝部署到雲端服務器中,並提供叢集建立、擴縮容、服務配置和監控等管理功能。
主要特點
組件豐富:整合 Hadoop、Spark、Hive、Flink、Presto 等開源組件以及自研的 OSS‑HDFS、JindoCache、DLF‑Auth 等,適用批處理、流處理、資料湖等多種情境。
靈活可控:使用者可登入 ECS 自訂動作。提供叢集快速建立、Auto Scaling、組態管理和可視化營運能力。
穩定易用:100% 採用社區開源組件並雲端式環境最佳化,提高效能並避免版本相容問題。分鐘級搭建巨量資料計算環境並支援一鍵調整資源規模。
成本最佳化:按需使用計算資源並支援訂用帳戶或隨用隨付;提供自動資料冷熱階層式存放區和豐富的營運工具以降低總體成本。
Auto Scaling:可按時間或負載動態調整叢集規模,支援多種彈性資源類型。
深度整合:與阿里雲 OSS、DataWorks、DLF(資料湖構建)等服務深度整合,支援在 DataWorks 使用 EMR 作為作業計算引擎。
適用情境
需要完全掌控計算和儲存資源的企業級巨量資料平台。
對部署環境和配置有自訂需求,例如安裝特定開源組件、調整核心參數等。
需要兼顧成本與效能,支援長周期啟動並執行大批量作業或混合工作負載。
EMR on ACK
EMR on ACK 是一種將開源巨量資料服務部署在阿里雲Container Service Kubernetes 版(ACK)之上的架構。使用者需首先準備好 ACK 叢集,隨後通過 EMR 在 ACK 的資源上安裝並運行巨量資料服務。
主要特點
共用 Kubernetes 叢集資源:可將 Spark、Presto 等作業運行在現有的 ACK 叢集,與線上業務共用容器資源,實現計算資源跨可用性區域共用。
節省成本:無需單獨購買 ACK 叢集;複用 ACK 叢集的空閑資源一鍵運行 EMR 作業,適合線上與離線混合部署。
簡化營運:通過統一的營運體系對線上應用和巨量資料任務進行管理;藉助 ACK 和Elastic Container Instance的能力,實現更加迅速的彈性計算資源擷取。
最佳化體驗:支援針對作業層級調整 Spark 版本,以便快速實驗新特性;支援 ECS 和 ACK 兩種資源模型無縫切換。
深度整合資料湖架構:採用雲原生資料湖架構,計算使用 ACK,儲存使用 OSS,實現儲存計算分離,中繼資料由 DLF 管理。
適用情境
已經擁有 ACK 叢集並希望在同一個叢集上運行巨量資料任務和線上應用,實現資源共池和潮汐式調度。
對容器化管理有較高需求,需要結合 Kubernetes 彈性與雲原生生態(如 CI/CD、服務網格、微服務等)。
希望快速構建資料湖架構並使用 DLF 管理中繼資料。
選型建議
業務需求 | 推薦產品形態 | 推薦理由 | 產品營運範圍 |
大規模 Spark 作業、AI 訓練與推理 需要秒級彈性、按需付費,並具備湖倉一體能力。 | EMR Serverless Spark |
|
|
OLAP資料分析、湖倉加工與分析 需要高並發查詢、多維分析,相容 MySQL 協議。 | EMR Serverless StarRocks |
|
|
自訂環境與長期啟動並執行離線作業 需要完全掌控叢集資源和配置。 | EMR on ECS |
|
|
複用容器資源、線上與離線混合部署 已有 Kubernetes (ACK) 叢集。 | EMR on ACK |
|
|