全部產品
Search
文件中心

E-MapReduce:產品形態選型

更新時間:Sep 09, 2025

阿里雲開放的巨量資料平台 E‑MapReduce (EMR) 提供了多種產品形態,以滿足不同使用者的業務需求。根據部署方式可分為 EMR Serverless Spark、EMR Serverless StarRocks、EMR on ECS 和 EMR on ACK。為協助使用者選擇合適的產品,以下整理了各產品形態的主要特性、適用情境以及選型建議。

EMR Serverless Spark

EMR Serverless Spark 是一款面向 Data+AI 的高效能 Lakehouse 產品。它通過 Fusion Engine(Spark Native Engine)和阿里雲 Serverless 底座,為企業提供一站式作業開發、調試、發布、調度和營運等服務。

主要特性

  • 企業級全託管的資料平台:無需自行構建基礎設施即可開始作業開發,提供任務開發、調試到營運的完整功能。

  • 高效能運算引擎:內建 Fusion Engine,效能可達開源 Spark 的 4 倍;支援 Remote Shuffle Service Celeborn,提供 PB 級 Shuffle 能力並降低計算成本。

  • 高擴充性與彈性:基於阿里雲 Serverless 底座,提供秒級資源Auto Scaling,按實際計算資源量計費,降低成本。

  • 資源可觀測和安全:提供作業及資源層面的監控和警示;基於 VPC 部署,支援細粒度存取控制。

  • 開放架構與生態整合:與 OSS‑HDFS、資料湖構建 DLF 以及 DataWorks 無縫整合,支援計算儲存分離並共用中心化中繼資料。

  • 一站式開發體驗:內建版本管理、開發與生產隔離,支援作業開發、調試、發布和調度。

適用情境

  • 希望通過全託管服務運行 Spark 作業,不願意管理叢集資源。

  • 對Auto Scaling和按需計費要求高,需要在突發作業高峰時快速擷取計算資源。

  • 對湖倉一體或 AI 工作負載有需求,需高效能 Spark + 支援資料湖的湖倉平台。

EMR Serverless StarRocks

EMR Serverless StarRocks 是一款雲原生全託管的 Lakehouse 分析服務,具備 100% 相容開源 StarRocks 的特性,並提供企業級的核心產品能力。該服務適用於多種情境,包括 OLAP 分析、即時資料倉庫、湖倉分析以及輕量級資料倉儲建設等,旨在助力企業實現湖倉一體的即時資料分析業務。

主要特性

  • 全託管免營運:開箱即用,提供可視化執行個體管理、智能監控與健康診斷,大幅降低營運成本。

  • 企業級雲原生核心(Stella):基於存算分離架構,深度最佳化存算分離、 Lakehouse 分析效能與穩定性,支援多計算群組隔離,保障關鍵業務資源隔離。

  • 一站式資料管理平台:整合 SQL 編輯、許可權管控、物化視圖、匯入任務與 SQL 診斷等能力,提升開發與管理效率。

  • 極速查詢效能:MPP 分布式架構 + 全面向量化執行引擎,查詢效能提升 3-10 倍。

  • 智能查詢最佳化:基於成本的最佳化器(CBO),自動選擇最優執行計畫,提升複雜查詢效率。

  • 即時資料更新:列式儲存支援秒級匯入、ACID 事務及高效 Upsert,滿足即時分析需求。

  • 湖倉一體分析:智能物化視圖自動同步,簡化了 ETL 過程;原生支援 Paimon、Iceberg、Hudi、Delta Lake、Hive 等資料湖格式高效查詢。

適用情境

  • OLAP 多維分析:支援靈活的多維分析與即席查詢(Ad Hoc),廣泛應用於營運報表、使用者畫像、指標中台、BI 分析等情境,助力資料驅動決策。

  • 即時資料倉庫:秒級資料攝入與更新,適用於即時庫存監控、訂單追蹤、使用者行為分析、即時風控等高時效性要求的業務情境。

  • 湖倉加工與分析:無縫對接 OSS、HDFS 等資料湖儲存,直接查詢 Paimon、Iceberg等格式,打破資料孤島,實現高效統一分析。

EMR on ECS

EMR on ECS 指在阿里雲 Elastic Compute Service (ECS) 上啟動並執行 E‑MapReduce。EMR 利用 ECS 的彈性執行個體將開源 Hadoop 生態安裝部署到雲端服務器中,並提供叢集建立、擴縮容、服務配置和監控等管理功能。

主要特點

  • 組件豐富:整合 Hadoop、Spark、Hive、Flink、Presto 等開源組件以及自研的 OSS‑HDFS、JindoCache、DLF‑Auth 等,適用批處理、流處理、資料湖等多種情境。

  • 靈活可控:使用者可登入 ECS 自訂動作。提供叢集快速建立、Auto Scaling、組態管理和可視化營運能力。

  • 穩定易用:100% 採用社區開源組件並雲端式環境最佳化,提高效能並避免版本相容問題。分鐘級搭建巨量資料計算環境並支援一鍵調整資源規模。

  • 成本最佳化:按需使用計算資源並支援訂用帳戶或隨用隨付;提供自動資料冷熱階層式存放區和豐富的營運工具以降低總體成本。

  • Auto Scaling:可按時間或負載動態調整叢集規模,支援多種彈性資源類型。

  • 深度整合:與阿里雲 OSS、DataWorks、DLF(資料湖構建)等服務深度整合,支援在 DataWorks 使用 EMR 作為作業計算引擎。

適用情境

  • 需要完全掌控計算和儲存資源的企業級巨量資料平台。

  • 對部署環境和配置有自訂需求,例如安裝特定開源組件、調整核心參數等。

  • 需要兼顧成本與效能,支援長周期啟動並執行大批量作業或混合工作負載。

EMR on ACK

EMR on ACK 是一種將開源巨量資料服務部署在阿里雲Container Service Kubernetes 版(ACK)之上的架構。使用者需首先準備好 ACK 叢集,隨後通過 EMR 在 ACK 的資源上安裝並運行巨量資料服務。

主要特點

  • 共用 Kubernetes 叢集資源:可將 Spark、Presto 等作業運行在現有的 ACK 叢集,與線上業務共用容器資源,實現計算資源跨可用性區域共用。

  • 節省成本:無需單獨購買 ACK 叢集;複用 ACK 叢集的空閑資源一鍵運行 EMR 作業,適合線上與離線混合部署。

  • 簡化營運:通過統一的營運體系對線上應用和巨量資料任務進行管理;藉助 ACK 和Elastic Container Instance的能力,實現更加迅速的彈性計算資源擷取。

  • 最佳化體驗:支援針對作業層級調整 Spark 版本,以便快速實驗新特性;支援 ECS 和 ACK 兩種資源模型無縫切換。

  • 深度整合資料湖架構:採用雲原生資料湖架構,計算使用 ACK,儲存使用 OSS,實現儲存計算分離,中繼資料由 DLF 管理。

適用情境

  • 已經擁有 ACK 叢集並希望在同一個叢集上運行巨量資料任務和線上應用,實現資源共池和潮汐式調度。

  • 對容器化管理有較高需求,需要結合 Kubernetes 彈性與雲原生生態(如 CI/CD、服務網格、微服務等)。

  • 希望快速構建資料湖架構並使用 DLF 管理中繼資料。

選型建議

業務需求

推薦產品形態

推薦理由

產品營運範圍

大規模 Spark 作業、AI 訓練與推理

需要秒級彈性、按需付費,並具備湖倉一體能力。

EMR Serverless Spark

  • Fusion Engine 效能提升至開源 Spark 的 4 倍,適合複雜湖倉和 AI 任務。

  • Serverless 底座,秒級Auto Scaling,按實際用量計費。

  • 無需營運叢集,提供作業開發、調試、發布與調度的一站式體驗。

  • 與 OSS-HDFS、DLF、DataWorks 深度整合。

  • 阿里雲負責底層計算、儲存資源、作業調度服務的可用性和可靠性。

  • 使用者僅需關注作業邏輯與資料開發。

OLAP資料分析、湖倉加工與分析

需要高並發查詢、多維分析,相容 MySQL 協議。

EMR Serverless StarRocks

  • 通過向量化、MPP架構以及全新CBO等技術,為使用者提供最優效能的資料分析服務。

  • 跨引擎聯邦查詢,多種湖格式適配,智能物化視圖,為使用者提供統一的湖倉加工和分析引擎。

  • 雲原生與全託管服務形態,提高使用者使用和營運的效率。

  • StarRocks 控制台 和 OpenAPI 的穩定性及服務保障。

  • StarRocks 執行個體中運行節點的穩定性及服務保障。

  • StarRocks 軟體棧自身服務的穩定性及服務保障。

自訂環境與長期啟動並執行離線作業

需要完全掌控叢集資源和配置。

EMR on ECS

  • 提供全面的叢集和元件服務管控能力,包括但不限於ECS故障補償、Auto Scaling、智能診斷等。

  • 整合 Hadoop、Spark、Flink、Presto 等豐富組件,適配批處理、流處理、資料湖等情境。

  • 成本靈活,支援訂用帳戶或隨用隨付。

  • 穩定性高,分鐘級搭建巨量資料環境。

  • EMR服務提供叢集和組件管控功能以及巨量資料元件版本管理,但巨量資料元件的營運由使用者負責。

  • 適合具備巨量資料元件營運知識和能力的企業。

複用容器資源、線上與離線混合部署

已有 Kubernetes (ACK) 叢集。

EMR on ACK

  • 複用現有 ACK 資源,無需額外購買叢集。

  • 支援線上業務與巨量資料任務混合運行,降低成本。

  • 利用 ACK 彈性與 ECI,擴縮容更快。

  • 適合已建立容器化架構的企業,但不建議作為首選方案。

  • 巨量資料元件(如 Spark、Presto)的穩定性更多依賴使用者自管。

  • 適合具備巨量資料元件營運知識和能力的企業。