全部產品
Search
文件中心

E-MapReduce:選擇業務情境

更新時間:Apr 26, 2025

阿里雲EMR針對不同業務情境提供了資料湖叢集、資料分析叢集、即時資料流叢集、資料服務叢集四類預定義業務情境。若您的業務需整合特定組合的組件,您可建立自訂叢集,靈活組合EMR提供的組件,打造適配業務特性的巨量資料平台。本文將為您介紹這些叢集的區別,協助您快速選型。

業務情境選型

業務情境(叢集類型)

支援的組件

核心能力

適用情境

資料湖叢集

計算引擎:Spark、Hive、Tez、Trino、Kyuubi、Presto。

資料存放區:HDFS、OSS-HDFS、Celeborn、JindoCache。

Data Integration:Flume、Sqoop。

資料湖格式:Hudi、Iceberg、Paimon。

資源管理:Yarn。

分布式協調服務:Zookeeper。

安全與許可權:OpenLDAP、Ranger、DLF-Auth、Knox。

  • 統一儲存

  • 多計算引擎相容

  • 支援多種資料湖格式

離線ETL(例如資料倉儲)、互動式查詢(例如即席分析)

資料分析叢集

OLAP分析引擎:StarRocks、ClickHouse、Doris。

分布式協調服務:Zookeeper。

  • 亞秒級查詢響應

  • 列式儲存最佳化

  • 聯邦查詢能力

複雜彙總分析(例如使用者畫像、人群圈選、商業智慧)

即時資料流叢集

Realtime Compute引擎:Flink。

資料存放區:HDFS、OSS-HDFS。

資料湖格式:Paimon。

資源管理:Yarn。

分布式協調服務:Zookeeper。

安全與許可權:OpenLDAP、Knox。

  • 流批一體

  • 低延遲處理

  • 狀態一致性保障

即時ETL(例如流式湖倉)

資料服務叢集

計算引擎:Phoenix。

列式儲存引擎:HBase。

資料存放區:HDFS、OSS-HDFS、JindoCache。

分布式協調服務:Zookeeper。

安全與許可權:OpenLDAP、Ranger、Knox。

  • 毫秒級點查

  • SQL介面最佳化

  • 讀寫分離

高並發查詢服務(例如使用者行為分析、精準營銷)

自訂叢集

計算引擎:Spark、Hive、Tez、Trino、Kyuubi、Presto、Flink、Phoenix。

OLAP分析引擎:StarRocks。

列式儲存引擎:HBase。

資料存放區:HDFS、OSS-HDFS、Celeborn、JindoCache。

Data Integration:Flume、Sqoop。

資料湖格式:Hudi、Iceberg、Paimon。

資源管理:Yarn。

分布式協調服務:Zookeeper。

安全與許可權:OpenLDAP、Ranger、DLF-Auth、Knox。

  • 全組件靈活組合(Spark/Flink/HBase等)

  • 支援混合負載(即時+離線+分析)

說明

混合負載情境下離線業務、即時業務可能互相影響,推薦選購多種類型叢集組合方案

離線ETL、即時ETL、複雜彙總分析、高並發查詢服務

說明
  • 阿里雲EMR的不同版本支援的組件版本各不相同,具體資訊請參見各版本支援的組件,推薦優先使用最新EMR版本,以獲得更全面的功能支援、效能最佳化及安全更新。

  • 如果自訂叢集仍不能完全滿足您的業務需求,您可以在評估相容性和安全性之後自行安裝所需的組件。

後續叢集規劃

業務情境確定後,您可以繼續規劃叢集的儲存架構中繼資料硬體與網路