阿里雲EMR針對不同業務情境提供了資料湖叢集、資料分析叢集、即時資料流叢集、資料服務叢集四類預定義業務情境。若您的業務需整合特定組合的組件,您可建立自訂叢集,靈活組合EMR提供的組件,打造適配業務特性的巨量資料平台。本文將為您介紹這些叢集的區別,協助您快速選型。
業務情境選型
業務情境(叢集類型) | 支援的組件 | 核心能力 | ||
計算引擎:Spark、Hive、Tez、Trino、Kyuubi、Presto。 資料存放區:HDFS、OSS-HDFS、Celeborn、JindoCache。 Data Integration:Flume、Sqoop。 資料湖格式:Hudi、Iceberg、Paimon。 資源管理:Yarn。 分布式協調服務:Zookeeper。 安全與許可權:OpenLDAP、Ranger、DLF-Auth、Knox。 |
| 離線ETL(例如資料倉儲)、互動式查詢(例如即席分析) | ||
OLAP分析引擎:StarRocks、ClickHouse、Doris。 分布式協調服務:Zookeeper。 |
| 複雜彙總分析(例如使用者畫像、人群圈選、商業智慧) | ||
Realtime Compute引擎:Flink。 資料存放區:HDFS、OSS-HDFS。 資料湖格式:Paimon。 資源管理:Yarn。 分布式協調服務:Zookeeper。 安全與許可權:OpenLDAP、Knox。 |
| 即時ETL(例如流式湖倉) | ||
計算引擎:Phoenix。 列式儲存引擎:HBase。 資料存放區:HDFS、OSS-HDFS、JindoCache。 分布式協調服務:Zookeeper。 安全與許可權:OpenLDAP、Ranger、Knox。 |
| 高並發查詢服務(例如使用者行為分析、精準營銷) | ||
自訂叢集 | 計算引擎:Spark、Hive、Tez、Trino、Kyuubi、Presto、Flink、Phoenix。 OLAP分析引擎:StarRocks。 列式儲存引擎:HBase。 資料存放區:HDFS、OSS-HDFS、Celeborn、JindoCache。 Data Integration:Flume、Sqoop。 資料湖格式:Hudi、Iceberg、Paimon。 資源管理:Yarn。 分布式協調服務:Zookeeper。 安全與許可權:OpenLDAP、Ranger、DLF-Auth、Knox。 |
說明 混合負載情境下離線業務、即時業務可能互相影響,推薦選購多種類型叢集組合方案 | 離線ETL、即時ETL、複雜彙總分析、高並發查詢服務 | |
阿里雲EMR的不同版本支援的組件版本各不相同,具體資訊請參見各版本支援的組件,推薦優先使用最新EMR版本,以獲得更全面的功能支援、效能最佳化及安全更新。
如果自訂叢集仍不能完全滿足您的業務需求,您可以在評估相容性和安全性之後自行安裝所需的組件。