組件概覽 - E-MapReduce

EMR提供的組件包括開源和自研兩大類，涵蓋資料開發、計算引擎、資料服務、資源管理、資料存放區、Data Integration等領域，您可以按需選擇和配置。

說明

在建立叢集時，如果沒有您想使用的組件，或者想使用的開源組件僅對存量使用者開放，您可以自行安裝並自行管理。

EMR主要由開源組件、自研組件、整合的阿里雲產品和叢集管理四部分組成。您可以根據產品架構圖查看EMR提供的巨量資料元件及使用情境。

資料開發

資料開發層提供視覺化檢視和代碼管理，涵蓋資料的採集、清洗、建模、分析以及任務調度等一系列開發過程，旨在支援企業對資料資產的高效管理與利用。

在EMR中資料開發的服務推薦使用阿里雲產品DataWorks。具體如下：

產品名稱	產品說明	常用文檔
DataWorks	DataWorks提供Data Integration、開發、治理、品質管理、營運和安全管控等全流程功能，適合需要複雜Data Integration和治理的情境。	DataWorks on EMR快速入門 DataWorks On EMR使用說明

如果您要使用開源的資料開發組件，可選擇Hue和Superset。具體如下：

組件類型

組件名稱

組件說明

常用文檔

開源

Hue

Hue僅對存量使用者開放。

Hue是一個開源的Web介面，用於與Apache Hadoop生態系統進行互動。

Hue

Superset

Superset僅對存量使用者開放。

Superset是一個資料視覺化工具，提供豐富的可視化和儀錶盤功能。

Superset

計算引擎

EMR支援多種主Realtime Compute引擎，如批處理、互動分析、流式計算、機器學習等，通過對資料進行結構和邏輯的轉換，滿足不同的巨量資料應用情境。

組件類型	組件名稱	組件說明	常用文檔
開源	Spark	Spark是一個快速通用的巨量資料處理引擎，提供記憶體中資料處理能力，並支援批處理、即時處理、機器學習和圖計算等多種資料處理模式。	Spark Shell和RDD基礎操作 Spark對接OSS 常見問題和故障診斷
	Hive	Hive是一個基於Hadoop的資料倉儲工具，通過提供類似SQL的查詢語言（HiveQL）使使用者可以方便地在Hadoop上進行大規模資料的儲存、查詢和分析。	Hive串連方式自訂函數（UDF）常見問題和故障診斷
	StarRocks	StarRocks是新一代極速全情境MPP（Massively Parallel Processing）資料庫，支援OLAP多維分析、高並發查詢、即時分析查詢等情境。	StarRocks概述建立StarRocks叢集常見問題
	Doris	Doris是一個高效能、即時的AnalyticDB，能夠較好地滿足報表分析、即席查詢、資料湖聯邦查詢加速等使用情境。	Doris概述建立Doris叢集快速入門
	ClickHouse	ClickHouse是一種開源列式資料庫管理系統，專註於高效的線上分析處理（OLAP），適合海量資料快速查詢。	快速使用ClickHouse OSS與ClickHouse間的資料匯入與匯出常見問題
	Trino	Trino原名PrestoSQL，是一個開源的分布式SQL查詢引擎，適用於互動式分析查詢。	Trino 通過命令列方式串連Trino 常見問題
	Flink	Flink是一個流式的資料流執行引擎，支援處理大規模、即時資料流。	基礎使用使用Flink將Kafka資料流式寫入阿里雲OSS 常見問題
	Presto	Presto即PrestoDB，是一款靈活、可擴充的分布式SQL查詢引擎，適用於互動式分析查詢。	Presto 通過命令列方式訪問Presto 通過JDBC方式訪問Presto
	Tez	Apache Tez是一個面向巨量資料處理的分布式架構，提供高效、靈活的DAG（有向非循環圖）執行模型，主要用於替代MapReduce來最佳化查詢和批處理任務的效能。	Tez
	Phoenix	Phoenix是構建在HBase上的SQL中介層，允許使用標準的SQL文法來查詢和管理儲存在HBase中的資料。	Phoenix
	Impala	Impala僅對存量使用者開放。 Impala為儲存在Apache Hadoop中的資料，提供高效能和低延遲的SQL查詢。	Impala概述串連Impala 常見問題
	Kudu	Kudu僅對存量使用者開放。 Kudu是一個分布式、可擴充的列式儲存管理器，提供低延遲的隨機讀寫和高效的資料分析能力。	概述 Impala整合Kudu 常見問題
	Druid	Druid僅對存量使用者開放。 Druid是一個分布式記憶體即時分析系統，用於解決如何在大規模資料集下快速、互動式地查詢和分析問題。	Druid

資料服務

資料服務層的組件提供資料加密、存取控制、資料查詢、資料訪問和API等服務，提升巨量資料環境中的資料安全、操作和分析效率。

組件類型	組件名稱	組件說明	常用文檔
開源	Ranger	Ranger是一個集中式的安全管理架構，主要用於Hadoop生態系統的許可權管理和審計。	Ranger 配置Hive開啟Ranger許可權控制常見問題
	Kerberos	Kerberos是一種基於對稱金鑰技術的身份認證協議，能夠為其他服務提供身份認證功能，並支援單點登入（SSO）。	Kerberos Kerberos基礎使用跨域互信
	OpenLDAP	OpenLDAP是LDAP協議的一個開源實現，用於管理和儲存使用者與資源資訊，提供使用者管理和身份認證的功能。	OpenLDAP
	Kyuubi	Kyuubi是一個分布式和多租戶的SQL網關，簡化資料分析和查詢處理，為資料湖查詢引擎提供SQL等查詢服務。	Kyuubi概述串連Kyuubi Kyuubi計算引擎管理
	Zookeeper	Zookeeper是一個高效的分布式協調服務，用於管理和協調分布式應用程式中的配置、同步和命名等關鍵任務，提供一致性、高效能和可靠的叢集管理解決方案。	概述基礎使用常見問題
	Knox	Knox是一個REST API Gateway，旨在簡化對Hadoop及其相關組件的安全訪問，同時提供統一的身分識別驗證和存取控制。	Knox
	Livy	Livy是一個通過REST介面或RPC client庫與Spark服務進行互動的服務。	Livy
	Kafka Manager	Kafka Manager僅對存量使用者開放。 Kafka Manager是專門為Kafka設計的叢集管理工具，提供簡潔的Web介面來管理和監控Kafka叢集。	Kafka Manager
自研	DLF-Auth	DLF-Auth是資料湖構建DLF產品提供，可以對DLF管理的資料庫、資料表、資料列、函數等進行細粒度許可權控制，實現資料湖上統一的資料許可權管理。	DLF-Auth

資源管理

資源管理層的組件提供高效的資源調度與管理能力，實現任務的自動化安排、資源的智能分配和叢集的彈性擴充，提升巨量資料處理的效率和可靠性。

組件類型	組件名稱	組件說明	常用文檔
開源	YARN	YARN是Hadoop的資源管理系統，負責叢集資源的調度和管理，支援不同類型的分散式運算任務在共用的叢集資源上高效運行。	YARN資源配置 YARN調度器常見問題

資料存放區

資料存放區層的組件支援結構化和非結構化資料的分布式儲存，您可以選擇適合的儲存方式滿足對應的計算引擎的要求。

組件類型	組件名稱	組件說明	常用文檔
自研	OSS-HDFS	OSS-HDFS 是一種相容 Hadoop Distributed File System介面的Object Storage Service解決方案，支援巨量資料計算任務通過標準HDFS協議直接存取阿里雲 OSS的資料。	OSS/OSS-HDFS概述 OSS/OSS-HDFS快速入門訪問OSS出現AccessDenied問題
	JindoCache	JindoCache是一種分布式緩衝解決方案，用於加速大規模資料訪問，通過在記憶體中快取資料塊，從而提高資料讀取效能並減少對底層儲存系統的壓力。	JindoCache概述 JindoCache加速OSS-HDFS透明緩衝 JindoCache加速OSS透明緩衝
	ESS	ESS僅對存量使用者開放。新使用者建議使用Celeborn組件。 ESS是基於Shuffle推出的向外延展群組件，最佳化Shuffle在讀寫方面的問題。	ESS
	JindoData	JindoData僅對存量使用者開放。新使用者建議使用JindoCache組件。 JindoData是自研的資料湖儲存加速套件，主要面向巨量資料和AI生態，為阿里雲和業界主要資料湖儲存系統提供全方位訪問加速解決方案。	JindoData
	SmartData	SmartData僅對存量使用者開放。新使用者建議使用OSS-HDFS組件。 SmartData是EMR產品的自研組件，為EMR各個計算引擎提供統一的儲存最佳化、緩衝最佳化、計算加速最佳化和多個儲存功能擴充，涵蓋資料訪問、資料治理和資料安全。	SmartData（僅對存量使用者開放）
開源	Paimon	Paimon是一種流批統一的湖儲存格式，支援高吞吐的寫入和低延後查詢。	Paimon概述 Paimon與Spark整合 Paimon與Flink整合
	Hudi	Hudi是一種資料湖的儲存格式，在Hadoop檔案系統之上提供更新資料和刪除資料的能力以及消費變化資料的能力。	Hudi概述 Hudi與Spark SQL整合常見問題
	Iceberg	Iceberg是一種開放的資料湖表格式，提供高效能的讀寫和中繼資料管理功能。	Iceberg 基礎使用 Spark批式讀寫Iceberg
	DeltaLake	DeltaLake是一個開源的資料存放區層，提供ACID事務、可擴充的中繼資料處理以及統一的流式和批處理。	DeltaLake 基礎使用常見問題
	HDFS	HDFS是一種用於儲存大型資料集的Distributed File System，具有高容錯性和高輸送量的特點，能夠在叢集中的多個節點上以冗餘方式儲存資料。	HDFS概述 HDFS常用命令 JVM記憶體調優
	HBase	HBase是一種分布式、面向列的開來源資料庫，其基於Hadoop檔案系統構建，旨在為大型資料集提供低延遲的隨機讀寫訪問和高可靠性儲存。	使用HBase快照使用HBase Shell 常見問題和故障診斷
	Celeborn	Celeborn是一個處理中間資料的服務，能夠提升巨量資料引擎的穩定性、靈活性和效能。	Celeborn
	HBASE-HDFS	HBASE-HDFS即HDFS，在存算分離情境用本地HBASE-HDFS儲存WAL資料。	HBASE-HDFS
	Alluxio	Alluxio僅對存量使用者開放。 Alluxio是一個面向雲端式的資料分析和人工智慧的開源的資料編排技術，提供統一的資料訪問入口，支援跨多種底層儲存。	Alluxio

Data Integration

Data Integration層的組件提供資料批量傳輸、即時訊息流程處理和分布式日誌收集的能力，提升資料轉送效率和資料收集的可靠性。

組件類型	組件名稱	組件說明	常用文檔
開源	Flume	Flume是一個分布式、可靠和高可用的系統，用於收集、彙總和移動大量日誌資料流到中心化的資料存放區中。	常用參數調優同步HDFS Audit日誌至HDFS 常見問題
	Sqoop	Sqoop是一個用於在Hadoop和關係型資料庫之間高效傳輸資料的工具，支援大規模資料匯入和匯出操作。	Sqoop使用說明 Sqoop常見問題
	Kafka	Kafka僅對存量使用者開放。 Kafka是一個開源的分布式事件流平台，具備高吞吐、低延遲和持久化能力，廣泛用於構建即時資料流處理和資料管道的應用情境。	使用SASL登入認證Kafka服務使用SSL加密Kafka連結 Kafka常見問題

E-MapReduce：組件概覽