全部產品
Search
文件中心

E-MapReduce:組件概覽

更新時間:Mar 26, 2025

EMR提供的組件包括開源和自研兩大類,涵蓋資料開發、計算引擎、資料服務、資源管理、資料存放區、Data Integration等領域,您可以按需選擇和配置。

說明

在建立叢集時,如果沒有您想使用的組件,或者想使用的開源組件僅對存量使用者開放,您可以自行安裝並自行管理。

EMR主要由開源組件、自研組件、整合的阿里雲產品和叢集管理四部分組成。您可以根據產品架構圖查看EMR提供的巨量資料元件及使用情境。

資料開發

資料開發層提供視覺化檢視和代碼管理,涵蓋資料的採集、清洗、建模、分析以及任務調度等一系列開發過程,旨在支援企業對資料資產的高效管理與利用。

在EMR中資料開發的服務推薦使用阿里雲產品DataWorks。具體如下:

產品名稱

產品說明

常用文檔

DataWorks

DataWorks提供Data Integration、開發、治理、品質管理、營運和安全管控等全流程功能,適合需要複雜Data Integration和治理的情境。

如果您要使用開源的資料開發組件,可選擇Hue和Superset。具體如下:

組件類型

組件名稱

組件說明

常用文檔

開源

Hue

Hue僅對存量使用者開放。

Hue是一個開源的Web介面,用於與Apache Hadoop生態系統進行互動。

Hue

Superset

Superset僅對存量使用者開放。

Superset是一個資料視覺化工具,提供豐富的可視化和儀錶盤功能。

Superset

計算引擎

EMR支援多種主Realtime Compute引擎,如批處理、互動分析、流式計算、機器學習等,通過對資料進行結構和邏輯的轉換,滿足不同的巨量資料應用情境。

組件類型

組件名稱

組件說明

常用文檔

開源

Spark

Spark是一個快速通用的巨量資料處理引擎,提供記憶體中資料處理能力,並支援批處理、即時處理、機器學習和圖計算等多種資料處理模式。

Hive

Hive是一個基於Hadoop的資料倉儲工具,通過提供類似SQL的查詢語言(HiveQL)使使用者可以方便地在Hadoop上進行大規模資料的儲存、查詢和分析。

StarRocks

StarRocks是新一代極速全情境MPP(Massively Parallel Processing)資料庫,支援OLAP多維分析、高並發查詢、即時分析查詢等情境。

Doris

Doris是一個高效能、即時的AnalyticDB,能夠較好地滿足報表分析、即席查詢、資料湖聯邦查詢加速等使用情境。

ClickHouse

ClickHouse是一種開源列式資料庫管理系統,專註於高效的線上分析處理(OLAP),適合海量資料快速查詢。

Trino

Trino原名PrestoSQL,是一個開源的分布式SQL查詢引擎,適用於互動式分析查詢。

Flink

Flink是一個流式的資料流執行引擎,支援處理大規模、即時資料流。

Presto

Presto即PrestoDB,是一款靈活、可擴充的分布式SQL查詢引擎,適用於互動式分析查詢。

Tez

Apache Tez是一個面向巨量資料處理的分布式架構,提供高效、靈活的DAG(有向非循環圖)執行模型,主要用於替代MapReduce來最佳化查詢和批處理任務的效能。

Tez

Phoenix

Phoenix是構建在HBase上的SQL中介層,允許使用標準的SQL文法來查詢和管理儲存在HBase中的資料。

Phoenix

Impala

Impala僅對存量使用者開放。

Impala為儲存在Apache Hadoop中的資料,提供高效能和低延遲的SQL查詢。

Kudu

Kudu僅對存量使用者開放。

Kudu是一個分布式、可擴充的列式儲存管理器,提供低延遲的隨機讀寫和高效的資料分析能力。

Druid

Druid僅對存量使用者開放。

Druid是一個分布式記憶體即時分析系統,用於解決如何在大規模資料集下快速、互動式地查詢和分析問題。

Druid

資料服務

資料服務層的組件提供資料加密、存取控制、資料查詢、資料訪問和API等服務,提升巨量資料環境中的資料安全、操作和分析效率。

組件類型

組件名稱

組件說明

常用文檔

開源

Ranger

Ranger是一個集中式的安全管理架構,主要用於Hadoop生態系統的許可權管理和審計。

Kerberos

Kerberos是一種基於對稱金鑰技術的身份認證協議,能夠為其他服務提供身份認證功能,並支援單點登入(SSO)。

OpenLDAP

OpenLDAP是LDAP協議的一個開源實現,用於管理和儲存使用者與資源資訊,提供使用者管理和身份認證的功能。

OpenLDAP

Kyuubi

Kyuubi是一個分布式和多租戶的SQL網關,簡化資料分析和查詢處理,為資料湖查詢引擎提供SQL等查詢服務。

Zookeeper

Zookeeper是一個高效的分布式協調服務,用於管理和協調分布式應用程式中的配置、同步和命名等關鍵任務,提供一致性、高效能和可靠的叢集管理解決方案。

Knox

Knox是一個REST API Gateway,旨在簡化對Hadoop及其相關組件的安全訪問,同時提供統一的身分識別驗證和存取控制。

Knox

Livy

Livy是一個通過REST介面或RPC client庫與Spark服務進行互動的服務。

Livy

Kafka Manager

Kafka Manager僅對存量使用者開放。

Kafka Manager是專門為Kafka設計的叢集管理工具,提供簡潔的Web介面來管理和監控Kafka叢集。

Kafka Manager

自研

DLF-Auth

DLF-Auth是資料湖構建DLF產品提供,可以對DLF管理的資料庫、資料表、資料列、函數等進行細粒度許可權控制,實現資料湖上統一的資料許可權管理。

DLF-Auth

資源管理

資源管理層的組件提供高效的資源調度與管理能力,實現任務的自動化安排、資源的智能分配和叢集的彈性擴充,提升巨量資料處理的效率和可靠性。

組件類型

組件名稱

組件說明

常用文檔

開源

YARN

YARN是Hadoop的資源管理系統,負責叢集資源的調度和管理,支援不同類型的分散式運算任務在共用的叢集資源上高效運行。

資料存放區

資料存放區層的組件支援結構化和非結構化資料的分布式儲存,您可以選擇適合的儲存方式滿足對應的計算引擎的要求。

組件類型

組件名稱

組件說明

常用文檔

自研

OSS-HDFS

OSS-HDFS 是一種相容 Hadoop Distributed File System介面的Object Storage Service解決方案,支援巨量資料計算任務通過標準HDFS協議直接存取阿里雲 OSS的資料。

JindoCache

JindoCache是一種分布式緩衝解決方案,用於加速大規模資料訪問,通過在記憶體中快取資料塊,從而提高資料讀取效能並減少對底層儲存系統的壓力。

ESS

ESS僅對存量使用者開放。新使用者建議使用Celeborn組件。

ESS是基於Shuffle推出的向外延展群組件,最佳化Shuffle在讀寫方面的問題。

ESS

JindoData

JindoData僅對存量使用者開放。新使用者建議使用JindoCache組件。

JindoData是自研的資料湖儲存加速套件,主要面向巨量資料和AI生態,為阿里雲和業界主要資料湖儲存系統提供全方位訪問加速解決方案。

JindoData

SmartData

SmartData僅對存量使用者開放。新使用者建議使用OSS-HDFS組件。

SmartData是EMR產品的自研組件,為EMR各個計算引擎提供統一的儲存最佳化、緩衝最佳化、計算加速最佳化和多個儲存功能擴充,涵蓋資料訪問、資料治理和資料安全。

SmartData(僅對存量使用者開放)

開源

Paimon

Paimon是一種流批統一的湖儲存格式,支援高吞吐的寫入和低延後查詢。

Hudi

Hudi是一種資料湖的儲存格式,在Hadoop檔案系統之上提供更新資料和刪除資料的能力以及消費變化資料的能力。

Iceberg

Iceberg是一種開放的資料湖表格式,提供高效能的讀寫和中繼資料管理功能。

DeltaLake

DeltaLake是一個開源的資料存放區層,提供ACID事務、可擴充的中繼資料處理以及統一的流式和批處理。

HDFS

HDFS是一種用於儲存大型資料集的Distributed File System,具有高容錯性和高輸送量的特點,能夠在叢集中的多個節點上以冗餘方式儲存資料。

HBase

HBase是一種分布式、面向列的開來源資料庫,其基於Hadoop檔案系統構建,旨在為大型資料集提供低延遲的隨機讀寫訪問和高可靠性儲存。

Celeborn

Celeborn是一個處理中間資料的服務,能夠提升巨量資料引擎的穩定性、靈活性和效能。

Celeborn

HBASE-HDFS

HBASE-HDFS即HDFS,在存算分離情境用本地HBASE-HDFS儲存WAL資料。

HBASE-HDFS

Alluxio

Alluxio僅對存量使用者開放。

Alluxio是一個面向雲端式的資料分析和人工智慧的開源的資料編排技術,提供統一的資料訪問入口,支援跨多種底層儲存。

Alluxio

Data Integration

Data Integration層的組件提供資料批量傳輸、即時訊息流程處理和分布式日誌收集的能力,提升資料轉送效率和資料收集的可靠性。

組件類型

組件名稱

組件說明

常用文檔

開源

Flume

Flume是一個分布式、可靠和高可用的系統,用於收集、彙總和移動大量日誌資料流到中心化的資料存放區中。

Sqoop

Sqoop是一個用於在Hadoop和關係型資料庫之間高效傳輸資料的工具,支援大規模資料匯入和匯出操作。

Kafka

Kafka僅對存量使用者開放。

Kafka是一個開源的分布式事件流平台,具備高吞吐、低延遲和持久化能力,廣泛用於構建即時資料流處理和資料管道的應用情境。

相關文檔