全部產品
Search
文件中心

E-MapReduce:選擇中繼資料服務

更新時間:Apr 22, 2025

中繼資料是用於描述叢集中資料存放區位置、結構定義和存取權限等的關鍵資訊。EMR支援將中繼資料存放區在DLF、雲資料庫RDS MySQL和內建MySQL中。本文將為您介紹這三類別中繼資料服務的區別,協助您快速選型。

中繼資料服務選型

對比維度

DLF統一中繼資料

自建RDS

內建MySQL

後端儲存

阿里雲DLF服務

雲資料庫RDS MySQL執行個體(需購買RDS並配置網路環境)

叢集內MySQL執行個體

適用環境

測試環境、生產環境

測試環境、生產環境

單叢集POC測試

說明

不推薦使用,本地MySQL資料庫部署在叢集單節點中,不能保證服務高可用,有穩定性風險。

跨叢集共用

支援

支援

不支援

引擎相容性

支援Hive、Spark、Presto、MaxCompute和Hologres。

  • 支援Hive、Spark和Presto。

  • 不支援MaxCompute和Hologres。

  • 支援Hive、Spark和Presto。

  • 不支援MaxCompute和Hologres。

中繼資料管理

可視化中繼資料檢索、中繼資料管理、多版本管理、資料統計概況和生命週期管理等。

高可用性

主備等容災措施

主備等容災措施

無容災措施。

營運成本

免營運,自動水平彈性擴容。

需要自行升級和擴容等營運操作,適合需要靈活、精細管理的情境。

叢集單節點部署,版本升級成本高。

費用成本

當前免費(0折扣活動階段),正式計費標準請參見資料湖構建的計費模式

RDS執行個體的基礎費用由計算資源費用和儲存資源費用組成,具體計費資訊請參見雲資料庫RDS的計費項目

說明

選擇中繼資料服務時,請確認其支援的地區。其中DLF已開通的地區,請參見已開通的地區和訪問網域名稱

中繼資料服務部署架構圖

DLF統一中繼資料部署架構圖

中繼資料存放區在阿里雲資料湖構建(Data Lake Formation,簡稱DLF)中。DLF統一中繼資料可以在多個叢集實現中繼資料共用,同時DLF Client SDK提供了相容Hive Metastore的介面,使引擎無需修改即可直接存取DLF中繼資料,使用者也可以通過DLF用戶端訪問DLF中繼資料。關於DLF的更多資訊請參見產品簡介

單叢集部署架構圖

多叢集部署架構圖

自建RDS部署架構圖

中繼資料存放區在RDS MySQL執行個體中。自建RDS中繼資料服務支援在多個叢集環境中進行中繼資料共用,分別被不同叢集中的Hive Metastore訪問。

單叢集部署架構圖

多叢集部署架構圖

內建MySQL部署架構圖

中繼資料存放區在MySQL中,且MySQL Server執行個體部署在使用者的EMR叢集中(通常是Master節點)。由於每個叢集都有一個MySQL,導致多個叢集間的中繼資料不能共用。

說明

內建MySQL登入的使用者名稱為root,密碼為EMRroot1234。

單叢集部署架構圖

多叢集部署架構圖

相關文檔