中繼資料是用於描述叢集中資料存放區位置、結構定義和存取權限等的關鍵資訊。EMR支援將中繼資料存放區在DLF、雲資料庫RDS MySQL和內建MySQL中。本文將為您介紹這三類別中繼資料服務的區別,協助您快速選型。
中繼資料服務選型
對比維度 | |||
後端儲存 | 阿里雲DLF服務 | 雲資料庫RDS MySQL執行個體(需購買RDS並配置網路環境) | 叢集內MySQL執行個體 |
適用環境 | 測試環境、生產環境 | 測試環境、生產環境 | 單叢集POC測試 說明 不推薦使用,本地MySQL資料庫部署在叢集單節點中,不能保證服務高可用,有穩定性風險。 |
跨叢集共用 | 支援 | 支援 | 不支援 |
引擎相容性 | 支援Hive、Spark、Presto、MaxCompute和Hologres。 |
|
|
中繼資料管理 | 可視化中繼資料檢索、中繼資料管理、多版本管理、資料統計概況和生命週期管理等。 | 無 | 無 |
高可用性 | 主備等容災措施 | 主備等容災措施 | 無容災措施。 |
營運成本 | 免營運,自動水平彈性擴容。 | 需要自行升級和擴容等營運操作,適合需要靈活、精細管理的情境。 | 叢集單節點部署,版本升級成本高。 |
費用成本 | 當前免費(0折扣活動階段),正式計費標準請參見資料湖構建的計費模式。 | RDS執行個體的基礎費用由計算資源費用和儲存資源費用組成,具體計費資訊請參見雲資料庫RDS的計費項目。 | 無 |
選擇中繼資料服務時,請確認其支援的地區。其中DLF已開通的地區,請參見已開通的地區和訪問網域名稱。
中繼資料服務部署架構圖
DLF統一中繼資料部署架構圖
中繼資料存放區在阿里雲資料湖構建(Data Lake Formation,簡稱DLF)中。DLF統一中繼資料可以在多個叢集實現中繼資料共用,同時DLF Client SDK提供了相容Hive Metastore的介面,使引擎無需修改即可直接存取DLF中繼資料,使用者也可以通過DLF用戶端訪問DLF中繼資料。關於DLF的更多資訊請參見產品簡介。
單叢集部署架構圖 | 多叢集部署架構圖 |
自建RDS部署架構圖
中繼資料存放區在RDS MySQL執行個體中。自建RDS中繼資料服務支援在多個叢集環境中進行中繼資料共用,分別被不同叢集中的Hive Metastore訪問。
單叢集部署架構圖 | 多叢集部署架構圖 |
內建MySQL部署架構圖
中繼資料存放區在MySQL中,且MySQL Server執行個體部署在使用者的EMR叢集中(通常是Master節點)。由於每個叢集都有一個MySQL,導致多個叢集間的中繼資料不能共用。
內建MySQL登入的使用者名稱為root,密碼為EMRroot1234。
單叢集部署架構圖 | 多叢集部署架構圖 |
相關文檔
您可以通過修改Hive參數的方式,切換Hive MetaStore的儲存方式,具體請參見切換中繼資料存放區類型。
如果您選擇自建RDS作為叢集的中繼資料服務,您需要配置自建RDS。