全部產品
Search
文件中心

Dataphin:使用Amazon EMR作為元倉引擎進行元倉初始化

更新時間:Nov 19, 2025

Dataphin中繼資料倉庫(簡稱:元倉),是統一管理Dataphin內部業務中繼資料和相應計算引擎中繼資料的資料倉儲,存在於Dataphin元倉租戶中(OPS租戶)的一個Dataphin專案空間中,由一系列的周期性Data Integration節點、SQL指令碼節點、Shell節點群組成。元倉初始化即配置Dataphin系統的計算引擎類型並初始化中繼資料的過程。本文將為您介紹如何使用Amazon EMR作為元倉計算引擎進行元倉初始化。

使用限制

系統僅支援元倉租戶超級管理員系統管理員角色的帳號初始化系統。

重要

請妥善保管元倉租戶超級管理員系統管理員的帳號和密碼。同時,元倉租戶超級管理員帳號登入系統後,請謹慎操作。

操作步驟

  1. 在Dataphin首頁的頂部功能表列中,選擇管理中心 > 系統設定

  2. 在左側導覽列中選擇系統營運 > 元倉設定

  3. 元倉設定設定精靈頁面,單擊開始

  4. 在選擇初始化引擎類型步驟中,選擇Amazon EMR引擎類型。

    重要

    若元倉已經初始化,則預設選擇上次初始化成功的元倉。當切換成不相容的計算引擎時,會導致治理功能不可用。

  5. 單擊下一步

  6. 參數配置頁面,配置以下參數。

    參數

    描述

    主節點公有DNS

    通過公有DNS擷取VPC私人DNS,Hive及Spark均通過私人DNS串連,格式為ec2-{public_ip}.{region}.compute.amazonaws.com

    密鑰檔案(*.pem)

    訪問主節點ec2的金鑰組(建立EMR叢集時所設定的金鑰組)。

    core-site.xml

    可自行上傳相關叢集設定檔,或單擊擷取叢集配置(需先填寫主節點公有DNS並上傳密鑰檔案),從主節點下載相關檔案。

    yarn-site.xml

    hive-site.xml

    hdfs-site.xml

    叢集儲存

    當前僅可選擇HDFS

    中繼資料擷取方式

    可選擇HMSAmazon Glue

    • HMS:預設選擇HMS。

    • Amazon Glue:選擇Amazon Glue後,還需配置Glue Region Code、Glue AccessKey ID、Glue AccessKey Secret。

      • Glue Region Code:輸入Amazon Glue的Region Code,例如ap-northeast-3,us-east-1,us-west-1。

      • Glue AccessKey IDGlue AccessKey Secret:輸入Amazon Glue的訪問AccessKey ID和AccessKey Secret。

    引擎類型

    可選擇HiveSpark。選擇Hive後,還需輸入Hive JDBC URL;選擇Spark還需輸入Spark JDBC URL。

    • Hive JDBC URL:輸入Hive的JDBC串連地址,或自動擷取串連地址(需先填寫主節點公有DNS並上傳密鑰檔案)。Hive JDBC URL格式為jdbc:hive2//host1:port1,host2:post2/,無需填寫Database name。

    • Spark JDBC URL:輸入Spark的JDBC串連地址,格式為jdbc:hive2//host1:port1/jdbc:kyuubi://host1:port1/,無需填寫Database name。

    使用者名稱

    Hive或Spark的指定使用者名稱,此使用者名稱將設定為JDBC的username

    Database

    填寫Amazon EMR計算引擎的Database名稱。

    中繼資料生產專案

    輸入Dataphin內的元倉專案名稱,此專案用於中繼資料生產和加工。

  7. 單擊測試連接。串連測試通過後,單擊下一步

  8. 在初始化頁面,單擊開始

    說明

    初始化系統約15分鐘左右,請您耐心等待。

  9. 頁面提示執行成功後,單擊完成,即可完成配置。

後續步驟

完成系統的中繼資料初始化後,即可設定Dataphin執行個體的計算引擎。當元倉引擎設定為Amazon EMR時,業務租戶引擎可設定為除MaxCompute外的任意類型引擎,設定方法請參見計算設定