Dataphin中繼資料倉庫(簡稱:元倉),是統一管理Dataphin內部業務中繼資料和相應計算引擎中繼資料的資料倉儲,存在於Dataphin元倉租戶中(OPS租戶)的一個Dataphin專案空間中,由一系列的周期性Data Integration節點、SQL指令碼節點、Shell節點群組成。元倉初始化即配置Dataphin系統的計算引擎類型並初始化中繼資料的過程。本文將為您介紹如何使用Amazon EMR作為元倉計算引擎進行元倉初始化。
使用限制
系統僅支援元倉租戶超級管理員或系統管理員角色的帳號初始化系統。
請妥善保管元倉租戶超級管理員或系統管理員的帳號和密碼。同時,元倉租戶超級管理員帳號登入系統後,請謹慎操作。
操作步驟
在Dataphin首頁的頂部功能表列中,選擇管理中心 > 系統設定。
在左側導覽列中選擇系統營運 > 元倉設定。
在元倉設定設定精靈頁面,單擊開始。
在選擇初始化引擎類型步驟中,選擇Amazon EMR引擎類型。
重要若元倉已經初始化,則預設選擇上次初始化成功的元倉。當切換成不相容的計算引擎時,會導致治理功能不可用。
單擊下一步。
在參數配置頁面,配置以下參數。
參數
描述
主節點公有DNS
通過公有DNS擷取VPC私人DNS,Hive及Spark均通過私人DNS串連,格式為
ec2-{public_ip}.{region}.compute.amazonaws.com。密鑰檔案(*.pem)
訪問主節點ec2的金鑰組(建立EMR叢集時所設定的金鑰組)。
core-site.xml
可自行上傳相關叢集設定檔,或單擊擷取叢集配置(需先填寫主節點公有DNS並上傳密鑰檔案),從主節點下載相關檔案。
yarn-site.xml
hive-site.xml
hdfs-site.xml
叢集儲存
當前僅可選擇HDFS。
中繼資料擷取方式
可選擇HMS或Amazon Glue。
HMS:預設選擇HMS。
Amazon Glue:選擇Amazon Glue後,還需配置Glue Region Code、Glue AccessKey ID、Glue AccessKey Secret。
Glue Region Code:輸入Amazon Glue的Region Code,例如ap-northeast-3,us-east-1,us-west-1。
Glue AccessKey ID、Glue AccessKey Secret:輸入Amazon Glue的訪問AccessKey ID和AccessKey Secret。
引擎類型
可選擇Hive或Spark。選擇Hive後,還需輸入Hive JDBC URL;選擇Spark還需輸入Spark JDBC URL。
Hive JDBC URL:輸入Hive的JDBC串連地址,或自動擷取串連地址(需先填寫主節點公有DNS並上傳密鑰檔案)。Hive JDBC URL格式為
jdbc:hive2//host1:port1,host2:post2/,無需填寫Database name。Spark JDBC URL:輸入Spark的JDBC串連地址,格式為
jdbc:hive2//host1:port1/或jdbc:kyuubi://host1:port1/,無需填寫Database name。
使用者名稱
Hive或Spark的指定使用者名稱,此使用者名稱將設定為JDBC的
username。Database
填寫Amazon EMR計算引擎的Database名稱。
中繼資料生產專案
輸入Dataphin內的元倉專案名稱,此專案用於中繼資料生產和加工。
單擊測試連接。串連測試通過後,單擊下一步。
在初始化頁面,單擊開始。
說明初始化系統約15分鐘左右,請您耐心等待。
頁面提示執行成功後,單擊完成,即可完成配置。
後續步驟
完成系統的中繼資料初始化後,即可設定Dataphin執行個體的計算引擎。當元倉引擎設定為Amazon EMR時,業務租戶引擎可設定為除MaxCompute外的任意類型引擎,設定方法請參見計算設定。