Dataphin中繼資料倉庫(簡稱:元倉),是統一管理Dataphin內部業務中繼資料和相應計算引擎中繼資料的資料倉儲,存在於Dataphin元倉租戶中(OPS租戶)的一個Dataphin專案空間中,由一系列的周期性Data Integration節點、SQL指令碼節點、Shell節點群組成。元倉初始化即配置Dataphin系統的計算引擎類型並初始化中繼資料的過程。本文將為您介紹如何使用星環TDH作為元倉計算引擎進行元倉初始化。
前提條件
以星環TDH作為元倉時,需開放中繼資料庫或提供Hive Metastore服務,用於擷取中繼資料。
以TDH Inceptor作為元倉,或元倉初始化中的中繼資料庫配置使用TDH Inceptor作為中繼資料庫擷取方式時,需要具備以下條件:
已在TDH Inceptor中建立dataphin_meta的專案。
元倉初始化中TDH Inceptor配置的使用者,需具備dataphin_meta專案的寫入表及建立表的許可權。
客戶引擎的帳號需要對dataphin_meta專案的物化表有讀取的許可權。

背景資訊
Dataphin支援通過直連中繼資料庫或Hive Metastore Service服務方式擷取中繼資料。各方式擷取中繼資料優劣勢對比詳情如下:

中繼資料擷取方式 | 優勢與劣勢 |
直連中繼資料庫 | 高效能:直接連接底層的中繼資料庫,省去了中間的HMS服務環節,用戶端在擷取meta(中繼資料)時效能更好,同時能夠減少網路傳輸上的耗時。 更開放:通過HMS服務查詢metastore,只能使用metastoreclient提供的幾種方法進行查詢。而直接連接中繼資料庫後,可以自由使用SQL進行查詢。 |
Hive Metastore Service服務 | 更安全:可以為metastore開啟Kerberos認證,用戶端需要進行Kerberos認證才能讀取到metastore中的資料。 更靈活:用戶端僅感知到HMS服務,並不能感知到背景中繼資料庫。因此底層的原資料庫可以隨時進行切換,而對應的用戶端無需變更。 |
使用限制
當選擇MySQL中繼資料庫、Inceptor中繼資料庫或HMS方式擷取中繼資料時,擷取到的中繼資料資訊會有部分缺失或不準確,具體如下。
通過MySQL中繼資料庫或HMS擷取中繼資料資訊時,不支援擷取:
資產全景、資料板塊、專案的資料量資訊。
資產目錄中表資料量、分區資料量、分區記錄數。
資源治理的儲存相關的指標資訊。
元倉共用模型中dim_dataphin_table及dim_dataphin_partition的資料量和記錄數。
通過TDH Inceptor System庫擷取中繼資料資訊時,不支援擷取:
資產目錄的分區記錄數資訊。
元倉共用模型中dim_dataphin_table及dim_dataphin_partition的記錄數。
使用TDH Inceptor作為元倉計算引擎時,Dataphin不支援自訂函數。
由於添加同名的JAR包用於UDF註冊,可能會導致Inceptor服務停止回應且無法成功重啟;添加不同名的JAR包但包含相同的class檔案,可能導致UDF執行結果不可預測,因此在使用TDH Inceptor作為元倉計算引擎時,Dataphin不支援自訂函數。若需添加自訂函數,您可通過TDH Inceptor的用戶端進行添加,並需確保叢集中自訂函數(UDF)名稱的唯一性和類名的一致性。
許可權說明
系統僅支援元倉租戶超級管理員或系統管理員角色的帳號初始化系統。
請妥善保管元倉租戶超級管理員或系統管理員的帳號和密碼。同時,元倉租戶超級管理員帳號登入系統後,請謹慎操作。
操作步驟
在Dataphin首頁的頂部功能表列中,選擇管理中心 > 系統設定。
在左側導覽列選擇系統營運 > 元倉設定。
在中繼資料部署設定精靈頁面,單擊開始。
在選擇初始化引擎類型頁面,選擇星環TDH 6.x或星環TDH 9.3.x引擎類型。
重要當切換成不相容的計算引擎時,會導致治理功能不可用。若元倉已經初始化,則預設選擇上次初始化成功的元倉。
單擊下一步。
在參數配置頁面,配置以下參數(星環TDH 6.x與星環TDH 9.3.x所需配置的參數相同)。
地區
參數
描述
叢集配置
NameNode
NameNode用於管理HDFS中的檔案系統名稱空間及外部客戶機的存取權限。
單擊新增。
在新增NameNode對話方塊,填寫NameNode的Hostname名及連接埠號碼,單擊確定。
填寫後自動產生對應的格式,例如
host=start,webUiPort=50070,ipcPort=8020。
設定檔
上傳叢集設定檔,用於配置叢集參數。系統支援上傳core-site.xml、hdfs-site.xml等叢集設定檔。
History Log
配置叢集的日誌路徑。例如
tmp/hadoop-yarn/staging/history/done。認證方式
支援無認證和Kerberos認證方式。Kerberos是一種基於對稱金鑰技術的身份認證協議,常用於叢集各組件間的認證。開啟Kerberos能夠提升叢集的安全性。
如果您選擇開啟Kerberos認證,需配置Kerberos配置方式和HDFS。
Kerberos配置方式
KDC Server:需輸入KDC統一服務地址,輔助完成Kerberos認證。支援配置多個地址,使用英文逗號(,)分隔。
krb5檔案配置:需要上傳Krb5檔案進行Kerberos認證。
HDFS Keytab File:需上傳HDFS Keytab檔案。
HDFS Principal:輸入Kerberos認證的Principal名。例如
XXXX/hadoopclient@xxx.xxx。
Inceptor配置
JDBC URL
填寫串連Inceptor的JDBC URL。
認證方式
選擇Inceptor的認證檔案。您需要根據引擎情況進行選擇,支援選擇無認證、LDAP、Kerberos:
無認證:即沒有認證。需配置訪問Inceptor的使用者名稱和密碼。
LDAP:LDAP認證。需配置訪問Inceptor的使用者名稱和密碼。
Kerberos:叢集的認證方式需為Kerberos。Kerberos任務需要上傳Keytab File認證檔案及配置Principal地址。
Keytab File:上傳Keytab File檔案進行Kerberos認證。
Principal:Kerberos認證的Principal名。
中繼資料庫配置
中繼資料擷取方式
支援中繼資料庫和HMS(Hive Metastore Service)方式擷取中繼資料。使用HMS方式擷取中繼資料庫,若叢集配置認證方式為Kerberos,需上傳Keytab File檔案和填寫Principal。
Keytab File:Hive metastore的Kerberos認證的Keytab檔案。
Principal:Hive metastore的Kerberos認證的Principal。
資料庫類型
中繼資料庫方式擷取中繼資料,需配置該參數。系統支援MySQL、PostgreSQL、Inceptor。
MySQL:可選擇的版本為5.1.43、5.6/5.7和8.0版本。
Inceptor:支援無認證、LDAP、Kerberos認證方式。
JDBC URL
填寫目標資料庫JDBC的串連地址。例如:
MySQL資料庫的串連地址格式為
jdbc:mysql://host:port/dbname。Inceptor資料庫的串連地址格式為
jdbc:hive2://host:port/dbname。使用者名稱、密碼
目標資料庫的使用者名稱和密碼。若Inceptor資料庫認證方式為無認證僅需填寫使用者名稱;Kerberos認證方式需上傳Keytab File檔案和填寫Principal。
中繼資料生產專案
Meta Project
用於中繼資料生產,加工的邏輯專案空間。推薦配置為dataphin_meta,重新初始化時請保持名稱不變,否則初始化失敗。
單擊測試連接。串連測試通過後,單擊下一步。
在初始化頁面,單擊開始。
說明初始化系統約15分鐘左右,請您耐心等待。
頁面提示執行成功後,單擊完成,即可完成配置。
後續步驟
完成系統的中繼資料初始化後,即可設定Dataphin執行個體的計算引擎。當元倉引擎設定為星環TDH時,業務租戶引擎可設定為除MaxCompute外的任意類型引擎,設定方法請參見計算設定。