中繼資料中心設定 - Dataphin

所有租戶的中繼資料採集任務將統一在元倉租戶中運行，在使用中繼資料中心功能前，您需要先在元倉租戶中完成中繼資料中心的初始化設定，指定中繼資料採集任務運行時計算源資訊。本文為您介紹如何進行中繼資料中心設定。

使用限制

中繼資料中心設定的計算引擎類型需和元倉設定的引擎類型一致。
MaxCompute、E-MapReduce5.x Hadoop、E-MapReduce3.x Hadoop、CDH5.x Hadoop、CDH6.x Hadoop、Cloudera Data Platform 7.x、華為 FusionInsight 8.x Hadoop、亞信DP5.3 Hadoop計算引擎支援使用中繼資料中心功能。
完成中繼資料中心初始化配置後，不支援重新初始化。

許可權說明

支援元倉租戶的超級管理員或系統管理員進行中繼資料中心初始化配置。

名詞解釋

中繼資料：是關於資料的資料，包括技術、業務、管理中繼資料。它描述了資料的特性、來源、格式和關係等資訊，以便於資料的檢索、使用和維護。
中繼資料中心：負責從各業務系統中抽取、加工、集中儲存和管理中繼資料，以支援資料治理，並加強組織內部資料的組織、檢索和分析能力。

中繼資料中心初始化配置

使用元倉租戶的超級管理員或系統管理員帳號，登入元倉租戶。
在Dataphin首頁，選擇頂部功能表列的管理中心 > 系統設定。
單擊左側導覽列系統營運下的中繼資料中心設定，進入中繼資料中心初始化配置頁面。

您需根據元倉設定的計算引擎選擇中繼資料中心初始化的計算源類型，支援MaxCompute和Hadoop下的計算引擎。

MaxCompute

參數	描述
計算源類型	選擇MaxCompute計算引擎。
Endpoint	配置Dataphin執行個體所在MaxCompute地區的Endpoint。不同地區和不同網路類型的MaxCompute的Endpoint詳情請參見MaxCompute Endpoint。
Project Name	此處為MaxCompute專案名稱，非DataWorks工作空間名稱。您可以登入MaxCompute控制台，左上方切換地區後，即可在專案管理頁簽查看到具體的MaxCompute專案名。
AccessKey ID、Access Key Secret	填寫可以訪問MaxCompute專案的帳號的AccessKey ID和AccessKey Secret。請使用已有AccessKey或者參考建立AccessKey重新建立。說明為降低AccessKey泄露的風險，AccessKey Secret只在建立時顯示一次，後續無法查看。請務必妥善保管。為了保證Dataphin專案空間與MaxCompute專案正常串連，建議填寫MaxCompute專案系統管理員的AccessKey。為了保證中繼資料正常採集，請盡量不修改MaxCompute專案的AccessKey。

Hadoop

計算源類型：
- HDFS叢集儲存：支援選擇E-MapReduce5.x Hadoop、E-MapReduce3.x Hadoop、CDH5.x Hadoop、CDH6.x Hadoop、Cloudera Data Platform 7.x、華為 FusionInsight 8.x Hadoop、亞信DP5.3 Hadoop計算引擎。
- OSS-HDFS叢集儲存：僅支援E-MapReduce5.x Hadoop計算引擎。

叢集配置

HDFS叢集儲存

參數	描述
NameNode	NameNode用於管理HDFS中的檔案系統名稱空間及外部客戶端的存取權限。單擊新增。在新增NameNode對話方塊，填寫NameNode的Hostname名稱以及連接埠號碼，單擊確定。填寫後自動產生對應的格式，例如`host=hostname,webUiPort=50070,ipcPort=8020`。
設定檔	上傳叢集設定檔，用於配置叢集參數。系統支援上傳core-site.xml、hdfs-site.xml等叢集設定檔。若需使用HMS方式擷取中繼資料，設定檔中必需上傳hdfs-site.xml、hive-site.xml、core-site xmI 、hivemetastore-site.xml檔案。若計算引擎類型為FusionInsight 8.X和E-MapReduce5.x Hadoop，還需上傳hivemetastore-site.xml檔案。
History Log	配置叢集的日誌路徑。例如`tmp/hadoop-yarn/staging/history/done`。
認證方式	支援無認證和Kerberos認證方式。Kerberos是一種基於對稱金鑰技術的身份認證協議，常用於叢集各組件間的認證。開啟Kerberos能夠提升叢集的安全性。如果您選擇開啟Kerberos認證，需配置以下參數： Kerberos配置方式 KDC Server：需輸入KDC統一服務地址，輔助完成Kerberos認證。 krb5檔案配置：需要上傳Krb5檔案進行Kerberos認證。 HDFS配置 HDFS Keytab File：需上傳HDFS Keytab檔案。 HDFS Principal：輸入Kerberos認證的Principal名。例如`XXXX/hadoopclient@xxx.xxx`。

OSS-HDFS叢集儲存

參數	描述
叢集儲存	可以通過以下方式查看叢集儲存類型。未建立叢集：可以通過E-MapReduce5.x Hadoop叢集建立頁面查看所建立的叢集儲存類型。如下圖所示：已建立叢集：可以通過E-MapReduce5.x Hadoop叢集的詳情頁查看所建立的叢集儲存類型。如下圖所示：
叢集儲存根目錄	填寫叢集儲存根目錄。可以通過查看E-MapReduce5.x Hadoop叢集資訊進行擷取。如下圖所示：重要若填寫的路徑中包括Endpoint，則Dataphin預設使用該Endpoint；若不包含，則使用core-site.xml中配置的Bucket層級的Endpoint；若未配置Bucket層級的Endpoint，則使用core-site.xml中的全域Endpoint。更多資訊請參見阿里雲OSS-HDFS服務（JindoFS 服務）Endpoint配置。
設定檔	上傳叢集設定檔，用於配置叢集參數。系統支援上傳core-site.xml、hive-site.xml等叢集設定檔。若需使用HMS方式擷取中繼資料，設定檔中必須上傳hive-site.xml、core-site.xml、hivemetastore-site.xml檔案。
History Log	配置叢集的日誌路徑。例如`tmp/hadoop-yarn/staging/history/done`。
AccessKey ID、AccessKey Secret	填寫訪問叢集OSS的AccessKey ID和AccessKey Secret。請使用已有AccessKey或者參考建立AccessKey重新建立。說明為降低AccessKey泄露的風險，AccessKey Secret只在建立時顯示一次，後續無法查看。請務必妥善保管。重要此處填寫的配置優先順序高於core-site.xml中配置的AccessKey。
認證方式	支援無認證和Kerberos認證方式。Kerberos是一種基於對稱金鑰技術的身份認證協議，常用於叢集各組件間的認證。開啟Kerberos能夠提升叢集的安全性。如果您選擇開啟Kerberos認證，需要上傳Krb5檔案進行Kerberos認證。

Hive配置

參數	描述
JDBC URL	填寫連結Hive的JDBC URL。
認證方式	當叢集認證選擇無認證時，Hive的認證方式支援選擇無認證和LDAP。當叢集認證選擇Kerberos時，Hive的認證方式支援選擇無認證、LDAP和Kerberos。說明當計算引擎為E-MapReduce3.x、E-MapReduce5.x、Cloudera Data Platform 7.x、亞信DP5.3、華為 FusionInsight 8.X，支援配置認證方式。
使用者名稱、密碼	訪問Hive的使用者名稱和密碼。無認證方式：需填寫使用者名稱； LDAP認證方式：需填寫使用者名稱和密碼。 Kerberos認證方式：無需填寫。
Hive Keytab File	開啟Kerberos認證後需配置該參數。上傳keytab檔案，您可以在Hive Server上擷取keytab檔案。
Hive Principal	開啟Kerberos認證後需配置該參數。填寫Hive Keytab File檔案對應的Kerberos認證Principal名。例如`XXXX/hadoopclient@xxx.xxx`。
執行引擎	根據實際情況，選擇合適的執行引擎。各計算引擎所支援的執行引擎不同。支援情況如下： E-MapReduce 3.X：MapReduce、Spark。 E-MapReduce 5.X：MapReduce、Tez。 CDH 5.X：MapReduce。 CDH 6.X：MapReduce、Spark、Tez。 FusionInsight 8.X：MapReduce。亞信DP 5.3 Hadoop：MapReduce。 Cloudera Data Platform 7.x：Tez。說明設定了執行引擎後，元倉租戶的計算設定、計算源、任務等都使用設定的Hive執行引擎。重新初始化後，計算設定、計算源、任務等將被初始化為新設定的執行引擎。

中繼資料擷取方式

中繼資料擷取方式支援中繼資料庫和HMS（Hive Metastore Service）2種方式擷取中繼資料。不同擷取方式所配置資訊不同。詳情如下：

中繼資料庫方式擷取

參數	描述
資料庫類型	僅支援MySQL作為Hive的中繼資料庫類型。支援的MySQL版本包括：MySQL 5.1.43、MYSQL 5.6/5.7和MySQL 8。
JDBC URL	填寫目標資料庫JDBC的連結地址。例如：連結地址格式為`jdbc:mysql://host:port/dbname`。
使用者名稱、密碼	目標資料庫的使用者名稱和密碼。

HMS擷取方式
使用HMS方式擷取中繼資料庫，開啟Kerberos後，需上傳Keytab File檔案和填寫Principal。
參數
描述
Keytab File
Hive metastore的Kerberos認證的Keytab檔案。
Principal
Hive metastore的Kerberos認證的Principal。

當必填項資訊配置完成後，單擊串連測試，檢測與Dataphin是否連通。
串連測試通過後，單擊確定並開始初始化，並對許可權、元倉初始化配置進行校正。
許可權：校正本次操作人是否為元倉租戶的超級管理員或系統管理員使用者。
元倉初始化配置：校正元倉初始化配置是否已經成功。
校正通過後，開始初始化流程（建立計算源、專案、資料來源及初始化DDL語句），流程通過後，完成中繼資料中心初始化設定。

Dataphin：中繼資料中心設定