全部產品
Search
文件中心

Dataphin:中繼資料中心設定

更新時間:Jan 25, 2025

所有租戶的中繼資料採集任務將統一在元倉租戶中運行,在使用中繼資料中心功能前,您需要先在元倉租戶中完成中繼資料中心的初始化設定,指定中繼資料採集任務運行時計算源資訊。本文為您介紹如何進行中繼資料中心設定。

使用限制

  • 中繼資料中心設定的計算引擎類型需和元倉設定的引擎類型一致。

  • MaxCompute、E-MapReduce5.x Hadoop、E-MapReduce3.x HadoopCDH5.x Hadoop、CDH6.x Hadoop、Cloudera Data Platform 7.x、華為 FusionInsight 8.x Hadoop、亞信DP5.3 Hadoop計算引擎支援使用中繼資料中心功能。

  • 完成中繼資料中心初始化配置後,不支援重新初始化。

許可權說明

支援元倉租戶的超級管理員或系統管理員進行中繼資料中心初始化配置。

名詞解釋

  • 中繼資料:是關於資料的資料,包括技術、業務、管理中繼資料。它描述了資料的特性、來源、格式和關係等資訊,以便於資料的檢索、使用和維護。

  • 中繼資料中心:負責從各業務系統中抽取、加工、集中儲存和管理中繼資料,以支援資料治理,並加強組織內部資料的組織、檢索和分析能力。

中繼資料中心初始化配置

  1. 使用元倉租戶的超級管理員或系統管理員帳號,登入元倉租戶。

  2. 在Dataphin首頁,選擇頂部功能表列的管理中心 > 系統設定

  3. 單擊左側導覽列系統營運下的中繼資料中心設定,進入中繼資料中心初始化配置頁面。

  4. 您需根據元倉設定的計算引擎選擇中繼資料中心初始化的計算源類型,支援MaxCompute和Hadoop下的計算引擎。

    MaxCompute

    參數

    描述

    計算源類型

    選擇MaxCompute計算引擎。

    Endpoint

    配置Dataphin執行個體所在MaxCompute地區的Endpoint。不同地區和不同網路類型的MaxCompute的Endpoint詳情請參見MaxCompute Endpoint

    Project Name

    此處為MaxCompute專案名稱,非DataWorks工作空間名稱。

    您可以登入MaxCompute控制台,左上方切換地區後,即可在專案管理頁簽查看到具體的MaxCompute專案名。image

    AccessKey IDAccess Key Secret

    填寫可以訪問MaxCompute專案的帳號的AccessKey ID和AccessKey Secret。

    您可在使用者資訊管理頁面,擷取帳號的AccessKey ID和AccessKey Secret。

    image

    • 為了保證Dataphin專案空間與MaxCompute專案正常串連,建議填寫MaxCompute專案系統管理員的AccessKey。

    • 為了保證中繼資料正常採集,請盡量不修改MaxCompute專案的AccessKey。

    Hadoop

    • 計算源類型

      • HDFS叢集儲存:支援選擇E-MapReduce5.x HadoopE-MapReduce3.x HadoopCDH5.x HadoopCDH6.x HadoopCloudera Data Platform 7.x華為 FusionInsight 8.x Hadoop亞信DP5.3 Hadoop計算引擎。

      • OSS-HDFS叢集儲存:僅支援E-MapReduce5.x Hadoop計算引擎。

    • 叢集配置

      HDFS叢集儲存

      參數

      描述

      NameNode

      NameNode用於管理HDFS中的檔案系統名稱空間及外部客戶端的存取權限。

      1. 單擊新增

      2. 新增NameNode對話方塊,填寫NameNode的Hostname名稱以及連接埠號碼,單擊確定

        填寫後自動產生對應的格式,例如host=hostname,webUiPort=50070,ipcPort=8020

      設定檔

      • 上傳叢集設定檔,用於配置叢集參數。系統支援上傳core-site.xml、hdfs-site.xml等叢集設定檔。

      • 若需使用HMS方式擷取中繼資料,設定檔中必需上傳hdfs-site.xml、hive-site.xml、core-site xmI 、hivemetastore-site.xml檔案。若計算引擎類型為FusionInsight 8.X和E-MapReduce5.x Hadoop,還需上傳hivemetastore-site.xml檔案。

      History Log

      配置叢集的日誌路徑。例如tmp/hadoop-yarn/staging/history/done

      認證方式

      支援無認證Kerberos認證方式。Kerberos是一種基於對稱金鑰技術的身份認證協議,常用於叢集各組件間的認證。開啟Kerberos能夠提升叢集的安全性。

      如果您選擇開啟Kerberos認證,需配置以下參數:

      image

      • Kerberos配置方式

        • KDC Server:需輸入KDC統一服務地址,輔助完成Kerberos認證。

        • krb5檔案配置:需要上傳Krb5檔案進行Kerberos認證。

      • HDFS配置

        • HDFS Keytab File:需上傳HDFS Keytab檔案。

        • HDFS Principal:輸入Kerberos認證的Principal名。例如XXXX/hadoopclient@xxx.xxx

      OSS-HDFS叢集儲存

      參數

      描述

      叢集儲存

      可以通過以下方式查看叢集儲存類型。

      • 未建立叢集:可以通過E-MapReduce5.x Hadoop叢集建立頁面查看所建立的叢集儲存類型。如下圖所示:

        image.png

      • 已建立叢集:可以通過E-MapReduce5.x Hadoop叢集的詳情頁查看所建立的叢集儲存類型。如下圖所示:

        image

      叢集儲存根目錄

      填寫叢集儲存根目錄。可以通過查看E-MapReduce5.x Hadoop叢集資訊進行擷取。如下圖所示:

      image

      重要

      若填寫的路徑中包括Endpoint,則Dataphin預設使用該Endpoint;若不包含,則使用core-site.xml中配置的Bucket層級的Endpoint;若未配置Bucket層級的Endpoint,則使用core-site.xml中的全域Endpoint。更多資訊請參見阿里雲OSS-HDFS服務(JindoFS 服務)Endpoint配置

      設定檔

      上傳叢集設定檔,用於配置叢集參數。系統支援上傳core-site.xml、hive-site.xml等叢集設定檔。若需使用HMS方式擷取中繼資料,設定檔中必須上傳hive-site.xml、core-site.xml、hivemetastore-site.xml檔案。

      History Log

      配置叢集的日誌路徑。例如tmp/hadoop-yarn/staging/history/done

      AccessKey IDAccessKey Secret

      填寫訪問叢集OSS的AccessKey ID和AccessKey Secret。查看AccessKey,請參見查看AccessKey

      重要

      此處填寫的配置優先順序高於core-site.xml中配置的AccessKey。

      認證方式

      支援無認證Kerberos認證方式。Kerberos是一種基於對稱金鑰技術的身份認證協議,常用於叢集各組件間的認證。開啟Kerberos能夠提升叢集的安全性。如果您選擇開啟Kerberos認證,需要上傳Krb5檔案進行Kerberos認證。

    • Hive配置

      參數

      描述

      JDBC URL

      填寫連結Hive的JDBC URL。

      認證方式

      當叢集認證選擇無認證時,Hive的認證方式支援選擇無認證LDAP

      當叢集認證選擇Kerberos時,Hive的認證方式支援選擇無認證LDAPKerberos

      說明

      當計算引擎為E-MapReduce3.x、E-MapReduce5.x、Cloudera Data Platform 7.x、亞信DP5.3、華為 FusionInsight 8.X,支援配置認證方式。

      使用者名稱密碼

      訪問Hive的使用者名稱和密碼。

      • 無認證方式:需填寫使用者名稱;

      • LDAP認證方式:需填寫使用者名稱和密碼。

      • Kerberos認證方式:無需填寫。

      Hive Keytab File

      開啟Kerberos認證後需配置該參數。

      上傳keytab檔案,您可以在Hive Server上擷取keytab檔案。

      Hive Principal

      開啟Kerberos認證後需配置該參數。

      填寫Hive Keytab File檔案對應的Kerberos認證Principal名。例如XXXX/hadoopclient@xxx.xxx

      執行引擎

      根據實際情況,選擇合適的執行引擎。各計算引擎所支援的執行引擎不同。支援情況如下:

      • E-MapReduce 3.X:MapReduce、Spark。

      • E-MapReduce 5.X:MapReduce、Tez。

      • CDH 5.X:MapReduce。

      • CDH 6.X:MapReduce、Spark、Tez。

      • FusionInsight 8.X:MapReduce。

      • 亞信DP 5.3 Hadoop:MapReduce。

      • Cloudera Data Platform 7.x:Tez。

      說明

      設定了執行引擎後,元倉租戶的計算設定、計算源、任務等都使用設定的Hive執行引擎。重新初始化後,計算設定、計算源、任務等將被初始化為新設定的執行引擎。

    • 中繼資料擷取方式

      中繼資料擷取方式支援中繼資料庫HMS(Hive Metastore Service)2種方式擷取中繼資料。不同擷取方式所配置資訊不同。詳情如下:

      • 中繼資料庫方式擷取

        參數

        描述

        資料庫類型

        僅支援MySQL作為Hive的中繼資料庫類型。

        支援的MySQL版本包括:MySQL 5.1.43MYSQL 5.6/5.7MySQL 8

        JDBC URL

        填寫目標資料庫JDBC的連結地址。例如:連結地址格式為jdbc:mysql://host:port/dbname

        使用者名稱密碼

        目標資料庫的使用者名稱和密碼。

      • HMS擷取方式

        使用HMS方式擷取中繼資料庫,開啟Kerberos後,需上傳Keytab File檔案和填寫Principal。

        參數

        描述

        Keytab File

        Hive metastore的Kerberos認證的Keytab檔案。

        Principal

        Hive metastore的Kerberos認證的Principal。

  5. 當必填項資訊配置完成後,單擊串連測試,檢測與Dataphin是否連通。

  6. 串連測試通過後,單擊確定並開始初始化,並對許可權、元倉初始化配置進行校正。

    許可權:校正本次操作人是否為元倉租戶的超級管理員或系統管理員使用者。

    元倉初始化配置:校正元倉初始化配置是否已經成功。

  7. 校正通過後,開始初始化流程(建立計算源、專案、資料來源及初始化DDL語句),流程通過後,完成中繼資料中心初始化設定。

相關文檔

中繼資料中心初始化設定完成後,您可以將資料庫中的中繼資料採集至Dataphin,進行分析、管理。詳情請參見建立及管理中繼資料採集任務