全部產品
Search
文件中心

Dataphin:建立TDH Inceptor計算源

更新時間:Jan 25, 2025

TDH Inceptor計算源用於綁定Dataphin專案空間與TDH Inceptor,為Dataphin專案提供處理計算任務的計算源。如果Dataphin系統的計算引擎設定為TDH Inceptor,則只有專案空間添加了TDH Inceptor計算源,才支援規範建模、即席查詢、Hive任務、泛型指令碼等功能。本文為您介紹如何建立TDH Inceptor計算源。

前提條件

  • 以TDH Inceptor作為元倉,或元倉初始化中的中繼資料庫配置使用TDH Incepor作為中繼資料庫擷取方式時,需要具備以下條件:

    • 已在TDH Inceptor中建立dataphin_meta的專案。

    • 元倉初始化中TDH Inceptor配置的使用者,需具備dataphin_meta專案的寫入表及建立表的許可權。

    • 若元倉初始化中中繼資料庫配置使用TDH Incepor為中繼資料庫擷取方式,則Inceptor中繼資料配置中的使用者需要有dataphin_meta專案的寫入表及建立表的許可權。

      image

使用限制

  • 不支援自訂函數(UDF):由於添加同名JAR包用於UDF註冊,可能會導致Inceptor服務終止且無法重啟成功;添加非同名的JAR包,但包含相同的class檔案,可能導致UDF執行結果不可預測。因此在TDH Inceptor引擎下,Dataphin不允許註冊UDF。若需要添加UDF,您可以通過TDH Inceptor的用戶端進行添加,但需要注意:叢集的UDF名稱的唯一性及類名的一致性。

  • 通過MySQL中繼資料庫HMS擷取中繼資料資訊時,不支援擷取:

    • 資產全景、資料板塊、專案的資料量資訊。

    • 資產目錄中表資料量、分區資料量、分區記錄數。

    • 資源治理的儲存相關的指標資訊。

    • 元倉共用模型中dim_dataphin_table及dim_dataphin_partition的資料量和記錄數。

  • 通過TDH Inceptor System庫擷取中繼資料資訊時,不支援擷取:

    • 資產目錄的分區記錄數資訊。

    • 元倉共用模型中dim_dataphin_table及dim_dataphin_partition的記錄數。

  • TDH Inceptor引擎不支援設定任務的優先順序

    如果需要分配不同的資源給不同優先順序的任務,您可以給不同的優先順序隊列設定不同的使用者名稱。在Inceptor SQL任務上設定不同的優先順序後,Dataphin會將這些任務用對應的使用者提交到TDH Inceptor引擎中。需要注意的是這裡設定的使用者需要有Incetpor資源隊列的Submit許可權。關於如何設定Incetpor使用者權限及Inceptor資源調度,請參見Inceptor使用手冊

操作步驟

  1. 在Dataphin首頁的頂部功能表列中,選擇規劃 > 計算源

  2. 計算源頁面,單擊新增計算源,選擇TDH Inceptor計算源

  3. 建立TDH Inceptor計算源頁面,配置以下參數。

    1. 配置計算引擎源基本資料地區的參數。

      參數

      描述

      計算源類型

      選擇計算源類型為TDH Inceptor

      計算源名稱

      命名規則如下:

      • 只能包含中文、數字、英文字母大小寫、底線(_)和短劃線(-)。

      • 長度不能超過64個字元。

      計算源描述

      對計算源的簡單描述,不超過128個字元。

    2. 配置叢集基本資料地區的參數。

      參數

      描述

      nameNode

      預設為初始化系統時配置的NameNode參數值,不支援修改。

      設定檔

      上傳HDFS設定檔,包含core-site.xml、hdfs-site.xml、hive-site.xml、yarn-site.xml和其他設定檔。

      您可以聯絡星環營運人員或登入星環叢集營運介面後,依次選擇HDFS服務>更多操作>下載服務配置擷取設定檔。

      認證方式

      如果TDH Inceptor叢集有Kerberos認證,則此處認證方式需要選擇為Kerberos。Kerberos是一種基於對稱金鑰技術的身份認證協議,可以為其他服務提供身份認證功能,且支援SSO(即用戶端身份認證後,可以訪問多個服務,例如HBase和HDFS)。

      選擇了Kerberos認證後,需要上傳Krb5認證檔案或配置KDC Server地址:

      • Krb5認證檔案:需要上傳Krb5檔案進行Kerberos認證。

      • KDC Server地址:KDC伺服器位址,輔助完成Kerberos認證。支援配置多個KDC Server服務地址,使用半形逗號(,)分隔。

    3. 配置HDFS串連資訊地區參數。

      參數

      描述

      執行使用者名稱密碼

      登入計算執行機器使用者名稱和密碼,用於執行MapReduce任務、讀取寫入HDFS讀存等。

      重要

      請確保有提交MapReduce任務的許可權。

      認證方式

      您如果HDFS有Kerberos認證,則此處認證方式需要選擇為Kerberos。Kerberos是一種基於對稱金鑰技術的身份認證協議,可以為其他服務提供身份認證功能,且支援SSO(即用戶端身份認證後,可以訪問多個服務,例如HBase和HDFS)。

      • 選擇了Kerberos認證後,需要上傳Keytab File認證檔案及配置Principal地址:

        • Keytab File:需要上傳Keytab File檔案進行Kerberos認證。

        • Principal:對應的Kerberos認證使用者名稱。

      • 選擇了無認證後,需要配置訪問HDFS的使用者名稱。

    4. 配置Inceptor配置地區的參數。

      參數

      描述

      JDBC URL

      配置Hive Server的串連地址,格式為jdbc:hive2://{串連地址}:{連接埠}/{資料庫名稱}

      認證方式

      選擇Inceptor的認證檔案。您需要根據引擎情況進行選擇,支援選擇無認證LDAPKerberos

      • 無認證:即沒有認證。

      • LDAP:需要配置訪問的使用者名稱和密碼。

      • Kerberos:您需要上傳HDFS Kerberos認證的檔案及配置Hive Principal。

      開發環境任務的執行使用者

      配置開發環境的任務的執行使用者名稱。

      周期性調度的任務的執行使用者

      配置周期性調度任務的執行使用者名稱。

      優先順序任務隊列

      支援選擇採用預設執行使用者自訂兩種方式優先順序執行的使用者。

      選擇了自訂後,您需要配置不同優先順序執行任務的使用者名稱。

      說明

      優先順序隊列是通過在Hadoop叢集上建立不同的Yarn隊列來分配資源。對應不同的任務的優先順序,把相關的優先順序的任務發送到對應的Yarn的隊列來執行。

    5. 配置Inceptor中繼資料串連資訊地區的參數。

      參數

      描述

      中繼資料擷取方式

      支援中繼資料庫HMS兩種中繼資料擷取方式。擷取方式不同,所需配置資訊不同。

      • 中繼資料庫擷取方式需配置:資料庫類型資料庫版本(僅資料庫類型選擇為MySQL時配置)、JDBC URL認證方式使用者名稱密碼(僅資料庫類型選擇為MySQL時配置)。

      • HMS擷取方式需配置:認證方式

      說明
      • 若選擇中繼資料庫擷取方式,請先上傳core-site.xmlhdfs-site.xml設定檔。

      • 若選擇HMS擷取方式,請先上傳core-site.xmlhdfs-site.xmlhive-site.xml設定檔。

      資料庫類型

      可選擇InceptorMySQL

      若選擇MySQL,則還需選擇資料庫版本,可選版本包含MySQL 5.6/5.7MySQL 8MySQL 5.1.43

      JDBC URL

      填寫對應中繼資料庫的串連地址。

      若資料庫類型選擇為MySQL,格式為jdbc:mysql://<串連地址>:<連接埠>/<資料庫名稱>;若資料庫類型選擇為Inceptor,格式為jdbc:postgresql://<串連地址>:<連接埠>/<資料庫名稱>

      認證方式

      可選擇無認證LDAP

      使用者名稱密碼

      填寫登入中繼資料庫的使用者名稱和密碼。

  4. 單擊測試連接,測試連接計算源。

  5. 測試連接成功後,單擊提交

後續步驟

完成建立TDH Inceptor計算源後,即可為專案綁定TDH Inceptor計算源,請參見建立通用專案