Dataphin支援使用ArgoDB作為Dataphin的離線計算引擎,為Dataphin專案提供處理離線計算任務的能力。本文為您介紹如何建立ArgoDB計算源。
前提條件
已完成TDH Inceptor元倉計算引擎的初始化並將計算引擎設定為TDH Inceptor,詳情請參見使用星環TDH作為元倉計算引擎進行元倉初始化、設定Dataphin執行個體的計算引擎為TDH或ArgoDB。
僅TDH Inceptor元倉計算引擎支援建立ArgoDB計算源,其他元倉計算引擎不支援建立ArgoDB計算源。
背景資訊
ArgoDB是星環自主研發的分布式AnalyticDB,可替代Hadoop + MPP的混合架構。能夠使用標準的SQL文法進行業務的建設,並且能夠給使用者提供多模型資料分析、即時資料處理、儲存與計算模組解耦、異構伺服器混合部署等先進技術能力。更多詳情,請參見ArgoDB官網。
使用限制
當選擇MySQL中繼資料庫、ArgoDB System庫或HMS方式擷取中繼資料時,擷取到的中繼資料資訊可能存在部分資訊無法擷取或擷取的資訊不準確,具體如下。
中繼資料擷取方式選擇為MySQL中繼資料庫或HMS時:
資產全景、資料板塊、專案的資料量無法擷取。
資產目錄中表資料量、分區資料量、分區記錄數無法擷取。
資源治理的儲存相關的指標資訊不準確。
元倉共用模型中dim_dataphin_table和dim_dataphin_partition的資料量和記錄數無法擷取。
中繼資料擷取方式選擇為ArgoDB System庫時:
資產目錄的分區記錄數資訊無法擷取。
資產目錄中holodesk表資料量、分區資料量無法擷取。
元倉共用模型中dim_dataphin_table和dim_dataphin_partition的記錄數、holodesk格式的表資料量無法擷取。
當HDFS串連資訊的認證方式選擇為非Kerberos認證、ArgoDB配置的認證方式選擇為非LDAP認證時,可能會發生未知問題,開啟前請聯絡Dataphin營運部署團隊進行確認。
其他使用限制,具體如下。
當使用ArgoDB為計算引擎時,Dataphin不支援表管理。
脫敏演算法不支援加鹽雜湊演算法(包括加鹽SHA256、加鹽SHA384、加鹽SHA512、加鹽MD5)和高斯噪音脫敏演算法(GaussianNoise)。
不支援Oracle、IBM DB2、Teradata等方言(Dialect),也不支援Oracle和DB2的預存程序。在SQL執行時可能會報錯。
定界分割表僅支援DQL語句及少量DDL和DML語句。
操作步驟
在Dataphin首頁,單擊規劃。
在左側導覽列,選擇專案 > 計算源。
在計算源頁面單擊+新增計算源,在下拉式清單中單擊ArgoDB計算源。

在建立計算源頁面,配置相關參數。
a. 配置計算引擎源基本資料。
參數
描述
計算源類型
選擇計算源類型為ArgoDB。
計算源名稱
命名規則如下:
只能包含中文、數字、英文字母大小寫、底線(_)和短劃線(-)。
長度不能超過64個字元。
計算源描述
對計算源的簡單描述。
b. 配置叢集基本資料。
參數
描述
namenode
預設為計算設定配置的NameNode參數值,不支援修改。
core-site.xml、hdfs-site.xml、hive-site.xml、其他設定檔
上傳HDFS設定檔core-site.xml和hdfs-site.xml及hive的hive-site.xml檔案。
若存在其他設定檔,您可在其他設定檔處進行上傳。
認證方式
如果ARGODB叢集有Kerberos認證,則此處認證方式需要選擇為Kerberos。Kerberos是一種基於對稱金鑰技術的身份認證協議,可以為其他服務提供身份認證功能,且支援SSO(即用戶端身份認證後,可以訪問多個服務,例如HBase和HDFS)。
選擇了Kerberos認證後,需要上傳Krb5認證檔案或配置KDC Server地址:

Krb5檔案配置:需要上傳Krb5檔案進行Kerberos認證。
KDC Server地址:KDC伺服器位址,輔助完成Kerberos認證。支援配置多個KDC Server服務地址,使用英文分號(,)分割。
c. 配置HDFS串連資訊地區參數。
參數
描述
執行使用者名稱、密碼
登入計算執行機器使用者名稱和密碼,用於執行MapReduce任務、讀取寫入HDFS讀存等。
重要請確保有提交MapReduce任務的許可權。
認證方式
您如果HDFS有Kerberos認證,則此處認證方式需要選擇為Kerberos。Kerberos是一種基於對稱金鑰技術的身份認證協議,可以為其他服務提供身份認證功能,且支援SSO(即用戶端身份認證後,可以訪問多個服務,例如HBase和HDFS)。
選擇了Kerberos認證後,需要上傳Keytab File認證檔案及配置Principal地址:

Keytab File:需要上傳Keytab File檔案進行Kerberos認證。
Principal:對應的Kerberos認證使用者名稱。
選擇了無認證後,需要配置訪問HDFS的使用者名稱。

d. 配置ArgoDB配置地區的參數。
參數
描述
JDBC URL
配置Hive Server的JDBC串連地址,格式為
jdbc:hive2://InceptorServerIP:Port/Database。認證方式
選擇ArgoDB的認證檔案。您需要根據引擎情況進行選擇,支援選擇無認證、LDAP、Kerberos:
無認證:即沒有認證。
LDAP:需要配置訪問的使用者名稱和密碼。
Kerberos:您需要上傳Kerberos認證的檔案及配置Principal。
開發環境任務的執行使用者
根據認證方式配置開發環境的任務的執行使用者名稱、密碼或上傳Kerberos認證的檔案及配置Principal。
周期性調度的任務的執行使用者
根據認證方式周期性調度任務的執行使用者名稱、密碼或上傳Kerberos認證的檔案及配置Principal。
優先順序任務隊列
支援選擇採用預設執行使用者和自訂兩種方式優先順序執行的使用者。
選擇了自訂後,您需要配置不同優先順序執行任務的使用者名稱。
說明優先順序隊列是通過在Hadoop叢集上建立不同的Yarn隊列來分配資源。對應不同的任務的優先順序,把相關的優先順序的任務發送到對應的Yarn的隊列來執行。
e. ArgoDB中繼資料串連資訊。
參數
描述
中繼資料擷取方式
支援從中繼資料庫擷取和HMS擷取方式。使用HMS請先在設定檔中上傳hdfs-site.xml、hive-site.xml、core-site.xml檔案及配置認證方式。

資料庫類型
選擇ArgoDB的中繼資料庫類型。系統目前支援ArgoDB。
JDBC URL
填寫對應中繼資料庫的串連地址,格式為
jdbc:postgresql://<host>:<port>/<database name>。使用者名稱、密碼
填寫登入中繼資料庫的使用者名稱和密碼。
說明為保證任務正常執行,請確保填寫的使用者有所需資料許可權。
單擊測試連接。
串連測試通過後,單擊提交。
後續步驟
完成建立ArgoDB計算源後,即可為專案綁定ArgoDB計算源。具體操作,請參見建立通用專案。