通過建立Paimon資料來源能夠實現Dataphin讀取Paimon的業務資料或向Paimon寫入資料。本文為您介紹如何建立Paimon資料來源。
許可權說明
僅支援具備建立資料來源許可權點的自訂全域角色和超級管理員、資料來源管理員、板塊架構師、專案系統管理員角色建立資料來源。
使用限制
Paimon資料來源不支援以資料來源編碼和計算源物理表的形式訪問。
僅支援HDFS儲存。
操作步驟
在Dataphin首頁,單擊頂部功能表列管理中心 > 資料來源管理。
在資料來源頁面,單擊+建立資料來源。
在建立資料來源頁面的巨量資料儲存地區,選擇Paimon。
如果您最近使用過Paimon,也可以在最近使用地區選取項目Paimon。同時,您也可以在搜尋方塊中,輸入Paimon的關鍵詞,快速搜尋。
在建立Paimon資料來源頁面中,配置資料來源的基本資料。
參數
描述
資料來源名稱
命名規則如下:
只能包含中文、英文字母大小寫、數字、底線(_)或短劃線(-)。
長度不能超過64字元。
資料來源編碼
配置資料來源編碼後,您可以在Flink_SQL任務中通過
資料來源編碼.表名稱或資料來源編碼.schema.表名稱的格式引用資料來源中的表;如果需要根據所處環境自動訪問對應環境的資料來源,請通過${資料來源編碼}.table或${資料來源編碼}.schema.table的變數格式訪問。更多資訊,請參見Dataphin資料來源表開發方式。重要資料來源編碼配置成功後不支援修改。
資料來源編碼配置成功後,才能在資產目錄和資產清單的對象詳情頁面進行資料預覽。
Flink SQL中,目前僅支援MySQL、Hologres、MaxCompute、Oracle、StarRocks、Hive、SelectDB資料來源。
版本
選擇Paimon資料來源的來源版本,支援Aliyun EMR3.x Hive 2.3.5、Aliyun EMR5.x Hive 3.1.x、CDH6.x Hive 2.1.1、CDP7.x Hive 3.1.3、亞信DP5.x Hive 3.1.0。
資料來源描述
對資料來源的簡單描述。不得超過128個字元。
資料來源配置
選擇需要配置的資料來源:
如果資料來源區分生產資料來源和開發資料來源,則選擇生產+開發資料來源。
如果資料來源不區分生產資料來源和開發資料來源,則選擇生產資料來源。
標籤
您可根據標籤給資料來源進行分類打標,如何建立標籤,請參見管理資料來源標籤。
配置資料來源與Dataphin的串連參數。
若您的資料來源配置選擇生產+開發資料來源,則需配置生產+開發資料來源的串連資訊。如果您的資料來源配置為生產資料來源,僅需配置生產資料來源的串連資訊。
說明通常情況下,生產資料來源和開發資料來源需配置為非同一個資料來源,以實現開發資料來源與生產資料來源的環境隔離,降低開發資料來源對生產資料來源的影響。但Dataphin也支援配置成同一個資料來源,即相同參數值。
參數
描述
Catalog配置
Catalog類型
僅支援Hive, 不支援修改。
Warehouse
填寫Paimon表的儲存根路徑。
建議填寫
core-site.xml中fs.defaultFS參數值和hive-site.xml中hive.metastore.warehouse.dir參數值。說明不支援Object Storage Service。
Hive Thrift Uri
填寫hive-site.xml中hive.metastore.uris的參數值。
中繼資料配置
中繼資料擷取方式
支援中繼資料庫和HMS方式。
中繼資料庫方式
資料庫類型:僅支援MySQL資料庫類型,支援的版本包括MySQL5.1.43、MySQL5.6/5.7、MySQL8。
JDBC URL:填寫中繼資料庫的JDBC URL地址。串連格式
jdbc:mysql://host:port/dbname。使用者名稱、密碼:填寫訪問中繼資料庫的使用者名稱和密碼。
HMS方式
認證方式:支援無認證、LDAP、Kerberos方式。
說明使用Kerberos方式,需在叢集配置中開啟Kerberos選項。
hive-site.xml:上傳
hive-site.xml設定檔。若開啟即時,則即時研發中也將複用該設定檔。Keytab File:Kerberos方式需上傳Keytab File檔案。
Principal:Kerberos方式需填寫Principal參數。
叢集配置
NameNode
填寫叢集的NameNode地址。
若需要添加多個NameNode,單擊+新增進行添加。
設定檔
上傳叢集的hdfs-site.xml和core-site.xml設定檔。
Kerberos
通過Kerberos訪問叢集需開啟該配置項並配置以下資訊。
Kerberos配置方式:選擇叢集的KDC Server配置方式,支援KDC Server和krb5檔案配置。
KDC Server:KDC Server配置方式需要填寫KDC Server的地址。支援配置多個配置項,各配置項之間使用英文分號(;)分隔。
krb5檔案配置:krb5檔案配置方式,需要上傳krb5檔案設定檔。
HDFS配置:填寫叢集的HDFS配置資訊。
HDFS Keytab File:上傳叢集的HDFS Keytab File設定檔。
HDFS Principal:填寫叢集Kerberos認證的Principal名,例如
XXXX/hadoopclient@xxx.xxx。
Hive配置
JDBC URL
填寫Hive的JDBC URL地址。串連格式
jdbc:hive2://host:port/dbname。使用者名稱、密碼
非Kerberos方式訪問叢集,需填寫Hive的鑒權使用者名稱和密碼。
說明為保證任務正常執行,請確保填寫的用具備所需的資料許可權。
Hive Keytab File
Kerberos方式訪問叢集,需上傳Hive的Hive Keytab File設定檔。
Hive Principal
Kerberos方式訪問叢集,需填寫Kerberos認證Principal名,如
XXXX/hadoopclient@xxx.xxx。設定檔
上傳Hive的hive-site.xml設定檔。
重要Flink SQL任務將忽略整合中的認證資訊,而使用Flink引擎的認證資訊訪問Hive資料來源。
選擇預設資源群組,該資源群組用於運行與當前資料來源相關任務,包括資料庫SQL、離線整庫遷移、資料預覽等。
進行測試連接或直接單擊確定進行儲存,完成Paimon資料來源的建立。
單擊測試連接,系統將測試資料來源是否可以和Dataphin進行正常的連通。若直接單擊確定,系統將自動對所有已選中的叢集進行測試連接,但即使所選中的叢集均串連失敗,資料來源依然可以正常建立。