通過建立Hudi資料來源能夠實現Dataphin讀取Hudi的業務資料或向Hudi寫入資料。本文為您介紹如何建立Hudi資料來源。
背景資訊
Hudi即Apache Hudi,Hudi是一個通用的巨量資料儲存系統,將核心倉庫和資料庫功能直接引入到資料庫中,並支援記錄層級的插入更新和刪除資料的能力。更多詳情請參見Apache Hudi官網。
許可權說明
僅支援具備建立資料來源許可權點的自訂全域角色和超級管理員、資料來源管理員、板塊架構師、專案系統管理員角色建立資料來源。
操作步驟
在Dataphin首頁,單擊頂部功能表列管理中心 > 資料來源管理。
在資料來源頁面,單擊+建立資料來源。
在建立資料來源頁面的巨量資料儲存地區,選擇Hudi。
如果您最近使用過Hudi,也可以在最近使用地區選取項目Hudi。同時,您也可以在搜尋方塊中,輸入Hudi的關鍵詞,快速搜尋。
在建立Hudi資料來源頁面中,配置串連資料來源參數。
配置資料來源的基本資料。
參數
描述
資料來源名稱
命名規則如下:
只能包含中文、英文字母大小寫、數字、底線(_)或短劃線(-)。
長度不能超過64字元。
資料來源編碼
配置資料來源編碼後,您可以在Flink_SQL任務中通過
資料來源編碼.表名稱或資料來源編碼.schema.表名稱的格式引用資料來源中的表;如果需要根據所處環境自動訪問對應環境的資料來源,請通過${資料來源編碼}.table或${資料來源編碼}.schema.table的變數格式訪問。更多資訊,請參見Dataphin資料來源表開發方式。重要資料來源編碼配置成功後不支援修改。
資料來源編碼配置成功後,才能在資產目錄和資產清單的對象詳情頁面進行資料預覽。
Flink SQL中,目前僅支援MySQL、Hologres、MaxCompute、Oracle、StarRocks、Hive、SelectDB資料來源。
資料來源描述
對資料來源的簡單描述。不得超過128個字元。
資料來源配置
選擇需要配置的資料來源:
如果業務資料來源區分生產資料來源和開發資料來源,則選擇生產+開發資料來源。
如果業務資料來源不區分生產資料來源和開發資料來源,則選擇生產資料來源。
配置資料來源與Datahpin的串連參數。
若您的資料來源配置選擇生產+開發資料來源,則需配置生產+開發資料來源的串連資訊。如果您的資料來源配置為生產資料來源,僅需配置生產資料來源的串連資訊。
說明通常情況下,生產資料來源和開發資料來源需配置非同一個資料來源,以使開發資料來源與生產資料來源的環境隔離,降低開發資料來源對生產資料來源的影響。但Dataphin也支援配置成同一個資料來源,即相同參數值。
參數
描述
儲存配置
支援HDFS或OSS儲存。
儲存路徑
HDFS儲存:填寫HDFS儲存路徑,請確保flink使用者有訪問路徑的許可權。格式為:
hdfs://host:port/path。OSS儲存:填寫OSS儲存路徑。填寫樣本:
oss://dp-oss/hudi/。若使用OSS儲存還需填寫OSS的Endpoint、AccessKeyID、AccessKeySecret。

Endpoint:若使用阿里雲OSS,您可根據OSS的所在地區,選擇對應的網路類型進行填寫。詳情請參見查看公用雲下OSS Region和Endpoint對照表。
AccessKeyID、AccessKeySecret:OSS所在帳號的AccessKey ID和AccessKey Secret。如何擷取,請參見擷取AccessKey。
中繼資料同步
開啟後將會同步Hudi表的schema到Hive MetaStore中。
若您使用HDFS儲存配置,開啟中繼資料同步後,還需配置以下資訊:

版本:支援CDH6:2.1.1、CDP7.1.3:3.1.300。
同步模式:支援hms和jdbc。各同步模式需配置不同參數:
hms:Hive中繼資料庫的thrift地址、同步到Hive的資料庫名稱。
重要如果選擇hms,則hive需開啟metastore server。
jdbc:Hive中繼資料庫的jdbc地址、Hive中繼資料庫的使用者名稱、Hive中繼資料庫的密碼、同步到Hive的資料庫名稱。
若您使用OSS儲存配置,開啟中繼資料同步後,還需配置以下資訊:

同步模式:預設為hms,不支援修改。
中繼資料目標庫:預設為DLF,不支援修改。
DLF服務的地區名:填寫DLF服務的地區網域名稱。詳情請參見DLF Region和Endpoint對照表。
DLF服務的Endpoint:填寫DLF服務的Endpoint地址。詳情請參見DLF Region和Endpoint對照表。
同步到Hive的資料庫名稱:填寫同步到Hive的資料庫名稱。