全部產品
Search
文件中心

Dataphin:建立Hudi資料來源

更新時間:May 29, 2025

通過建立Hudi資料來源能夠實現Dataphin讀取Hudi的業務資料或向Hudi寫入資料。本文為您介紹如何建立Hudi資料來源。

背景資訊

Hudi即Apache Hudi,Hudi是一個通用的巨量資料儲存系統,將核心倉庫和資料庫功能直接引入到資料庫中,並支援記錄層級的插入更新和刪除資料的能力。更多詳情請參見Apache Hudi官網

許可權說明

僅支援具備建立資料來源許可權點的自訂全域角色和超級管理員資料來源管理員板塊架構師專案系統管理員角色建立資料來源。

操作步驟

  1. 在Dataphin首頁,單擊頂部功能表列管理中心 > 資料來源管理

  2. 資料來源頁面,單擊+建立資料來源

  3. 建立資料來源頁面的巨量資料儲存地區,選擇Hudi

    如果您最近使用過Hudi,也可以在最近使用地區選取項目Hudi。同時,您也可以在搜尋方塊中,輸入Hudi的關鍵詞,快速搜尋。

  4. 建立Hudi資料來源頁面中,配置串連資料來源參數。

    1. 配置資料來源的基本資料。

      參數

      描述

      資料來源名稱

      命名規則如下:

      • 只能包含中文、英文字母大小寫、數字、底線(_)或短劃線(-)。

      • 長度不能超過64字元。

      資料來源編碼

      配置資料來源編碼後,您可以在Flink_SQL任務中通過資料來源編碼.表名稱資料來源編碼.schema.表名稱的格式引用資料來源中的表;如果需要根據所處環境自動訪問對應環境的資料來源,請通過${資料來源編碼}.table${資料來源編碼}.schema.table的變數格式訪問。更多資訊,請參見Dataphin資料來源表開發方式

      重要
      • 資料來源編碼配置成功後不支援修改。

      • 資料來源編碼配置成功後,才能在資產目錄和資產清單的對象詳情頁面進行資料預覽。

      • Flink SQL中,目前僅支援MySQL、Hologres、MaxCompute、Oracle、StarRocks、Hive、SelectDB資料來源。

      資料來源描述

      對資料來源的簡單描述。不得超過128個字元。

      資料來源配置

      選擇需要配置的資料來源:

      • 如果業務資料來源區分生產資料來源和開發資料來源,則選擇生產+開發資料來源

      • 如果業務資料來源不區分生產資料來源和開發資料來源,則選擇生產資料來源

    2. 配置資料來源與Datahpin的串連參數。

      若您的資料來源配置選擇生產+開發資料來源,則需配置生產+開發資料來源的串連資訊。如果您的資料來源配置為生產資料來源,僅需配置生產資料來源的串連資訊。

      說明

      通常情況下,生產資料來源和開發資料來源需配置非同一個資料來源,以使開發資料來源與生產資料來源的環境隔離,降低開發資料來源對生產資料來源的影響。但Dataphin也支援配置成同一個資料來源,即相同參數值。

      參數

      描述

      儲存配置

      支援HDFS或OSS儲存。

      儲存路徑

      • HDFS儲存:填寫HDFS儲存路徑,請確保flink使用者有訪問路徑的許可權。格式為:hdfs://host:port/path

      • OSS儲存:填寫OSS儲存路徑。填寫樣本:oss://dp-oss/hudi/

        若使用OSS儲存還需填寫OSS的Endpoint、AccessKeyID、AccessKeySecret。

        image

        • Endpoint:若使用阿里雲OSS,您可根據OSS的所在地區,選擇對應的網路類型進行填寫。詳情請參見查看公用雲下OSS Region和Endpoint對照表

        • AccessKeyIDAccessKeySecret:OSS所在帳號的AccessKey ID和AccessKey Secret。如何擷取,請參見擷取AccessKey

      中繼資料同步

      開啟後將會同步Hudi表的schema到Hive MetaStore中。

      • 若您使用HDFS儲存配置,開啟中繼資料同步後,還需配置以下資訊:

        image

        • 版本:支援CDH6:2.1.1、CDP7.1.3:3.1.300。

        • 同步模式:支援hms和jdbc。各同步模式需配置不同參數:

          • hms:Hive中繼資料庫的thrift地址、同步到Hive的資料庫名稱。

            重要

            如果選擇hms,則hive需開啟metastore server。

          • jdbc:Hive中繼資料庫的jdbc地址、Hive中繼資料庫的使用者名稱、Hive中繼資料庫的密碼、同步到Hive的資料庫名稱。

      • 若您使用OSS儲存配置,開啟中繼資料同步後,還需配置以下資訊:

        image

        • 同步模式:預設為hms,不支援修改。

        • 中繼資料目標庫:預設為DLF,不支援修改。

        • DLF服務的地區名:填寫DLF服務的地區網域名稱。詳情請參見DLF Region和Endpoint對照表

        • DLF服務的Endpoint:填寫DLF服務的Endpoint地址。詳情請參見DLF Region和Endpoint對照表

        • 同步到Hive的資料庫名稱:填寫同步到Hive的資料庫名稱。