全部產品
Search
文件中心

Dataphin:建立Kudu資料來源

更新時間:May 29, 2025

通過建立Kudu資料來源能夠實現Dataphin讀取Kudu的業務資料或向Kudu寫入資料。本文為您介紹如何建立Kudu資料來源。

背景資訊

Kudu提供接近於關聯式資料庫管理系統(RDBMS)的功能和資料模型,提供類似於關係型資料庫的儲存結構來儲存資料,允許使用者以和關係型資料庫相同的方式插入、更新、刪除資料。Kudu僅僅是一個儲存層,並不儲存資料,因此需要依賴外部的Hadoop處理引擎(MapReduce,Spark,Impala)。Kudu將資料按照列儲存格式,儲存在底層Linux檔案系統中。

Kudu適用HTAP情境(例如物聯網),對於資料處理系統的複雜性提出了更高的要求。從早期的OLTP、OLAP拆分,到後來的Lambda架構,都存在資料複製和同步的複雜性,而Kudu的單一資料架構,規避了傳統架構資料複製和同步的複雜性。更多詳情請參見Kudu官網

許可權說明

僅支援具備建立資料來源許可權點的自訂全域角色和超級管理員資料來源管理員板塊架構師專案系統管理員角色建立資料來源。

操作步驟

  1. 在Dataphin首頁的頂部功能表列中,選擇管理中心 > 資料來源管理

  2. 資料來源頁面,單擊+建立資料來源

  3. 建立資料來源頁面的巨量資料儲存地區,選擇Kudu

    如果您最近使用過Kudu,也可以在最近使用地區選取項目Kudu。同時,您也可以在搜尋方塊中,輸入Kudu的關鍵詞,快速篩選。

  4. 建立Kudu資料來源頁面中,配置串連資料來源參數。

    1. 配置資料來源的基本資料。

      參數

      描述

      資料來源名稱

      命名規則如下:

      • 只能包含中文、英文字母大小寫、數字、底線(_)或短劃線(-)。

      • 長度不能超過64字元。

      資料來源編碼

      配置資料來源編碼後,您可以在Flink_SQL任務中通過資料來源編碼.表名稱資料來源編碼.schema.表名稱的格式引用資料來源中的表;如果需要根據所處環境自動訪問對應環境的資料來源,請通過${資料來源編碼}.table${資料來源編碼}.schema.table的變數格式訪問。更多資訊,請參見Dataphin資料來源表開發方式

      重要
      • 資料來源編碼配置成功後不支援修改。

      • 資料來源編碼配置成功後,才能在資產目錄和資產清單的對象詳情頁面進行資料預覽。

      • Flink SQL中,目前僅支援MySQL、Hologres、MaxCompute、Oracle、StarRocks、Hive、SelectDB資料來源。

      版本

      根據實際情況,選擇Kudu對應版本。版本支援:

      • CHD5:1.16

      • CHD6:1.16

      • CDP7.1.3:1.16

      資料來源描述

      對資料來源的簡單描述。不得超過128個字元。

      資料來源配置

      選擇需要配置的資料來源:

      • 如果業務資料來源區分生產資料來源和開發資料來源,則選擇生產+開發資料來源

      • 如果業務資料來源不區分生產資料來源和開發資料來源,則選擇生產資料來源

      標籤

      您可根據標籤給資料來源進行分類打標,如何建立標籤,請參見管理資料來源標籤

    2. 配置資料來源與Dataphin的串連參數。

      若您的資料來源配置選擇生產+開發資料來源,則需配置生產+開發資料來源的串連資訊。如果您的資料來源配置為生產資料來源,僅需配置生產資料來源的串連資訊。

      說明

      通常情況下,生產資料來源和開發資料來源需配置非同一個資料來源,以使開發資料來源與生產資料來源的環境隔離,降低開發資料來源對生產資料來源的影響。但Dataphin也支援配置成同一個資料來源,即相同參數值。

      參數

      描述

      串連地址

      輸入串連Kudu資料來源的串連地址。格式樣本為ip1:port1,ip2:port2

      Kerberos

      Kerberos是一種基於對稱金鑰技術的身份認證協議,可以為目標服務提供身份認證功能。

      • 如果Kudu設定Kerberos認證,則需要開啟Kerberos。開啟後需要配置以下參數:

        • krb5檔案配置KDC Server:上傳包含Kerberos認證網域名稱的Krb5檔案或配置KDC伺服器位址,輔助完成Kerberos認證。

          說明

          支援配置多個KDC Server服務地址,使用英文逗號(,)分隔。

        • Keytab File:上傳Kerberos認證的Keytab檔案。

        • Principal:配置Kerberos認證的Principal名。格式樣本為xxxx/hadoopclient@xxx.xxx

      • 如果Kudu沒有Kerberos認證,則不需要開啟Kerberos

      設定檔

      上傳Hadoop設定檔。

      說明

      僅當Kerberos選擇開啟時,支援上傳設定檔。

      表首碼

      輸入表首碼。當使用同一個Kudu服務時,通過表首碼可以有效進行生產和開發隔離。例如同一個kudu服務和Impala等多個儲存系統結合使用時,可以將Impala作為表的首碼,用來標識來來源資料為Impala,以便和其他儲存系統中的表區分。

  5. 選擇預設資源群組,該資源群組用於運行與當前資料來源相關任務,包括資料庫SQL、離線整庫遷移、資料預覽等。

  6. 進行測試連接或直接單擊確定進行儲存,完成Kudu資料來源的建立。

    單擊測試連接,系統將測試資料來源是否可以和Dataphin進行正常的連通。若直接單擊確定,系統將自動對所有已選中的叢集進行測試連接,但即使所選中的叢集均串連失敗,資料來源依然可以正常建立。