全部產品
Search
文件中心

Dataphin:建立Impala資料來源

更新時間:Feb 13, 2026

通過建立Impala資料來源能夠實現Dataphin讀取Impala的業務資料或向Impala寫入資料。本文為您介紹如何建立Impala資料來源。

背景資訊

Impala是用於處理儲存在Hadoop叢集中大量資料的SQL查詢引擎。如果您使用的是Impala,在匯出Dataphin資料至Impala,您需要先完成Impala資料來源的建立。更多Impala資訊,請參見Impala官網

許可權管理

僅支援具備建立資料來源許可權點的自訂全域角色和超級管理員資料來源管理員板塊架構師專案系統管理員角色建立資料來源。

使用限制

Dataphin的Impala資料來源的Data Integration使用JDBC的方式進行整合,因此效能相較於Hive較差,若您整合的表為非Kudu表,您可使用Hive資料來源及輸入輸出組件整合。

僅當串連E-MapReduce 5.x版本的Impala資料來源時,才支援使用DLF擷取中繼資料。

操作步驟

  1. 在Dataphin首頁,單擊頂部功能表列管理中心 > 資料來源管理

  2. 資料來源頁面,單擊+建立資料來源

  3. 建立資料來源頁面的巨量資料儲存地區,選擇Impala

    如果您最近使用過Impala,也可以在最近使用地區選取項目Impala。同時,您也可以在搜尋方塊中,輸入Impala的關鍵詞,快速篩選。

  4. 建立Impala資料來源頁面中,配置串連資料來源參數。

    1. 配置資料來源的基本資料。

      參數

      描述

      資料來源名稱

      命名規則如下:

      • 只能包含中文、英文字母大小寫、數字、底線(_)或短劃線(-)。

      • 長度不能超過64字元。

      資料來源編碼

      配置資料來源編碼後,您可以在Flink_SQL任務中通過資料來源編碼.表名稱資料來源編碼.schema.表名稱的格式引用資料來源中的表;如果需要根據所處環境自動訪問對應環境的資料來源,請通過${資料來源編碼}.table${資料來源編碼}.schema.table的變數格式訪問。更多資訊,請參見Dataphin資料來源表開發方式

      重要
      • 資料來源編碼配置成功後不支援修改。

      • 資料來源編碼配置成功後,才能在資產目錄和資產清單的對象詳情頁面進行資料預覽。

      • Flink SQL中,目前僅支援MySQL、Hologres、MaxCompute、Oracle、StarRocks、Hive、SelectDB、GaussDB(DWS)資料來源。

      版本

      選擇Impala資料來源版本。版本支援:

      • CDH5:2.11.0

      • CDH6:3.2.0

      • CDP7.1.3:3.4.0

      • E-MapReduce 3.x: 3.4.0

      • E-MapReduce 5.x: 3.4.0

      • E-MapReduce 5.x: 4.2.0

      資料來源描述

      對資料來源的簡單描述。不得超過128個字元。

      資料來源配置

      選擇需要配置的資料來源:

      • 如果業務資料來源區分生產資料來源和開發資料來源,則選擇生產+開發資料來源

      • 如果業務資料來源不區分生產資料來源和開發資料來源,則選擇生產資料來源

      標籤

      您可根據標籤給資料來源進行分類打標,如何建立標籤,請參見管理資料來源標籤

    2. 配置資料來源與Dataphin的串連參數。

      若您的資料來源配置選擇生產+開發資料來源,則需配置生產+開發資料來源的串連資訊。如果您的資料來源配置為生產資料來源,僅需配置生產資料來源的串連資訊。

      說明

      通常情況下,生產資料來源和開發資料來源需配置非同一個資料來源,以使開發資料來源與生產資料來源的環境隔離,降低開發資料來源對生產資料來源的影響。但Dataphin也支援配置成同一個資料來源,即相同參數值。

      參數

      描述

      JDBC URL

      串連地址的格式為jdbc:impala//host:port/dbname。例如,jdbc:impala//192.168.*.1:5433/dataphin

      Kerberos

      Kerberos是一種基於對稱金鑰技術的身份認證協議:

      • Hadoop叢集有Kerberos認證,則需要開啟Kerberos

      • Hadoop叢集沒有Kerberos認證,則無需開啟Kerberos

      Krb5檔案/KDC ServerKeytab FilePrincipal

      開啟Kerberos後,需要配置參數如下:

      • Krb5檔案/KDC Server:需要上傳包含Kerberos認證網域名稱的Krb5檔案、配置KDC伺服器位址,輔助完成Kerberos認證。

        說明

        支援配置多個KDC Server服務地址,使用英文逗號,分割。

      • Keytab File:上傳登入Krb5檔案網域名稱或KDC伺服器位址的帳號和密碼的檔案。

      • Principal:配置Keytab File檔案對應的Kerberos認證使用者名稱。

      使用者名稱密碼

      如果您沒有開啟Kerberos,則需要配置訪問Impala執行個體的使用者名稱和密碼。

    3. 配置資料來源中繼資料庫參數。

      中繼資料擷取方式:支援中繼資料庫HMSDLF三種來源資料擷取方式。擷取方式不同,所需配置資訊不同。

      • 中繼資料庫擷取方式

        參數

        說明

        資料庫類型

        請根據叢集中使用的中繼資料庫類型,選擇對應的資料庫類型。Dataphin支援選擇MySQLPostgreSQLMySQL資料庫類型支援MySQL 5.1.43MYSQL 5.6/5.7MySQL 8版本。

        JDBC URL

        填寫目標資料庫的JDBC串連地址。串連地址格式為jdbc:mysql://host:port/dbname

        使用者名稱密碼

        填寫登入中繼資料庫的使用者名稱和密碼。

      • HMS擷取方式

        參數

        說明

        hive-site.xml

        上傳Hive的hive-site.xml設定檔。

      • DLF擷取方式

        說明

        僅當串連E-MapReduce 5.x版本的Impala資料來源時,才支援使用DLF擷取中繼資料。

        參數

        說明

        Endpoint(非必填)

        填寫叢集在DLF資料中心所在地區的Endpoint,若未填寫則使用hive-site.xml中的配置項。Endpoint如何擷取,請參見DLF Region和Endpoint對照表

        AccessKey IDAccessKey Secret

        填寫叢集所在帳號的AccessKey ID和AccessKey Secret。

        您可在使用者資訊管理頁面,擷取帳號的AccessKey ID和AccessKey Secret。

        image

        hive-site.xml

        上傳Hive的hive-site.xml設定檔。

    4. 配置資料來源與Dataphin的進階設定。

      參數

      描述

      串連重試次數

      資料庫連接逾時,將自動重試串連直到完成設定的重試次數。若達到最大重試次數仍未串連成功,則串連失敗。

      說明
      • 預設重試次數為1次,支援配置0~10之間參數。

      • 串連重試次數將預設應用於離線整合任務全域品質(需開通資產品質功能模組),離線整合任務中支援單獨配置任務層級的重試次數。

  5. 選擇預設資源群組,該資源群組用於運行與當前資料來源相關任務,包括資料庫SQL、離線整庫遷移、資料預覽等。

  6. 進行測試連接或直接單擊確定進行儲存,完成Impala資料來源的建立。

    單擊測試連接,系統將測試資料來源是否可以和Dataphin進行正常的連通。若直接單擊確定,系統將自動對所有已選中的叢集進行測試連接,但即使所選中的叢集均串連失敗,資料來源依然可以正常建立。