Impala輸出組件用於向Impala資料來源寫入資料。同步其他資料來源的資料至Impala資料來源的情境中,完成來源資料源的資訊配置後,需要配置Impala輸出組件寫入資料的目標資料來源。本文為您介紹如何配置Impala輸出組件。
前提條件
已建立Impala資料來源。具體操作,請參見建立Impala資料來源。
進行Impala輸出組件屬性配置的帳號,需具備該資料來源的同步寫入權限。如果沒有許可權,則需要申請資料來源許可權,具體操作,請參見申請、續期和交還資料來源許可權。
操作步驟
在Dataphin首頁頂部功能表列,選擇研發 > Data Integration。
在整合頁面頂部功能表列選擇專案(Dev-Prod模式需要選擇環境)。
在左側導覽列中單擊離線整合,在離線整合列表中單擊需要開發的離線管道,開啟該離線管道的配置頁面。
單擊頁面右上方的組件庫,開啟組件庫面板。
在組件庫面板左側導覽列中需選擇輸出,在右側的輸出組件列表中找到Impala組件,並拖動該組件至畫布。
單擊並拖動目標輸入、轉換或流程組件的
表徵圖,將其串連至當前Impala輸出組件上。單擊Impala輸出組件卡片中的
表徵圖,開啟Impala輸出配置對話方塊。
在Impala輸出配置對話方塊,配置參數。
參數
說明
基本設定
步驟名稱
即Impala輸出組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:
只能包含中文、字母、底線(_)、數字。
不能超過64個字元。
資料來源
在資料來源下拉式清單中,展示所有Impala類型的資料來源,包括您已擁有同步寫入權限的資料來源和沒有同步寫入權限的資料來源。
對於沒有同步寫入權限的資料來源,您可以單擊資料來源後的申請,申請資料來源的同步寫入權限。具體操作,請參見申請資料來源許可權。
如果您還沒有Impala類型的資料來源,單擊建立資料來源,建立資料來源。具體操作,請參見建立Impala資料來源。
表
選擇輸出資料的目標表。 單擊
表徵圖,可複製當前所選表的表名稱。載入策略
Impala只支援追加策略,不支援覆蓋策略。追加資料策略下,當主鍵/約束衝突時,會提示髒資料錯誤。
批量寫入資料量
一次性寫入的資料量大小,可同時設定批量寫入條數,寫入時系統將按兩個配置中先達到上限的量進行寫入,預設32M。
批量寫入條數
預設2048條。資料同步寫入時,採用攢批寫入策略,其中設定的參數包括批量寫入條數和批量寫入資料量。
當讀取到的資料量累積至設定的任一上限(即達到批量寫入的資料量或條數限制)時,系統將認為已攢滿一批資料,並立即將這批資料一次性寫入目標端。
建議設定批量寫入的資料量為32MB,對於批量插入的條數上限,可以根據單條記錄的實際大小靈活調整,通常設定為一個較大值以充分利用批次寫入的優勢。例如,若單條記錄大小約為1KB,可將批量插入位元組大小設為16MB,同時考慮到這一條件,將批量插入條數設定為大於16MB除以單條記錄大小1KB的結果(即大於16384條),這裡假設設定為20000條。如此配置後,系統將會依據批量插入的位元組大小來觸發批次寫入操作,每當累積的資料量達到16MB時,就會執行一次寫入動作。
欄位對應
輸入欄位
根據上遊組件的輸出,為您展示輸入欄位。
輸出欄位
為您展示輸出欄位。單擊欄位管理選擇輸出欄位。

單擊
表徵圖,將已選的輸入欄位移入未選的輸入欄位。單擊
表徵圖,將未選的輸入欄位移入已選的輸入欄位。
映射關係
根據上遊的輸入和目標表的欄位,可以手動選擇欄位對應。快速映射包括同行映射和同名映射。
同名映射:對欄位名稱相同的欄位進行映射。
同行映射:源表和目標表的欄位名稱不一致,但欄位對應行的資料需要映射。只映射同行的欄位。
單擊確定,完成Impala輸出組件的屬性配置。