配置Lindorm(計算引擎)輸出組件,可以將外部資料庫中讀取的資料寫入到Lindorm(計算引擎),或從巨量資料平台對接的儲存系統中將資料複製推送至Lindorm(計算引擎),進行資料整合和再加工。本文為您介紹如何配置Lindorm(計算引擎)輸出組件。
前提條件
已建立Lindorm(計算引擎)資料來源。具體操作,請參見建立Lindorm(計算引擎)資料來源。
進行Lindorm(計算引擎)輸出組件屬性配置的帳號,需具備該資料來源的同步寫入權限。如果沒有許可權,則需要申請資料來源許可權。具體操作,請參見申請資料來源許可權。
操作步驟
在Dataphin首頁頂部功能表列,選擇研發 > Data Integration。
在整合頁面頂部功能表列選擇專案(Dev-Prod模式需要選擇環境)。
在左側導覽列中單擊離線整合,在離線整合列表中單擊需要開發的離線管道,開啟該離線管道的配置頁面。
單擊頁面右上方的組件庫,開啟組件庫面板。
在組件庫面板左側導覽列中需選擇輸出,在右側的輸出組件列表中找到Lindorm(計算引擎)組件,並拖動該組件至畫布。
單擊並拖動目標上遊組件的
表徵圖,將其串連至當前Lindorm(計算引擎)輸出組件上。單擊Lindorm(計算引擎)輸出組件卡片中的
表徵圖,開啟Lindorm(計算引擎)輸出配置對話方塊。
在Lindorm(計算引擎)輸出配置對話方塊中,配置參數。
參數
描述
基本設定
步驟名稱
Lindorm(計算引擎)輸出組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:
只能包含中文、字母、底線(_)、數字。
不能超過64個字元。
資料來源
在資料來源下拉式清單中,為您展示當前Dataphin中所有的Lindorm(計算引擎)類型資料來源,包括您是否擁有同步寫入權限的資料來源。 單擊
表徵圖,可複製當前資料來源名稱。對於沒有同步寫入權限的資料來源,您可以單擊資料來源後的申請,申請資料來源的同步寫入權限。具體操作,請參見申請資料來源許可權。
如果您還沒有Lindorm(計算引擎)類型的資料來源,單擊建立,建立資料來源。具體操作,請參見建立Lindorm(計算引擎)資料來源。
表
選擇輸出資料的目標表。 單擊
表徵圖,可複製當前所選表的表名稱。重要表Schema發生變更時需要重新設定管道任務。
檔案編碼
支援UTF-8和GBK。
載入策略
支援追加資料和覆蓋所有資料。
追加資料:直接向目標表追加寫入資料。
覆蓋所有資料:先刪除目標表或配置分區下的所有資料,再寫入新資料。
壓縮格式
非必填項,如果檔案有壓縮,請選擇對應的壓縮格式,以便Dataphin進行解壓處理,包括zlib、hadoop-snappy、lz4、none。ORC表預設zlib壓縮格式,其他格式表無預設格式。
效能配置
輸出表格式為ORC且欄位較多的情境下,記憶體足夠時可嘗試調大該配置以提高寫入效能,記憶體不足時可嘗試調小該配置以減少GC時間提高寫入效能。預設
{"hive.exec.orc.default.buffer.size":16384},單位位元組,建議不要配置超過262144個位元組(256k)。分區
非iceberg儲存格式的分區表,必須配置固定的要寫入的靜態分區,例如,
hh=xx,mm=xx;iceberg儲存格式的分區表,支援寫入動態分區,即分區可不配置,但是欄位對應要映射分區欄位,如果此處配置了靜態分區,則寫入分區以此為準。準備語句
資料匯入前對資料庫執行的SQL指令碼。
結束語句
資料匯入後對資料庫執行的SQL指令碼。
欄位對應
輸入欄位
根據上遊的輸出,為您展示輸入欄位。
輸出欄位
為您展示輸出欄位。單擊欄位管理選擇輸出欄位。

單擊
表徵圖,將已選的輸入欄位移入未選的輸入欄位。單擊
表徵圖,將未選的輸入欄位移入已選的輸入欄位。
映射關係
映射關係用於將源表的輸入欄位和目標表的輸出欄位進行映射。映射關係包括同名映射和同行映射。適用情境說明如下:
同名映射:對欄位名稱相同的欄位進行映射。
同行映射:源表和目標表的欄位名稱不一致,但欄位對應行的資料需要映射。只映射同行的欄位。
單擊確認,完成Lindorm(計算引擎)輸出組件的屬性配置。