配置DataHub輸出組件,可以將外部資料庫中讀取資料寫入到DataHub,或從巨量資料平台對接的儲存系統中將資料複製推送至DataHub,進行資料整合和再加工。本文為您介紹如何配置DataHub輸出組件。
前提條件
已建立DataHub資料來源。具體操作,請參見建立DataHub資料來源。
進行DataHub輸入組件屬性配置的帳號,需具備該資料來源的同步讀許可權。如果沒有許可權,則需要申請資料來源許可權。具體操作,請參見申請、續期和交還資料來源許可權。
操作步驟
在Dataphin首頁頂部功能表列,選擇研發 > Data Integration。
在整合頁面頂部功能表列選擇專案(Dev-Prod模式需要選擇環境)。
在左側導覽列中單擊離線整合,在離線整合列表中單擊需要開發的離線管道,開啟該離線管道的配置頁面。
單擊頁面右上方的組件庫,開啟組件庫面板。
在組件庫面板左側導覽列中需選擇輸出,在右側的輸出組件列表中找到DataHub組件,並拖動該組件至畫布。
單擊並拖動目標上遊組件的
表徵圖,將其串連至當前DataHub輸出組件上。單擊DataHub輸出組件卡片中的
表徵圖,開啟DataHub輸出配置對話方塊。
在DataHub輸出配置對話方塊,按照下表配置參數。
參數
描述
基本設定
步驟名稱
即DataHub輸出組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:
只能包含中文、字母、底線(_)、數字。
不能超過64個字元。
資料來源
在資料來源下拉式清單中,展示所有DataHub類型的資料來源,包括您已擁有同步寫入權限的資料來源和沒有同步寫入權限的資料來源。單擊
表徵圖,可複製當前資料來源名稱。對於沒有同步寫入權限的資料來源,您可以單擊資料來源後的申請,申請資料來源的同步寫入權限。具體操作,請參見申請、續期和交還資料來源許可權。
如果您還沒有DataHub類型的資料來源,單擊建立資料來源,建立資料來源。具體操作,請參見建立DataHub資料來源。
主題
根據實際情境,選擇需要的topic。
一次提交的資料量
為提高寫出效率,Data Integration會積累Buffer資料,待積累的資料大小達到一次提交的資料量大小(單位MB)時,批量提交到目的端。預設是1,即1 MB資料。
進階配置
按需進行配置。支援以下參數:
maxRetryCount:任務失敗的最多重試次數。重試次數不能超過3。
batchSize:為提高寫出效率,Data Integration會積累Buffer資料,待積累的資料條數達到batchSize大小(單位條數)時,批量提交到目的端。
maxCommitInterval:Buffer資料的最長時間。單位:毫秒。預設為30,000,即30秒。如果資料擷取源頭長時間沒有產出資料,為了保證資料的及時投遞,需設定此參數,超過設定時間會強制投遞。
說明一次提交資料量、batchSize、maxCommitInterval三個參數,只需滿足一個參數則進行投遞。另外DataHub對於一次Request請求寫入的資料條數限制是10000條,超出10000條會導致任務出錯,建議將batchSize設定為小於或等於10000條,避免任務運行出錯。
欄位對應
輸入欄位
根據上遊組件的輸出,為您展示輸入欄位。
輸出欄位
輸出欄位地區展示了已選中表的所有欄位。如果不需要將某些欄位輸出至下遊組件,則您可以刪除對應的欄位:
如果需要刪除少量的欄位,可以單擊操作列下的
表徵圖,刪除多餘的欄位。如果需要刪除大批量欄位,可以單擊欄位管理,在欄位管理頁面選擇多個欄位後,單擊
表徵圖,將已選的輸入欄位移入到未選的輸入欄位。
映射關係
映射關係用於將源表的輸入欄位和目標表的輸出欄位進行映射。映射關係包括同名映射和同行映射。適用情境說明如下:
同名映射:對欄位名稱相同的欄位進行映射。
同行映射:源表和目標表的欄位名稱不一致,但欄位對應行的資料需要映射。只映射同行的欄位。
單擊確定。