配置DataHub輸入組件後,可以將DataHub資料來源中的資料讀取至巨量資料平台對接的儲存系統內,並進行資料整合和二次加工。本文為您介紹如何配置DataHub輸入組件。
前提條件
已建立DataHub資料來源。具體操作,請參見建立DataHub資料來源。
進行DataHub輸入組件屬性配置的帳號,需具備該資料來源的同步讀許可權。如果沒有許可權,則需要申請資料來源許可權。具體操作,請參見申請資料來源許可權。
操作步驟
在Dataphin首頁頂部功能表列,選擇研發 > Data Integration。
在整合頁面頂部功能表列選擇專案(Dev-Prod模式需要選擇環境)。
在左側導覽列中單擊離線整合,在離線整合列表中單擊需要開發的離線管道,開啟該離線管道的配置頁面。
單擊頁面右上方的組件庫,開啟組件庫面板。
在組件庫面板左側導覽列中需選擇輸入,在右側的輸入組件列表中找到DataHub組件,並拖動該組件至畫布。
單擊DataHub輸入組件卡片中的
表徵圖,開啟DataHub輸入配置對話方塊。在DataHub輸入配置對話方塊,按照下表配置參數。
參數
描述
步驟名稱
即DataHub輸入組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:
只能包含中文、字母、底線(_)、數字。
不能超過64個字元
資料來源
在資料來源下拉式清單中,展示當前Dataphin中所有DataHub類型的資料來源,包括您已擁有同步讀許可權的資料來源和沒有同步讀許可權的資料來源。 單擊
表徵圖,可複製當前資料來源名稱。對於沒有同步讀許可權的資料來源,您可以單擊資料來源後的申請,申請資料來源的同步讀許可權。具體操作,請參見申請、續期和交還資料來源許可權。
如果您還沒有DataHub類型的資料來源,單擊建立,建立資料來源。具體操作,請參見建立DataHub資料來源。
主題
DataHub的topic名稱。單擊下拉式清單,選擇需要讀取的DataHub主題名稱。
消費開始時間
資料消費的開始時間位點。僅支援以
yyyyMMddHHmmss格式的時間字串指定具體時間,是時間範圍的左邊界。需配合調度參數使用,例如調度參數配置為startTime=${20220101000000},則消費開始時間配置為${startTime}。消費結束時間
資料消費的結束時間位點。僅支援以yyyyMMddHHmmss格式的時間字串指定具體時間,是時間範圍的右邊界。需配合調度參數使用,例如調度參數配置為
endTime=${20220101000000},則消費結束時間配置為${endTime}。批量讀取條數
一次性讀取資料的條數。在從來源資料庫讀取資料時,可以配置一個特定的批量讀取條數(如1024條記錄),而不是一條一條地讀取,以減少與資料來源之間的互動次數,提高I/O效率,並降低網路延遲。
輸出欄位
輸出欄位地區展示了已選中表及篩選條件命中的所有欄位。如果不需要將某些欄位輸出至下遊組件,則您可以刪除對應的欄位:
單個刪除欄位情境:如果需要刪除少量的欄位,則可以單擊操作列下的
表徵圖,刪除多餘的欄位。大量刪除欄位情境:如果需要刪除大批量欄位,則可以單擊欄位管理,在欄位管理對話方塊選擇多個欄位後,單擊
左移動表徵圖,將已選的輸入欄位移入到未選的輸入欄位並單擊確定,完成欄位的大量刪除。
單擊確定,完成DataHub輸入組件配置。