Databricks輸入組件用於讀取Databricks資料來源的資料。同步Databricks資料來源的資料至其他資料來源的情境中,您需要先配置Databricks輸入組件讀取的來源資料源資訊,再配置資料同步的目標資料來源。本文為您介紹如何配置Databricks輸入組件。
前提條件
已建立Databricks資料來源。具體操作,請參見建立Databricks資料來源。
進行Databricks輸入組件屬性配置的帳號,需具備該資料來源的同步讀許可權。如果沒有許可權,則需要申請資料來源許可權。具體操作,請參見申請資料來源許可權。
操作步驟
在Dataphin首頁頂部功能表列,選擇研發 > Data Integration。
在整合頁面頂部功能表列選擇專案(Dev-Prod模式需要選擇環境)。
在左側導覽列中單擊離線整合,在離線整合列表中單擊需要開發的離線管道,開啟該離線管道的配置頁面。
單擊頁面右上方的組件庫,開啟組件庫面板。
在組件庫面板左側導覽列中選擇輸入,在右側的輸入組件列表中找到Databricks組件,並拖動該組件至畫布。
單擊Databricks輸入組件卡片中的
表徵圖,開啟Databricks輸入配置對話方塊。在Databricks輸入配置對話方塊中,配置以下參數。
參數
描述
步驟名稱
即Databricks輸入組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:
只能包含中文、字母、底線(_)、數字。
長度不超過64個字元。
資料來源
在資料來源下拉式清單中,展示當前Dataphin中所有Databricks類型的資料來源和專案層級,包括是否擁有同步讀許可權的資料來源。單擊
表徵圖,可複製當前資料來源名稱。對於沒有同步讀許可權的資料來源,您可以單擊資料來源後的申請,申請資料來源的同步讀許可權。具體操作,請參見申請資料來源許可權。
如果您還沒有Databricks類型的資料來源,單擊建立資料來源,建立資料來源。具體操作,請參見建立Databricks資料來源。
時區
將根據當前時區對時間格式資料進行處理,預設為所選資料來源中配置的時區,不支援修改。
說明對於V5.1.2版本之前建立的任務,可選擇資料來源預設配置或通道配置時區,預設選擇為通道配置時區。
資料來源預設配置:所選資料來源預設的時區。
通道配置時區:當前整合任務在屬性 > 通道配置中配置的時區。
Schema(非必選)
支援跨Schema選表,請選擇表所在的Schema,如不指定則預設為資料來源中配置的Schema。
若資料來源選擇專案,則不支援配置Schema,系統將自動擷取專案對應的Schema。
表
可輸入表名關鍵字進行搜尋,或輸入準確表名後單擊精準尋找。選擇表後,系統將自動進行表狀態檢測。單擊
表徵圖,可複製當前所選表的名稱。切分鍵(非必選)
系統根據配置的切分鍵欄位進行資料分區,可以配合并發度配置使用,實現並發讀取。支援將來源資料表中某一列作為切分鍵。此外,建議使用主鍵或有索引的列作為切分鍵以保證傳輸效能。
重要選擇日期時間類型時,系統會通過識別最大最小值方式,根據總時間範圍和並發度進行暴力切分,不保證平均。
批量讀取條數(非必填)
一次性讀取資料的條數。在從來源資料庫讀取資料時,可以配置一個特定的批量讀取條數(如1024條記錄),而不是一條一條地讀取,以減少與資料來源之間的互動次數,提高I/O效率,並降低網路延遲。
輸入過濾(非必填)
輸入Databricks資料庫支援的條件運算式作為資料過濾條件。
說明只需填寫where關鍵字後的內容,無需填寫where關鍵字。
支援使用系統全域變數,如業務日期${bizdate}。
輸出欄位
輸出欄位地區展示了已選中表及篩選條件命中的所有欄位。如果不需要將某些欄位輸出至下遊組件,則您可以刪除對應的欄位。
說明資料來源表暫不支援分級分類。
單個刪除欄位情境:如果需要刪除少量的欄位,則可以單擊操作列下的
表徵圖,刪除多餘的欄位。大量刪除欄位情境:如果需要刪除大批量欄位,則可以單擊欄位管理,在欄位管理對話方塊選擇多個欄位後,單擊
左移動表徵圖,將已選的輸入欄位移入到未選的輸入欄位並單擊確定,完成欄位的大量刪除。
單擊確認,完成Databricks輸入組件的屬性配置。