配置Doris輸入組件後,可以讀取Doris資料來源中的資料至Dataphin,進行Data Integration與資料開發。本文為您介紹如何配置Doris輸入組件。
前提條件
已建立Doris資料來源。具體操作,請參見建立Doris資料來源。
進行Doris輸入組件屬性配置的帳號,需具備該資料來源的同步讀許可權。如果沒有許可權,則需要申請資料來源許可權。具體操作,請參見申請資料來源許可權。
操作步驟
在Dataphin首頁頂部功能表列,選擇研發 > Data Integration。
在整合頁面頂部功能表列選擇專案(Dev-Prod模式需要選擇環境)。
在左側導覽列中單擊離線整合,在離線整合列表中單擊需要開發的離線管道,開啟該離線管道的配置頁面。
單擊頁面右上方的組件庫,開啟組件庫面板。
在組件庫面板左側導覽列中需選擇輸入,在右側的輸入組件列表中找到Doris組件,並拖動該組件至畫布。
單擊Doris輸入組件卡片中的
表徵圖,開啟Doris輸入配置對話方塊。在Doris輸入配置對話方塊中,配置參數。
參數
描述
步驟名稱
Doris輸入組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:
只能包含中文、字母、底線(_)、數字。
不能超過64個字元。
資料來源
在資料來源下拉式清單中,展示當前Dataphin中所有Doris類型的資料來源,包括您已擁有同步讀許可權的資料來源和沒有同步讀許可權的資料來源。單擊
表徵圖,可複製當前資料來源名稱。對於您沒有同步讀許可權的資料來源,您可以單擊資料來源後的申請,申請對應資料來源的讀取許可權。申請資料來源讀取許可權。具體操作,請參見申請資料來源許可權。
如果您還沒有Doris類型的資料來源,單擊建立資料來源,建立資料來源。具體操作,請參見建立Doris資料來源。
來源表量
根據實際情境需要,選擇單張表或多張具有相同表結構的表,作為輸入。來源表量包括單表和多表:
單表:適用於將一個表的業務資料同步至一個目標表的情境。
多表:適用於將多個表的業務資料同步至同一個目標表的情境。多個表的資料寫入同一個資料表時,使用union演算法。
表匹配方式
可選擇通用類規則或資料庫正則。
說明僅當來源表量選擇多表時,支援配置此項。
表
選擇來源表:
如果來源表量選擇了單表,可輸入表名關鍵字進行搜尋,或輸入準確表名後單擊精準尋找。選擇表後,系統將自動進行表狀態檢測。單擊
表徵圖,可複製當前所選表的名稱。如果來源表量選擇了多表,則根據表匹配方式,可填寫不同運算式來添加表。
表匹配方式選擇通用類規則:在輸入框中,輸入表的運算式,篩選具有相同結構的表。 系統支援枚舉形式、類正則形式及兩者混合形式。例如,
table_[001-100];table_102;。表匹配方式選擇資料庫正則:在輸入框中填寫當前資料庫支援的Regex,系統將根據此正則匹配目標庫中的表。任務運行時將根據資料庫正則即時匹配新的表範圍進行同步
運算式填寫完成後,可單擊精準尋找,在確認匹配詳情對話方塊中,查看匹配表的列表。
切分鍵
您可以將來源資料表中欄位類型為整型的某一列作為切分鍵,推薦使用主鍵或有索引的列作為切分鍵。讀取資料時,根據配置的切分鍵欄位進行資料分區,實現並發讀取,可以提升資料同步效率。
批量讀取條數
一次性讀取資料的條數。在從來源資料庫讀取資料時,可以配置一個特定的批量讀取條數(如1024條記錄),而不是一條一條地讀取,以減少與資料來源之間的互動次數,提高I/O效率,並降低網路延遲。
輸入過濾
配置抽取資料的篩選條件,配置說明如下:
配置固定值,抽取對應的資料,例如
ds=20210101。組態變數參數,抽取某一部分資料,例如
ds=${bizdate}。
輸出欄位
輸出欄位地區展示了已選中表及篩選條件命中的所有欄位。支援進行以下操作:
欄位管理:如果不需要將某些欄位輸出至下遊組件,則您可以刪除對應的欄位:
單個刪除欄位情境:如果需要刪除少量的欄位,則可以單擊操作列下的
表徵圖,刪除多餘的欄位。大量刪除欄位情境:如果需要刪除大批量欄位,則可以單擊欄位管理,在欄位管理對話方塊選擇多個欄位後,單擊
左移動表徵圖,將已選的輸入欄位移入到未選的輸入欄位並單擊確定,完成欄位的大量刪除。
大量新增:單擊大量新增,支援JSON、TEXT格式、DDL格式大量設定。
說明大量新增完成,單擊確定後會覆蓋已配置的欄位資訊。
以JSON格式大量設定,例如:
// 樣本: [{ "index": 1, "name": "id", "type": "int(10)", "mapType": "Long", "comment": "comment1" }, { "index": 2, "name": "user_name", "type": "varchar(255)", "mapType": "String", "comment": "comment2" }]說明index表示指定對象的列編號,name表示引入後的欄位名稱,type表示引入後的欄位類型。 例如,
"index":3,"name":"user_id","type":"String"表示把檔案中的第4列引入,欄位名為user_id,欄位類型為String。以TEXT格式大量設定,例如:
// 樣本: 1,id,int(10),Long,comment1 2,user_name,varchar(255),Long,comment2行分隔字元用於分隔每個欄位的資訊,預設為分行符號(\n),可支援分行符號(\n)、半形分號(;)、半形句號(.)。
資料行分隔符號用於分隔欄位名與欄位類型,預設半形逗號(,),可支援
','欄位類型可預設,預設為','。
以DDL格式大量設定,例如:
CREATE TABLE tablename ( user_id serial, username VARCHAR(50), password VARCHAR(50), email VARCHAR (255), created_on TIMESTAMP, );
建立輸出欄位:單擊+建立輸出欄位,根據頁面提示填寫欄位、類型、備忘並選擇映射類型。當前行完成配置後,單擊
表徵圖儲存。
單擊確認,完成Doris輸入組件的屬性配置。