OSS輸入組件用於讀取OSS資料來源的資料。同步OSS資料來源的資料至其他資料來源的情境中,您需要先配置OSS輸入組件讀取的資料來源,再配置資料同步的目標資料來源。本文為您介紹如何配置OSS輸入組件。
前提條件
操作步驟
在Dataphin首頁頂部功能表列,選擇研發 > Data Integration。
在整合頁面頂部功能表列選擇專案(Dev-Prod模式需要選擇環境)。
在左側導覽列中單擊離線整合,在離線整合列表中單擊需要開發的離線管道,開啟該離線管道的配置頁面。
單擊頁面右上方的組件庫,開啟組件庫面板。
在組件庫面板左側導覽列中需選擇輸入,在右側的輸入組件列表中找到OSS組件,並拖動該組件至畫布。
單擊OSS輸入組件卡片中的
表徵圖,開啟OSS輸入配置對話方塊。在OSS輸入配置對話方塊中,配置以下參數。
參數
描述
步驟名稱
即OSS輸入組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:
只能包含中文、字母、底線(_)、數字。
不能超過64個字元。
資料來源
選擇資料來源。選取Dataphin系統中已配置的資料來源,且資料來源需同時具備以下兩個條件:
資料來源類型為OSS資料來源。
執行屬性配置的帳號具有該資料來源的同步讀許可權,如果沒有許可權,則需要申請資料來源許可權,詳情請參見申請資料來源許可權。
同時您可以單擊資料來源後的建立,進入規劃模組添加資料來源,詳情請參見建立OSS資料來源。
Object首碼
OSS的Object資訊,此處可以支援填寫多個Object。例如某個OSS的bucket中有data檔案夾,檔案夾中包含phin.txt檔案,若同步具體的檔案,則Object首碼可填寫為
data/phin.txt;若同步檔案夾下的所有檔案,則需填寫萬用字元,如data/*。檔案類型
系統支援讀取Text、CSV、xls、xlsx格式的檔案。格式不同,所需要配置的資訊不同。
Text、CSV格式:配置說明,請參見Text、CSV格式。
xls、xlsx格式:配置說明,請參見xls、xlsx格式。
輸出欄位
為您展示輸出欄位。 您可以手動添加輸出欄位:
單擊大量新增。
以JSON格式大量設定,例如。
// 樣本: [{"index": 0,"name": "user_id","type": "String"}, {"index": 1,"name": "user_name","type": "String"}]說明index表示指定對象的列編號,name表示引入後的欄位名稱,type表示引入後的欄位類型。例如:
"index":3,"name":"user_id","type":"String"表示把檔案中的第4列引入,欄位名為user_id,欄位類型為 String。以TEXT格式大量設定,例如。
1,user_name,String行分隔字元用於分隔每個欄位的資訊,預設為分行符號(\n),可支援分行符號(\n)、分號(;)、點(.)。
資料行分隔符號用於分隔欄位名與欄位類型,預設英文逗號(,)。
單擊建立輸出欄位,根據頁面提示填寫來源序號、欄位及選擇類型。Text和CSV檔案類型的來源序號必須填寫該欄位所在列的數字序號,序號從0開始。
同時您也可以對已添加的欄位執行如下操作:
單擊拖動欄位旁的
表徵圖,可調換欄位所處位置。單擊操作列下的
表徵圖,編輯已有的欄位。單擊操作列下的
表徵圖,刪除已有的欄位
Text、CSV格式
參數
描述
資料行分隔符號
檔案資料行分隔符號。如果您沒有填寫,則系統預設填寫為英文逗號(,)。
行分隔字元
檔案行分隔字元。如果您沒有填寫,則系統預設填寫為分行符號號(\n)。
檔案編碼
讀取檔案的編碼配置。系統支援的檔案編碼包括UTF-8和GBK。
null值
將要表示為空白的欄位填入文字框,如果源端存在則將對應的部分轉換為空白。
壓縮格式
文本壓縮類型,預設不填寫(即不壓縮)。系統支援的壓縮格式包括:
zip
gzip
bzip2
lzo
lzo_deflate
首行內容類型
選擇文本的首行內容類型。首行內容類型包括資料內容和欄位名稱。
xls、xlsx格式
參數
描述
sheet選擇
可按名稱或索引選擇要讀取的sheet,如讀取多個sheet需保持資料格式一致。
按名稱:需要填寫要讀取的sheet名稱。
按索引:需要填寫要讀取的sheet索引,從0開始。
資料內容起始行
填寫資料內容起始行。預設為1,從第一行開始為資料內容。若需忽略前N行,則將資料內容起始行設定為N+1。
資料內容結束行
填寫資料內容結束行。如不指定,則預設讀到有資料的最後一行。
匯出sheet名
選擇是否匯出資料的來源sheet名稱,匯出內容為
{sheet名}。檔案編碼
支援UTF-8和GBK編碼。
壓縮格式
支援zip、gzip、bzip2、lzo、lzo_deflate壓縮格式。
空值轉換
可指定將任一字元串轉換為Null值。
單擊確認,完成OSS輸入組件的屬性配置。
後續步驟
完成輸入組件的配置後,即可配置下遊組件,以實現資料同步。具體操作,請參見整合組件庫開發說明。