本地檔案輸入組件支援將本地Text、Excel(xls、xlsx)、CSV格式的檔案上傳到Dataphin中,並支援將資料同步至其他資料來源的情境中。本文為您介紹如何配置本地檔案輸入組件。
使用限制
僅支援手動任務配置本地檔案輸入組件。
操作步驟
在Dataphin首頁頂部功能表列,選擇研發 > Data Integration。
在整合頁面頂部功能表列選擇專案(Dev-Prod模式需要選擇環境)。
在左側導覽列中單擊離線整合,在離線整合列表中單擊需要開發的離線管道,開啟該離線管道的配置頁面。
單擊頁面右上方的組件庫,開啟組件庫面板。
在組件庫面板左側導覽列中需選擇輸入,在右側的輸入組件列表中找到本地檔案組件,並拖動該組件至畫布。
單擊該組件卡片中的
表徵圖,開啟本地檔案輸入配置對話方塊。
在本地文本輸入配置對話方塊,支援選擇csv、text、xls、xlsx的檔案類型,各配置說明如下:
text檔案類型
參數
描述
步驟名稱
即本地檔案輸入組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:
僅包含中文、英文字母大小寫、底線(_)和數字。
長度不超過64個字元。
檔案類型
選擇text的檔案類型。
檔案路徑
單擊選擇檔案或拖動目標檔案至檔案路徑地區。
說明僅支援上傳.txt格式的檔案,檔案大小不超過500MB。
首行內容類型
支援資料內容和欄位名稱。
首行內容起始行
首行內容選擇為欄位名稱時,資料內容起始行不可小於2。
首行內容選擇為資料內容時,資料內容起始行不可小於1。
行分隔字元、欄位分隔符號(非必填)
行分隔字元:檔案行分隔字元,如不填寫,預設為
\n。如果為其他字元,可輸入後單擊解析。欄位分隔符號:檔案內欄位分隔符號,如不填寫,預設為半形逗號(,)。
檔案編碼
選擇檔案編碼的方式。系統支援UTF-8和GBK方式。
進階配置
請輸入讀取控制配置項。範例程式碼如下:
{ "textReaderConfig":{ "caseSensitive":true, "useTextQualifier":false, "textQualifier":"\"", "trimWhitespace":false } }建立輸出欄位
為您展示輸出欄位。
大量新增欄位。
單擊大量新增。
以JSON格式大量設定。樣本如下:
[{ "index": 0, "name": "cf1a", "type": "String" }, { "index": 1, "name": "cf1b", "type": "String" }]說明index表示指定對象的列編號,name表示引入的欄位名稱,type表示引入後的欄位類型。 例如:
"name":"user_id","type":"String"表示把欄位名為user_id的欄位引入,設定欄位類型為String。以TEXT格式大量設定,樣本如下:
0,cf1a,String 1,cf1b,String行分隔字元用於分隔每個欄位的資訊,預設為分行符號(\n),可支援分行符號(\n)、分號(;)、半形句號(.)。
資料行分隔符號用於分隔欄位名與欄位類型,預設為半形逗號(,)。
單擊確定。
建立輸出欄位。
單擊建立輸出欄位,根據頁面提示填寫來源序號、欄位及選擇類型。Text檔案類型的來源序號必須填寫該欄位所在列的數字序號,序號從0開始。
管理輸出欄位。
您可以對已添加的欄位執行如下操作:
單擊拖動欄位旁的
表徵圖,可調換欄位所處位置。單擊操作列下的
表徵圖,編輯已有的欄位。單擊操作列下的
表徵圖,刪除已有的欄位。
csv檔案類型
參數
描述
步驟名稱
即本地檔案輸入組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:
僅包含中文、英文字母大小寫、底線(_)和數字。
長度不超過64個字元。
檔案類型
選擇csv檔案類型。
檔案路徑
單擊選擇檔案或拖動目標檔案至檔案路徑地區。
說明僅支援上傳csv類型的檔案,檔案大小不超過500MB。
字元分隔字元
檔案內欄位分隔符號,如不填寫,預設為半形逗號(,)。
檔案編碼
選擇檔案編碼的方式。系統支援UTF-8和GBK方式。
首行內容類型
可選擇資料內容或欄位名稱。
資料內容起始行
首行內容選擇為欄位名稱時,資料內容起始行不可小於2。
首行內容選擇為資料內容時,資料內容起始行不可小於1。
建立輸出欄位
為您展示輸出欄位。
大量新增欄位。
單擊大量新增。
以JSON格式大量設定。樣本如下:
[{ "index": 0, "name": "cf1a", "type": "String" }, { "index": 1, "name": "cf1b", "type": "String" }]說明index表示指定對象的列編號,name表示引入的欄位名稱,type表示引入後的欄位類型。 例如:
"name":"user_id","type":"String"表示把欄位名為user_id的欄位引入,設定欄位類型為String。以TEXT格式大量設定,樣本如下:
0,cf1a,String 1,cf1b,String行分隔字元用於分隔每個欄位的資訊,預設為分行符號(\n),可支援分行符號(\n)、分號(;)和半形句號(.)。
資料行分隔符號用於分隔欄位名與欄位類型,預設為半形逗號(,)。
單擊確定。
建立輸出欄位。
單擊建立輸出欄位,根據頁面提示填寫來源序號、欄位及選擇類型。CSV檔案類型的來源序號必須填寫該欄位所在列的數字序號,序號從0開始。
管理輸出欄位。
您可以對已添加的欄位執行如下操作:
單擊拖動欄位旁的
表徵圖,可調換欄位所處位置。單擊操作列下的
表徵圖,編輯已有的欄位。單擊操作列下的
表徵圖,刪除已有的欄位。
xls或xlsx檔案類型
參數
描述
步驟名稱
即本地檔案輸入組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:
僅包含中文、英文字母大小寫、底線(_)和數字。
長度不超過64個字元。
檔案類型
選擇xls或xlsx檔案類型。
檔案路徑
單擊選擇檔案或拖動目標檔案至檔案路徑地區。
說明當檔案類型選擇為xls時,僅支援上傳.xls格式的檔案;當檔案類型選擇為xlsx時,僅支援上傳.xlsx格式的檔案,檔案大小都不能超過500MB。
系統解析僅支援50M,若檔案大小超過50M,暫不支援解析輸出欄位,請手動建立輸出欄位。
sheet選擇
支援按名稱或按索引進行選擇。
按名稱:輸入要讀取的sheet名稱。
按索引:輸入要讀取的sheet索引,索引從0開始。
首行內容類型
支援資料內容和欄位名稱。
資料內容起始行
首行內容選為欄位名稱時,資料內容起始行不可小於2;首行內容選為資料內容時,資料內容起始行不可小於1。
資料內容結束行
資料內容結束行不可大於起始行。如不指定,則預設讀到有資料的最後一行。
匯出sheet名
可選是否匯出資料的來源sheet。選擇匯出後,輸出欄位將新增來源sheet欄位。匯出內容為
{檔案名稱}-{sheet名}。檔案編碼
選擇檔案編碼的方式。系統支援UTF-8和GBK方式。
輸出欄位
為您展示輸出欄位。
大量新增欄位。
單擊大量新增。
以JSON格式大量設定。樣本如下:
[{ "index": 0, "name": "cf1a", "type": "String" }, { "index": 1, "name": "cf1b", "type": "String" }]說明index表示指定對象的列編號,name表示引入的欄位名稱,type表示引入後的欄位類型。 例如:
"name":"user_id","type":"String"表示把欄位名為user_id的欄位引入,設定欄位類型為String。以TEXT格式大量設定,樣本如下:
0,cf1a,String 1,cf1b,String行分隔字元用於分隔每個欄位的資訊,預設為分行符號(\n),可支援分行符號(\n)、分號(;)和半形句號(.)。
資料行分隔符號用於分隔欄位名與欄位類型,預設半形逗號(,)。
單擊確定。
建立輸出欄位。
單擊建立輸出欄位,根據頁面提示填寫來源序號、欄位及選擇類型。
管理輸出欄位。
您可以對已添加的欄位執行如下操作:
單擊拖動欄位旁的
表徵圖,可調換欄位所處位置。單擊操作列下的
表徵圖,編輯已有的欄位。單擊操作列下的
表徵圖,刪除已有的欄位。
單擊確認,完成本地文本輸入組件的屬性配置。