全部產品
Search
文件中心

Dataphin:配置本地檔案輸入組件

更新時間:Jan 25, 2025

本地檔案輸入組件支援將本地Text、Excel(xls、xlsx)、CSV格式的檔案上傳到Dataphin中,並支援將資料同步至其他資料來源的情境中。本文為您介紹如何配置本地檔案輸入組件。

使用限制

僅支援手動任務配置本地檔案輸入組件。

操作步驟

  1. 在Dataphin首頁頂部功能表列,選擇研發 > Data Integration

  2. 在整合頁面頂部功能表列選擇專案(Dev-Prod模式需要選擇環境)。

  3. 在左側導覽列中單擊離線整合,在離線整合列表中單擊需要開發的離線管道,開啟該離線管道的配置頁面。

  4. 單擊頁面右上方的組件庫,開啟組件庫面板。

  5. 組件庫面板左側導覽列中需選擇輸入,在右側的輸入組件列表中找到本地檔案組件,並拖動該組件至畫布。

  6. 單擊該組件卡片中的image表徵圖,開啟本地檔案輸入配置對話方塊。

    image

  7. 本地文本輸入配置對話方塊,支援選擇csv、text、xls、xlsx的檔案類型,各配置說明如下:

    text檔案類型

    參數

    描述

    步驟名稱

    即本地檔案輸入組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:

    • 僅包含中文、英文字母大小寫、底線(_)和數字。

    • 長度不超過64個字元。

    檔案類型

    選擇text的檔案類型。

    檔案路徑

    單擊選擇檔案或拖動目標檔案至檔案路徑地區。

    說明

    僅支援上傳.txt格式的檔案,檔案大小不超過500MB

    首行內容類型

    支援資料內容欄位名稱

    首行內容起始行

    • 首行內容選擇為欄位名稱時,資料內容起始行不可小於2。

    • 首行內容選擇為資料內容時,資料內容起始行不可小於1。

    行分隔字元欄位分隔符號(非必填)

    行分隔字元檔案行分隔字元,如不填寫,預設為\n。如果為其他字元,可輸入後單擊解析

    欄位分隔符號:檔案內欄位分隔符號,如不填寫,預設為半形逗號(,)。

    檔案編碼

    選擇檔案編碼的方式。系統支援UTF-8GBK方式。

    進階配置

    請輸入讀取控制配置項。範例程式碼如下:

    {
     "textReaderConfig":{
     "caseSensitive":true,
     "useTextQualifier":false,
     "textQualifier":"\"",
     "trimWhitespace":false
     }
    }

    建立輸出欄位

    為您展示輸出欄位。

    • 大量新增欄位。

      1. 單擊大量新增

        • 以JSON格式大量設定。樣本如下:

          [{
            "index": 0,
            "name": "cf1a",
            "type": "String"
           },
           {
            "index": 1,
            "name": "cf1b",
            "type": "String"
           }]
          說明

          index表示指定對象的列編號,name表示引入的欄位名稱,type表示引入後的欄位類型。 例如:"name":"user_id","type":"String" 表示把欄位名為user_id的欄位引入,設定欄位類型為String。

        • 以TEXT格式大量設定,樣本如下:

          0,cf1a,String
          1,cf1b,String
          • 行分隔字元用於分隔每個欄位的資訊,預設為分行符號(\n),可支援分行符號(\n)、分號(;)、半形句號(.)。

          • 資料行分隔符號用於分隔欄位名與欄位類型,預設為半形逗號(,)。

      2. 單擊確定

    • 建立輸出欄位

      單擊建立輸出欄位,根據頁面提示填寫來源序號欄位及選擇類型。Text檔案類型的來源序號必須填寫該欄位所在列的數字序號,序號從0開始。

    • 管理輸出欄位。

      您可以對已添加的欄位執行如下操作:

      • 單擊拖動欄位旁的image表徵圖,可調換欄位所處位置。

      • 單擊操作列下的agag表徵圖,編輯已有的欄位。

      • 單擊操作列下的agfag表徵圖,刪除已有的欄位。

    csv檔案類型

    參數

    描述

    步驟名稱

    即本地檔案輸入組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:

    • 僅包含中文、英文字母大小寫、底線(_)和數字。

    • 長度不超過64個字元。

    檔案類型

    選擇csv檔案類型。

    檔案路徑

    單擊選擇檔案或拖動目標檔案至檔案路徑地區。

    說明

    僅支援上傳csv類型的檔案,檔案大小不超過500MB

    字元分隔字元

    檔案內欄位分隔符號,如不填寫,預設為半形逗號(,)。

    檔案編碼

    選擇檔案編碼的方式。系統支援UTF-8GBK方式。

    首行內容類型

    可選擇資料內容欄位名稱

    資料內容起始行

    • 首行內容選擇為欄位名稱時,資料內容起始行不可小於2。

    • 首行內容選擇為資料內容時,資料內容起始行不可小於1。

    建立輸出欄位

    為您展示輸出欄位。

    • 大量新增欄位。

      1. 單擊大量新增

        • 以JSON格式大量設定。樣本如下:

          [{
            "index": 0,
            "name": "cf1a",
            "type": "String"
           },
           {
            "index": 1,
            "name": "cf1b",
            "type": "String"
           }]
          說明

          index表示指定對象的列編號,name表示引入的欄位名稱,type表示引入後的欄位類型。 例如:"name":"user_id","type":"String" 表示把欄位名為user_id的欄位引入,設定欄位類型為String。

        • 以TEXT格式大量設定,樣本如下:

          0,cf1a,String
          1,cf1b,String
          • 行分隔字元用於分隔每個欄位的資訊,預設為分行符號(\n),可支援分行符號(\n)、分號(;)和半形句號(.)。

          • 資料行分隔符號用於分隔欄位名與欄位類型,預設為半形逗號(,)。

      2. 單擊確定

    • 建立輸出欄位

      單擊建立輸出欄位,根據頁面提示填寫來源序號欄位及選擇類型。CSV檔案類型的來源序號必須填寫該欄位所在列的數字序號,序號從0開始。

    • 管理輸出欄位。

      您可以對已添加的欄位執行如下操作:

      • 單擊拖動欄位旁的image表徵圖,可調換欄位所處位置。

      • 單擊操作列下的agag表徵圖,編輯已有的欄位。

      • 單擊操作列下的agfag表徵圖,刪除已有的欄位。

    xls或xlsx檔案類型

    參數

    描述

    步驟名稱

    即本地檔案輸入組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:

    • 僅包含中文、英文字母大小寫、底線(_)和數字。

    • 長度不超過64個字元。

    檔案類型

    選擇xls或xlsx檔案類型。

    檔案路徑

    單擊選擇檔案或拖動目標檔案至檔案路徑地區。

    說明
    • 當檔案類型選擇為xls時,僅支援上傳.xls格式的檔案;當檔案類型選擇為xlsx時,僅支援上傳.xlsx格式的檔案,檔案大小都不能超過500MB

    • 系統解析僅支援50M,若檔案大小超過50M,暫不支援解析輸出欄位,請手動建立輸出欄位。

    sheet選擇

    支援按名稱或按索引進行選擇。

    • 按名稱:輸入要讀取的sheet名稱。

    • 按索引:輸入要讀取的sheet索引,索引從0開始。

    首行內容類型

    支援資料內容和欄位名稱。

    資料內容起始行

    首行內容選為欄位名稱時,資料內容起始行不可小於2;首行內容選為資料內容時,資料內容起始行不可小於1。

    資料內容結束行

    資料內容結束行不可大於起始行。如不指定,則預設讀到有資料的最後一行。

    匯出sheet名

    可選是否匯出資料的來源sheet。選擇匯出後,輸出欄位將新增來源sheet欄位。匯出內容為{檔案名稱}-{sheet名}

    檔案編碼

    選擇檔案編碼的方式。系統支援UTF-8GBK方式。

    輸出欄位

    為您展示輸出欄位。

    • 大量新增欄位。

      1. 單擊大量新增

        • 以JSON格式大量設定。樣本如下:

           [{
            "index": 0,
            "name": "cf1a",
            "type": "String"
           },
           {
            "index": 1,
            "name": "cf1b",
            "type": "String"
           }]
          說明

          index表示指定對象的列編號,name表示引入的欄位名稱,type表示引入後的欄位類型。 例如:"name":"user_id","type":"String" 表示把欄位名為user_id的欄位引入,設定欄位類型為String。

        • 以TEXT格式大量設定,樣本如下:

          0,cf1a,String
          1,cf1b,String
          • 行分隔字元用於分隔每個欄位的資訊,預設為分行符號(\n),可支援分行符號(\n)、分號(;)和半形句號(.)。

          • 資料行分隔符號用於分隔欄位名與欄位類型,預設半形逗號(,)。

      2. 單擊確定

    • 建立輸出欄位

      單擊建立輸出欄位,根據頁面提示填寫來源序號欄位及選擇類型

    • 管理輸出欄位。

      您可以對已添加的欄位執行如下操作:

      • 單擊拖動欄位旁的image表徵圖,可調換欄位所處位置。

      • 單擊操作列下的agag表徵圖,編輯已有的欄位。

      • 單擊操作列下的agfag表徵圖,刪除已有的欄位。

  8. 單擊確認,完成本地文本輸入組件的屬性配置。