全部產品
Search
文件中心

Dataphin:配置OSS輸入組件

更新時間:May 29, 2025

OSS輸入組件用於讀取OSS資料來源的資料。同步OSS資料來源的資料至其他資料來源的情境中,您需要先配置OSS輸入組件讀取的資料來源,再配置資料同步的目標資料來源。本文為您介紹如何配置OSS輸入組件。

前提條件

  • 已建立OSS資料來源。具體操作,請參見建立OSS資料來源

  • 進行OSS輸入組件屬性配置的帳號,需具備該資料來源的同步讀許可權。如果沒有許可權,則需要申請資料來源許可權。具體操作,請參見申請資料來源許可權

操作步驟

  1. 在Dataphin首頁頂部功能表列,選擇研發 > Data Integration

  2. 在整合頁面頂部功能表列選擇專案(Dev-Prod模式需要選擇環境)。

  3. 在左側導覽列中單擊離線整合,在離線整合列表中單擊需要開發的離線管道,開啟該離線管道的配置頁面。

  4. 單擊頁面右上方的組件庫,開啟組件庫面板。

  5. 組件庫面板左側導覽列中需選擇輸入,在右側的輸入組件列表中找到OSS組件,並拖動該組件至畫布。

  6. 單擊OSS輸入組件卡片中的image表徵圖,開啟OSS輸入配置對話方塊。

  7. OSS輸入配置對話方塊中,配置以下參數。

    參數

    描述

    步驟名稱

    即OSS輸入組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:

    • 只能包含中文、字母、底線(_)、數字。

    • 不能超過64個字元。

    資料來源

    選擇資料來源。選取Dataphin系統中已配置的資料來源,且資料來源需同時具備以下兩個條件:

    • 資料來源類型為OSS資料來源

    • 執行屬性配置的帳號具有該資料來源的同步讀許可權,如果沒有許可權,則需要申請資料來源許可權,詳情請參見申請資料來源許可權

    同時您可以單擊資料來源後的建立,進入規劃模組添加資料來源,詳情請參見建立OSS資料來源

    Object首碼

    OSS的Object資訊,此處可以支援填寫多個Object。例如某個OSS的bucket中有data檔案夾,檔案夾中包含phin.txt檔案,若同步具體的檔案,則Object首碼可填寫為data/phin.txt;若同步檔案夾下的所有檔案,則需填寫萬用字元,如data/*

    檔案類型

    系統支援讀取TextCSV、xls、xlsx格式的檔案。格式不同,所需要配置的資訊不同。

    輸出欄位

    為您展示輸出欄位。 您可以手動添加輸出欄位:

    • 單擊大量新增

      • 以JSON格式大量設定,例如。

        // 樣本:
        [{"index": 0,"name": "user_id","type": "String"},
         {"index": 1,"name": "user_name","type": "String"}]
        說明

        index表示指定對象的列編號,name表示引入後的欄位名稱,type表示引入後的欄位類型。例如:"index":3,"name":"user_id","type":"String" 表示把檔案中的第4列引入,欄位名為user_id,欄位類型為 String。

      • 以TEXT格式大量設定,例如。

        1,user_name,String
        • 行分隔字元用於分隔每個欄位的資訊,預設為分行符號(\n),可支援分行符號(\n)、分號(;)、點(.)。

        • 資料行分隔符號用於分隔欄位名與欄位類型,預設英文逗號(,)。

    • 單擊建立輸出欄位,根據頁面提示填寫來源序號欄位及選擇類型。Text和CSV檔案類型的來源序號必須填寫該欄位所在列的數字序號,序號從0開始。

    同時您也可以對已添加的欄位執行如下操作:

    • 單擊拖動欄位旁的image表徵圖,可調換欄位所處位置。

    • 單擊操作列下的agag表徵圖,編輯已有的欄位。

    • 單擊操作列下的agfag表徵圖,刪除已有的欄位

  8. Text、CSV格式

    參數

    描述

    資料行分隔符號

    檔案資料行分隔符號。如果您沒有填寫,則系統預設填寫為英文逗號(,)。

    行分隔字元

    檔案行分隔字元。如果您沒有填寫,則系統預設填寫為分行符號號(\n)。

    檔案編碼

    讀取檔案的編碼配置。系統支援的檔案編碼包括UTF-8GBK

    null值

    將要表示為空白的欄位填入文字框,如果源端存在則將對應的部分轉換為空白。

    壓縮格式

    文本壓縮類型,預設不填寫(即不壓縮)。系統支援的壓縮格式包括:

    • zip

    • gzip

    • bzip2

    • lzo

    • lzo_deflate

    首行內容類型

    選擇文本的首行內容類型。首行內容類型包括資料內容欄位名稱

    xls、xlsx格式

    參數

    描述

    sheet選擇

    可按名稱或索引選擇要讀取的sheet,如讀取多個sheet需保持資料格式一致。

    • 按名稱:需要填寫要讀取的sheet名稱

    • 按索引:需要填寫要讀取的sheet索引從0開始

    資料內容起始行

    填寫資料內容起始行。預設為1,從第一行開始為資料內容。若需忽略前N行,則將資料內容起始行設定為N+1

    資料內容結束行

    填寫資料內容結束行。如不指定,則預設讀到有資料的最後一行。

    匯出sheet名

    選擇是否匯出資料的來源sheet名稱,匯出內容為{sheet名}

    檔案編碼

    支援UTF-8GBK編碼。

    壓縮格式

    支援zipgzipbzip2lzolzo_deflate壓縮格式。

    空值轉換

    可指定將任一字元串轉換為Null值。

  9. 單擊確認,完成OSS輸入組件的屬性配置。

後續步驟

完成輸入組件的配置後,即可配置下遊組件,以實現資料同步。具體操作,請參見整合組件庫開發說明