全部產品
Search
文件中心

Dataphin:配置Amazon S3輸入組件

更新時間:Mar 06, 2025

配置Amazon S3輸入組件後,可以讀取Amazon S3資料來源中的資料至Dataphin,進行Data Integration與資料開發。本文為您介紹如何配置Amazon S3輸入組件。

前提條件

  • 已建立Amazon S3資料來源。具體操作,請參見建立Amazon S3資料來源

  • 進行Amazon S3輸入組件屬性配置的帳號,需具備該資料來源的同步讀許可權。如果沒有許可權,則需要申請資料來源許可權。具體操作,請參見申請資料來源許可權

操作步驟

  1. 在Dataphin首頁頂部功能表列,選擇研發 > Data Integration

  2. 在整合頁面頂部功能表列選擇專案(Dev-Prod模式需要選擇環境)。

  3. 在左側導覽列中單擊離線整合,在離線整合列表中單擊需要開發的離線管道,開啟該離線管道的配置頁面。

  4. 單擊頁面右上方的組件庫,開啟組件庫面板。

  5. 組件庫面板左側導覽列中需選擇輸入,在右側的輸入組件列表中找到Amazon S3組件,並拖動該組件至畫布。

  6. 單擊Amazon S3輸入組件卡片中的image表徵圖,開啟Amazon S3輸入配置對話方塊。

  7. Amazon S3輸入配置對話方塊中,配置參數。

    參數

    描述

    步驟名稱

    Amazon S3輸入組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:

    • 只能包含中文、字母、底線(_)、數字。

    • 不能超過64個字元。

    資料來源

    在資料來源下拉式清單中,展示當前Dataphin中所有Amazon S3類型的資料來源,包括您已擁有同步讀許可權的資料來源和沒有同步讀許可權的資料來源。 單擊image表徵圖,可複製當前資料來源名稱。

    • 對於沒有同步讀許可權的資料來源,您可以單擊資料來源後的申請,申請資料來源的同步讀許可權。具體操作,請參見申請資料來源許可權

    • 如果您還沒有Amazon S3類型的資料來源,單擊建立資料來源,建立資料來源。具體操作,請參見建立Amazon S3資料來源

    Object首碼

    對象是Amazon S3儲存資料的基本單元。也被稱為Amazon S3的檔案。對象由元資訊(Object Meta)、使用者資料(Data)和檔案名稱(Key)組成。對象由儲存空間內部唯一的Key來標識。輸入組件支援多Object配置,可以單擊+添加Object首碼,進行添加。

    若資料來源中配置了目錄,則此處會自動展示資料來源中配置的目錄,可進行修改,但需確認是否有其他目錄的許可權,否則任務會失敗。

    檔案類型

    支援Text、CSV、xls和xlsx。不同檔案類型,所需配置參數不同。

    檔案編碼

    支援UTF-8和GBK編碼。

    空值轉換

    預設為空白,可指定任一字元串轉換為NULL值。

    壓縮格式

    支援zip、gzip、bzip2、lzo、lzo_deflate壓縮格式。

    輸出欄位

    為您展示輸出欄位。 您可以手動添加輸出欄位:

    • 單擊大量新增

      • 以JSON格式大量設定,例如,"index":3,"name":"user_id","type":"String" 表示把檔案中的第4列引入,欄位名為user_id,欄位類型為String

      • 以TEXT格式大量設定。

        • 行分隔字元用於分隔每個欄位的資訊,預設為分行符號(\n),可支援分行符號(\n)、分號(;)、點(.)。

        • 資料行分隔符號用於分隔欄位名與欄位類型,預設英文逗號(,)。

    • 單擊建立輸出欄位,根據頁面提示填寫來源序號欄位及選擇類型。Text和CSV檔案類型的來源序號必須填寫該欄位所在列的數字序號,序號從0開始。

    同時您也可以對已添加的欄位執行如下操作:

    • 單擊拖動欄位旁的image表徵圖,可調換欄位所處位置。

    • 單擊操作列下的agag表徵圖,編輯已有的欄位。

    • 單擊操作列下的agfag表徵圖,刪除已有的欄位。

    Text和CSV檔案類型

    參數

    描述

    資料行分隔符號

    根據實際儲存的情況填寫檔案內列之間的分隔字元,如果不填寫預設為英文逗號(,)。

    行分隔字元

    根據實際儲存的情況填寫檔案內行之間的分隔字元,如果不填寫預設為分行符號(\n)。

    首行內容類型

    若首行為欄位名稱,可選擇欄位名稱,否則請選擇資料內容。

    xls和xlsx檔案類型

    參數

    描述

    sheet選擇

    可按名稱或索引選擇要讀取的sheet,如讀取多個sheet需保持資料格式一致。

    sheet名稱

    讀取多張sheet以英文逗號(,)分隔,也可輸入*讀取所有sheet。

    重要

    *和英文逗號(,)不可混用。

    資料內容起始行

    預設為1,從第一行開始為資料內容。若需忽略前N行,請則將資料內容起始行設定為N+1。

    資料內容結束行

    非必填,如不指定,則預設讀到有資料的最後一行。

    重要

    內容結束行需(>=)大於等於起始行,否則將導致任務報錯。

    匯出sheet名

    預設不匯出,如選擇匯出,則會在輸出欄位中加入一個來源sheet欄位。

  8. 單擊確認,完成Amazon S3輸入組件的屬性配置。