配置Amazon S3輸出組件,可以將外部資料庫中讀取的資料寫入到Amazon S3,或從巨量資料平台對接的儲存系統中將資料複製推送至Amazon S3,進行資料整合和再加工。本文為您介紹如何配置Amazon S3輸出組件。
前提條件
已建立Amazon S3資料來源。具體操作,請參見建立Amazon S3資料來源。
進行Amazon S3輸出組件屬性配置的帳號,需具備該資料來源的同步讀許可權。如果沒有許可權,則需要申請資料來源許可權。具體操作,請參見申請資料來源許可權。
操作步驟
在Dataphin首頁頂部功能表列,選擇研發 > Data Integration。
在整合頁面頂部功能表列選擇專案(Dev-Prod模式需要選擇環境)。
在左側導覽列中單擊離線整合,在離線整合列表中單擊需要開發的離線管道,開啟該離線管道的配置頁面。
單擊頁面右上方的組件庫,開啟組件庫面板。
在組件庫面板左側導覽列中需選擇輸出,在右側的輸出組件列表中找到Amazon S3組件,並拖動該組件至畫布。
單擊並拖動目標上遊組件的
表徵圖,將其串連至當前Amazon S3輸出組件上。單擊Amazon S3輸出組件卡片中的
表徵圖,開啟Amazon S3輸出配置對話方塊。
在Amazon S3輸出配置對話方塊,按照下表配置參數。
參數
描述
基本設定
步驟名稱
即Amazon S3輸出組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:
只能包含中文、字母、底線(_)、數字。
不能超過64個字元。
資料來源
在資料來源下拉式清單中,展示所有Amazon S3類型的資料來源,包括您已擁有同步寫入權限的資料來源和沒有同步寫入權限的資料來源。單擊
表徵圖,可複製當前資料來源名稱。對於沒有同步寫入權限的資料來源,您可以單擊資料來源後的申請,申請資料來源的同步寫入權限。具體操作,請參見申請、續期和交還資料來源許可權。
如果您還沒有Amazon S3類型的資料來源,單擊建立資料來源,建立資料來源。具體操作,請參見建立Amazon S3資料來源。
檔案類型
選擇將資料轉換成儲存的檔案類型。檔案類型包括Text和CSV。
檔案編碼
選擇檔案儲存體在目標資料來源的編碼方式。檔案編碼包括UTF-8和GBK。
Object首碼
填寫Amazon S3對象的Object首碼資訊。對象是Amazon S3儲存資料的基本單元。也被稱為Amazon S3的檔案。對象由元資訊(Object Meta)、使用者資料(Data)和檔案名稱(Key)組成。對象由儲存空間內部唯一的Key來標識。如資料來源中配置了目錄,則此處會自動展示資料來源中配置的目錄,您可修改,但請確認擁有其他目錄的許可權,否則將會導致任務失敗。
首碼衝突
Object首碼衝突時的執行策略。支援替換原有檔案、保留原有檔案追加和衝突時報錯。
替換原有檔案:寫入前清理填寫的Object首碼匹配的所有Object。如Object首碼填寫了Dataphin,將清理所有以Dataphin開頭的Object。
保留原有檔案追加:寫入前不進行任何處理,直接使用配置的Object首碼寫入,並使用隨機UUID的尾碼名來保證檔案名稱不衝突。
衝突時報錯:如果指定路徑出現首碼匹配的Object,直接報錯。如Object首碼填寫了Dataphin,如果存在Dataphin的Object,將直接報錯。
寫入檔案個數
目標端Amazon S3的檔案寫入策略。支援寫入單個檔案和多個檔案。
單個檔案:將寫入目標端Amazon S3的單個檔案中。
多個檔案:將寫入目標端Amazon S3的多個檔案中。同時需要配置尾碼格式,格式可選擇產生序列尾碼,如
_0、_1、_2等;也可選擇產生UUID隨機數尾碼。檔案數量為任務並發數。說明當選擇寫入多個檔案時,任務並發數配置為1時也會產生尾碼。
_1或uuid隨機尾碼。首碼衝突策略為保留原檔案追加時,僅能產生UUID隨機數尾碼。
進階配置
資料行分隔符號
使用資料行分隔符號寫入目標表,如不填寫,預設為英文逗號(,)。
行分隔字元
使用行分隔字元寫入目標表,如不填寫,預設為分行符號(\n)。
null值
非必選,表示NULL值的字串。
副檔名
可配置
.csv、.text等,作為Object最後的尾碼;不填寫則為空白。是否輸出欄位名
選擇是,將以上遊組件的欄位名作為輸出檔案的首行內容;選擇否,不輸出欄位名。
欄位對應
輸入欄位
為您展示上遊輸入組件的輸出欄位。
輸出欄位
為您展示輸出欄位。 Dataphin支援通過大量新增和建立輸出欄位的方式配置輸出欄位:
大量新增:單擊大量新增,支援JSON、TEXT格式大量設定。
以JSON格式大量設定,例如:
// 樣本: [{"name": "user_id","type": "String"}, {"name": "user_name","type": "String"}]說明name表示引入的欄位名稱,type表示引入後的欄位類型。 例如:
"name":"user_id","type":"String"表示把欄位名為user_id的欄位引入,設定欄位類型為String。以TEXT格式大量設定,例如:
// 樣本: user_id,String user_name,String行分隔字元用於分隔每個欄位的資訊,預設為分行符號(\n),可支援分行符號(\n)、分號(;)、點(.)。
資料行分隔符號用於分隔欄位名與欄位類型,預設英文逗號(,)。
建立輸出欄位。
單擊+建立輸出欄位,根據頁面提示填寫欄位及選擇類型。
複製上遊欄位。
單擊複製上遊欄位,系統將根據上遊的欄位名自動產生輸出欄位。
管理輸出欄位。
同時您也可以對已添加的欄位執行如下操作:
單擊操作列下的
表徵圖,編輯已有的欄位。單擊操作列下的
表徵圖,刪除已有的欄位。
映射關係
映射關係用於將源表的輸入欄位和目標表的輸出欄位對應起來,便於後續進行資料同步。映射關係包括同名映射和同行映射。適用情境說明如下:
同名映射:對欄位名稱相同的欄位進行映射。
同行映射:源表和目標表的欄位名稱不一致,但欄位對應行的資料需要映射。只映射同行的欄位。
單擊確認,完成Amazon S3輸出組件配置。