FTP輸入組件適用於從FTP中將資料讀取至巨量資料平台對接的儲存系統內,進行資料整合和再加工。本文為您介紹如何配置FTP輸入組件。
前提條件
已建立FTP資料來源,詳情請參見建立FTP資料來源。
進行FTP輸入組件屬性配置的帳號,需具備該資料來源的同步讀許可權。如果沒有許可權,則需要申請資料來源許可權,詳情請參見申請、續期和交還資料來源許可權。
操作步驟
在Dataphin首頁頂部功能表列,選擇研發 > Data Integration。
在整合頁面頂部功能表列選擇專案(Dev-Prod模式需要選擇環境)。
在左側導覽列中單擊離線整合,在離線整合列表中單擊需要開發的離線管道,開啟該離線管道的配置頁面。
單擊頁面右上方的組件庫,開啟組件庫面板。
在組件庫面板左側導覽列中需選擇輸入,在右側的輸入組件列表中找到FTP組件,並拖動該組件至畫布。
單擊FTP輸入組件卡片中的
表徵圖,開啟FTP輸入配置對話方塊。在FTP輸入配置對話方塊,配置參數。
FTP輸入組件支援的檔案類型包括Text、CSV、xls、xlsx、JsonL。不同檔案類型配置不同,詳情如下:
Text和CSV參數配置說明
參數
描述
基本配置
步驟名稱
根據當前組件的使用情境,填寫名稱。命名規則如下:
只能包含中文、字母、底線(_)、數字。
不能超過64個字元。
資料來源
選擇資料來源。選取Dataphin系統中已配置的資料來源,且資料來源需同時具備以下兩個條件:
資料來源類型為FTP資料來源、SFTP資料來源、FTPS資料來源。
執行屬性配置的帳號具有該資料來源的同步讀許可權,如果沒有許可權,則需要申請資料來源許可權,詳情請參見申請、續期和交還資料來源許可權。
同時您可以單擊資料來源後的建立,進入管理中心模組添加資料來源,詳情請參見建立FTP資料來源。
檔案路徑
填寫檔案路徑。支援輸入多個檔案路徑,用英文半形分號(;)分割,並且支援使用萬用字元。例如,指定
/dataphin/*代表讀取dataphin目錄下所有的檔案。壓縮格式(非必選)
如果檔案有壓縮,請選擇對應的壓縮格式,以便Dataphin進行解壓處理。支援的壓縮格式包括zip、gzip、tar.gz、bzip2、lzo、lzo-deflate、hadoop-snappy、framing-snappy。
說明壓縮格式選擇zip或tar.gz格式時,還支援設定檔名。
檔案名稱(非必填)
壓縮包下檔案匹配規則,支援多個匹配規則,多個規則間使用分號(;)分隔,同時支援萬用字元,例如:指定
*代表讀取壓縮包下所有的檔案。若未填寫任何值,則預設以*處理。檔案類型
選擇Text或CSV檔案類型。
資料內容起始行
設定輸入組件讀取資料的起始行。預設為1,從第一行開始為資料內容。若需忽略前N行,則將資料內容起始行設定為N+1。
說明若未選擇壓縮格式,則資料內容起始行始終生效。
若已選擇壓縮格式,則僅當壓縮格式為tar.gz時,資料內容起始行才生效。
進階配置
切分方式
Text支援分隔字元切分和欄位長度切分,CSV支援分隔字元切分。
分隔字元切分:將會根據欄位分隔符號與行分隔字元切分行與欄位。
欄位長度切分:檔案的每一行將被視為一個長String字串,按起始和結束的字元位置提取欄位。
欄位分隔符號
切分方式選擇分隔字元切分時,需要填寫檔案儲存體欄位分隔符號。如果您沒有填寫,則系統預設將英文逗號(,)作為欄位分隔符號。
行分隔字元
切分方式為欄位長度切分時,不支援配置行分隔字元。如果您沒有填寫,則系統預設將分行符號號(\n)作為行分隔字元; 檔案類型為Text時,不支援同時配置行分隔字元和更多配置的
textReaderConfig。檔案編碼
選擇檔案編碼。系統支援的檔案編碼包括UTF-8和GBK。
NULL值轉換
配置表示NULL的字串,將來來源資料中的該字串替換為NULL。如果未配置該參數,則不會對來來源資料做特殊處理。
標記完成檔案檢查
標記完成檔案檢查,可在讀取前檢查檔案資料是否已經準備好被讀取,預設關閉。
開啟後,單擊檢查配置。
在標記完成檔案檢查配置對話方塊中,配置檢查參數。
標記完成檔案路徑:填寫需要檢查的標記完成檔案路徑,支援系統參數、全域參數與跨節點參數。例如,
/${check}/dataphin。檢查間隔(秒):填寫每次檢查檔案的間隔時間,預設60秒。
檢查持續時間長度(分鐘):填寫每次檢查檔案的期間,預設60分鐘。
重要檢查持續時間長度和資料轉送的時間長度將一起被計算為整合任務運行時間長度,請注意檢查持續時間長度與運行逾時配置。檢查期間將持續佔用資源,請合理配置。
如果檢查時間超過任務逾時時間,任務將被強制結束。
檢查失敗處理策略:檔案檢查任務檢查失敗後,將不會實際進行資料幫浦與寫入。針對檔案檢查任務檢查失敗的處理策略,支援置任務失敗和置任務成功。
置任務失敗:檢查失敗後,系統將檢查任務置為失敗狀態,不會執行整合任務。
置任務成功:檢查失敗後,系統將檢查任務置為成功狀態,繼續執行後續的整合任務。
單擊確定,完成標記完成檔案檢查配置。
檔案不存在時
支援忽略和置任務失敗策略。若開啟標記完成檔案檢查,則不支援設定檔不存在時。
忽略:當讀取的檔案不存在時,忽略該檔案,並繼續讀取其他檔案。
置任務失敗:當讀取的檔案不存在時,終止該任務共置失敗。
更多配置
輸入讀取資料的其他控制配置項。例如使用
textReaderConfig控制Text檔案的讀取,配置樣本如下。{ "textReaderConfig":{ "useTextQualifier":false, //是否存在限定符 "textQualifier":"\"",//配置限定符 "caseSensitive":true, //限定符是否區分大小寫 "trimWhitespace":false //是否去除每列內容前後的空白符 } }輸出欄位
為您展示輸出欄位。 您可以手動添加輸出欄位:
大量新增輸出欄位。
格式:單擊大量新增 ,支援以JSON格式和TEXT格式大量設定。
JSON格式:
// 樣本: [{ "startPos": 0, "endPos": 10, "name": "user_id", "type": "String" }, { "startPos": 11, "endPos": 15, "name": "user_name", "type": "String" }]TEXT格式:
// 樣本: 0,10,user_id,String 11,15,user_name,String
切分方式:檔案類型為Text且切分方式為欄位長度切分時,支援配置大量新增的切分方式,包括按欄位起始位置和按欄位長度。
按欄位起始位置:第一位元字表示欄位起始字元位置,第二位元字表示欄位結束位置,後兩位分別表示欄位名與欄位類型。例如,Text格式
0,10,user_id,String, 表示把檔案每行的第1位到第11位字元作為一個欄位引入,欄位名為user_id,欄位類型為String。按欄位長度指定:第一位元字表示欄位長度,後兩位分別表示欄位名與欄位類型。例如,Text格式
11,user_id,String表示把長度為11的一個欄位引入,欄位名為user_id,欄位類型為String。下一個欄位接著上一個欄位後的第一個字元開始計算長度。
行分隔字元、資料行分隔符號:大量新增格式為TEXT時,支援配置行分隔字元和資料行分隔符號。行分隔字元用於分隔每個欄位的資訊,預設為分行符號
\n,可支援\n ; .;資料行分隔符號用於分隔欄位名與欄位類型,預設為英文逗號(,)。
切分效果預覽。
檔案類型為Text且切分方式為欄位長度切分時,支援預覽切分效果。
單擊切分效果預覽。
在切分效果預覽對話方塊中,輸入測試字串並單擊測試,即可查看切分效果。
建立輸出欄位。
單擊建立輸出欄位,根據頁面提示填寫來源序號、欄位及選擇類型。Text和CSV檔案類型的來源序號必須填寫該欄位所在列的數字序號,序號從0開始。
管理輸出欄位。
對已添加的欄位,您可以執行如下操作:
單擊操作列下的
表徵圖,編輯已有的欄位。單擊操作列下的
表徵圖,刪除已有的欄位。
xls和xlsx參數配置說明
參數
描述
基礎配置
步驟名稱
根據當前組件的使用情境,填寫名稱。命名規則如下:
只能包含中文、字母、底線(_)、數字。
不能超過64個字元。
資料來源
選擇資料來源。選取Dataphin系統中已配置的資料來源,且資料來源需同時具備以下兩個條件:
資料來源類型為FTP資料來源、SFTP資料來源、FTPS資料來源。
執行屬性配置的帳號具有該資料來源的同步讀許可權,如果沒有許可權,則需要申請資料來源許可權,詳情請參見申請、續期和交還資料來源許可權。
同時您可以單擊資料來源後的建立,進入規劃模組添加資料來源,詳情請參見建立FTP資料來源。
檔案路徑
填寫檔案路徑。支援多個檔案路徑輸入,用英文半形分號(;)分割。支援萬用字元,例如,指定
/dataphin/*代表讀取dataphin目錄下所有的檔案。壓縮格式
如果檔案有壓縮,請選擇對應的壓縮格式,以便Dataphin進行解壓處理。支援的壓縮格式包括zip、gzip、tar.gz、bzip2、lzo、lzo-deflate、hadoop-snappy、framing-snappy、zlib。
說明壓縮格式選擇zip或tar.gz格式時,還支援設定檔名。
檔案名稱
壓縮包下檔案匹配規則,支援多個匹配規則,多個規則間使用分號(;)分隔,同時支援萬用字元,例如:指定
*代表讀取壓縮包下所有的檔案。若未填寫任何值,則預設以*處理。檔案類型
選擇xls或xlsx檔案類型。
資料內容起始行
設定輸入組件讀取資料的起始行。預設為1,從第一行開始為資料內容。若需忽略前N行,則將資料內容起始行設定為N+1。
說明若未選擇壓縮格式,則資料內容起始行始終生效。
若已選擇壓縮格式,則僅當壓縮格式為tar.gz時,資料內容起始行才生效。
sheet選擇
支援按名稱和按索引兩種方式。若讀取多個sheet,則需保持資料格式一致。
sheet名稱/sheet索引
sheet名稱:可讀取多張sheet,用英文逗號(,)隔開,也可以輸入
*讀取所有sheet。*和英文逗號不可混用。例如,sheet1,sheet2。sheet索引:可讀取多張sheet,用英文逗號(,)隔開,也可以輸入
*讀取所有sheet。*和英文逗號不可混用。例如,可以用0,3,7-9指定單張或連續的sheet。
進階配置
資料內容結束行
若不指定行數,則讀取到最後一行資料,資料內容結束行不少於資料內容起始行。
匯出sheet名
可選擇匯出或不匯出。選擇匯出則新增一個匯出欄位,欄位內容為該行資料的來源sheet名稱。
檔案編碼
選擇檔案編碼。系統支援的檔案編碼包括UTF-8和GBK。
NULL值轉換
配置表示NULL的字串,將來來源資料中的該字串替換為NULL。如果未配置該參數,則不會對來來源資料做特殊處理。
標記完成檔案檢查
標記完成檔案檢查,可在讀取前檢查檔案資料是否已經準備好被讀取,預設關閉。
開啟後,單擊檢查配置。
在標記完成檔案檢查配置對話方塊中,配置檢查參數。
標記完成檔案路徑:填寫需要檢查的標記完成檔案路徑,支援系統參數、全域參數與跨節點參數。例如,
/${check}/dataphin。檢查間隔(秒):填寫每次檢查檔案的間隔時間,預設60秒。
檢查持續時間長度(分鐘):填寫每次檢查檔案的期間,預設60分鐘。
重要檢查持續時間長度和資料轉送的時間長度將一起被計算為整合任務運行時間長度,請注意檢查持續時間長度與運行逾時配置。檢查期間將持續佔用資源,請合理配置。
如果檢查時間超過任務逾時時間,任務將被強制結束。
檢查失敗處理策略:檔案檢查任務檢查失敗後,將不會實際進行資料幫浦與寫入。針對檔案檢查任務檢查失敗的處理策略,支援置任務失敗和置任務成功。
置任務失敗:檢查失敗後,系統將檢查任務置為失敗狀態,不會執行整合任務。
置任務成功:檢查失敗後,系統將檢查任務置為成功狀態,繼續執行後續的整合任務。
單擊確定,完成標記完成檔案檢查配置。
檔案不存在時
支援忽略和置任務失敗策略。若開啟標記完成檔案檢查,則不支援設定檔不存在時。
忽略:當讀取的檔案不存在時,忽略該檔案,並繼續讀取其他檔案。
置任務失敗:當讀取的檔案不存在時,終止該任務共置失敗。
輸出欄位
為您展示輸出欄位。 您可以手動添加輸出欄位:
大量新增輸出欄位。
單擊大量新增 ,支援以JSON格式和TEXT格式大量設定。
JSON格式:
// 樣本: [{ "startPos": 0, "endPos": 10, "name": "user_id", "type": "String" }, { "startPos": 11, "endPos": 15, "name": "user_name", "type": "String" }]TEXT格式:
行分隔字元、資料行分隔符號:大量新增格式為TEXT時,支援配置行分隔字元和資料行分隔符號。行分隔字元用於分隔每個欄位的資訊,預設為分行符號
\n,可支援\n ; .;資料行分隔符號用於分隔欄位名與欄位類型,預設為英文逗號(,)。// 樣本: 0,10,user_id,String 11,15,user_name,String
建立輸出欄位。
單擊建立輸出欄位,根據頁面提示填寫來源序號、欄位及選擇類型。xls和xlsx檔案類型的來源序號必須填寫該欄位所在列的大寫字母序號,也可填寫該列的數字序號,數字序號從0開始。填寫小寫字母序號時,系統會自動轉化為大寫字母序號。同時,如果選擇的是匯出sheet名,則來源序號為(-),不支援修改。
管理輸出欄位。
同時您也可以對已添加的欄位執行如下操作:
單擊操作列下的
表徵圖,編輯已有的欄位。單擊操作列下的
表徵圖,刪除已有的欄位。
JsonL參數配置說明
參數
描述
基礎配置
步驟名稱
根據當前組件的使用情境,填寫名稱。命名規則如下:
只能包含中文、字母、底線(_)、數字。
不能超過64個字元。
資料來源
選擇資料來源。選取Dataphin系統中已配置的資料來源,且資料來源需同時具備以下兩個條件:
資料來源類型為FTP資料來源、SFTP資料來源、FTPS資料來源。
執行屬性配置的帳號具有該資料來源的同步讀許可權,如果沒有許可權,則需要申請資料來源許可權,詳情請參見申請、續期和交還資料來源許可權。
同時您可以單擊資料來源後的建立,進入規劃模組添加資料來源,詳情請參見建立FTP資料來源。
檔案路徑
填寫檔案路徑。支援多個檔案路徑輸入,用英文半形分號(;)分割。支援萬用字元,例如,指定
/dataphin/*代表讀取dataphin目錄下所有的檔案。壓縮格式
如果檔案有壓縮,請選擇對應的壓縮格式,以便Dataphin進行解壓處理。支援的壓縮格式包括zip、gzip、tar.gz、bzip2、lzo、lzo-deflate、hadoop-snappy、framing-snappy。
說明壓縮格式選擇zip或tar.gz格式時,還支援設定檔名。
檔案名稱
壓縮包下檔案匹配規則,支援多個匹配規則,多個規則間使用分號(;)分隔,同時支援萬用字元,例如:指定
*代表讀取壓縮包下所有的檔案。若未填寫任何值,則預設以*處理。檔案類型
選擇JsonL檔案類型。不限制副檔名,僅代表解析方式。
資料內容起始行
設定輸入組件讀取資料的起始行。預設為1,從第一行開始為資料內容。若需忽略前N行,則將資料內容起始行設定為N+1。
說明若未選擇壓縮格式,則資料內容起始行始終生效。
若已選擇壓縮格式,則僅當壓縮格式為tar.gz時,資料內容起始行才生效。
進階配置
壓縮格式
如果檔案有壓縮,請選擇對應的壓縮格式,以便Dataphin進行解壓處理。支援的壓縮格式包括zip、gzip、bzip2、lzo、lzo-deflate、hadoop-snappy、framing-snappy。
標記完成檔案檢查
標記完成檔案檢查,可在讀取前檢查檔案資料是否已經準備好被讀取,預設關閉。
開啟後,單擊檢查配置。
在標記完成檔案檢查配置對話方塊中,配置檢查參數。
標記完成檔案路徑:填寫需要檢查的標記完成檔案路徑,支援系統參數、全域參數與跨節點參數。例如,
/${check}/dataphin。檢查間隔(秒):填寫每次檢查檔案的間隔時間,預設60秒。
檢查持續時間長度(分鐘):填寫每次檢查檔案的期間,預設60分鐘。
重要檢查持續時間長度和資料轉送的時間長度將一起被計算為整合任務運行時間長度,請注意檢查持續時間長度與運行逾時配置。檢查期間將持續佔用資源,請合理配置。
如果檢查時間超過任務逾時時間,任務將被強制結束。
檢查失敗處理策略:檔案檢查任務檢查失敗後,將不會實際進行資料幫浦與寫入。針對檔案檢查任務檢查失敗的處理策略,支援置任務失敗和置任務成功。
置任務失敗:檢查失敗後,系統將檢查任務置為失敗狀態,不會執行整合任務。
置任務成功:檢查失敗後,系統將檢查任務置為成功狀態,繼續執行後續的整合任務。
單擊確定,完成標記完成檔案檢查配置。
檔案不存在時
支援忽略和置任務失敗策略。若開啟標記完成檔案檢查,則不支援設定檔不存在時。
忽略:當讀取的檔案不存在時,忽略該檔案,並繼續讀取其他檔案。
置任務失敗:當讀取的檔案不存在時,終止該任務共置失敗。
輸出欄位
為您展示輸出欄位。 您可以手動添加輸出欄位:
大量新增輸出欄位。
單擊大量新增 ,支援以JSON格式和TEXT格式大量設定。
JSON格式:
// 樣本: [{ "startPos": 0, "endPos": 10, "name": "user_id", "type": "String" }, { "startPos": 11, "endPos": 15, "name": "user_name", "type": "String" }]TEXT格式:
行分隔字元、資料行分隔符號:大量新增格式為TEXT時,支援配置行分隔字元和資料行分隔符號。行分隔字元用於分隔每個欄位的資訊,預設為分行符號
\n,可支援\n ; .;資料行分隔符號用於分隔欄位名與欄位類型,預設為英文逗號(,)。// 樣本: 0,10,user_id,String 11,15,user_name,String
建立輸出欄位。
單擊建立輸出欄位,根據頁面提示填寫來源序號、欄位及選擇類型。xls和xlsx檔案類型的來源序號必須填寫該欄位所在列的大寫字母序號,也可填寫該列的數字序號,數字序號從0開始。填寫小寫字母序號時,系統會自動轉化為大寫字母序號。同時,如果選擇的是匯出sheet名,則來源序號為(-),不支援修改。
管理輸出欄位。
同時您也可以對已添加的欄位執行如下操作:
單擊操作列下的
表徵圖,編輯已有的欄位。單擊操作列下的
表徵圖,刪除已有的欄位。
單擊確認,完成FTP輸入組件配置。