HDFS輸入組件用於讀取HDFS資料來源的資料。同步HDFS資料來源的資料至其他資料來源的情境中,您需要先配置HDFS輸入組件讀取的資料來源,再配置資料同步的目標資料來源。本文為您介紹如何配置HDFS輸入組件。
前提條件
已建立HDFS資料來源,如何建立,請參見建立HDFS資料來源。
進行HDFS輸入組件屬性配置的帳號,需具備該資料來源的同步讀許可權。如果沒有許可權,則需要申請資料來源許可權,詳情請參見申請資料來源許可權。
操作步驟
在Dataphin首頁頂部功能表列,選擇研發 > Data Integration。
在整合頁面頂部功能表列選擇專案(Dev-Prod模式需要選擇環境)。
在左側導覽列中單擊離線整合,在離線整合列表中單擊需要開發的離線管道,開啟該離線管道的配置頁面。
單擊頁面右上方的組件庫,開啟組件庫面板。
在組件庫面板左側導覽列中需選擇輸入,在右側的輸入組件列表中找到HDFS組件,並拖動該組件至畫布。
單擊HDFS輸入組件卡片中的
表徵圖,開啟HDFS輸入配置對話方塊。在HDFS輸入配置對話方塊,配置參數。
參數
描述
步驟名稱
即HDFS輸入組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:
只能包含中文、字母、底線(_)、數字。
長度不超過64個字元。
資料來源
在資料來源下拉式清單中,展示當前Dataphin中所有HDFS類型的資料來源,包括您已擁有同步讀許可權的資料來源和沒有同步讀許可權的資料來源。 單擊
表徵圖,可複製當前資料來源名稱。對於沒有同步讀許可權的資料來源,您可以單擊資料來源後的申請,申請資料來源的同步讀許可權。具體操作,請參見申請資料來源許可權。
如果您還沒有HDFS類型的資料來源,單擊建立資料來源,建立資料來源。具體操作,請參見建立HDFS資料來源。
檔案路徑
填寫檔案所在路徑。因資料來源已經配置
NameNode,無需填寫hdfs://{namenode}:{port}首碼,只需填寫絕對路徑。例如,/hadoop/input/file.txt。系統訪問的實際路徑為:hdfs://{資料來源已經配置的NameNode}:{資料來源已經配置的IPC Port}{填寫的檔案路徑}。檔案類型
選擇檔案類型。 系統支援的檔案類型包括Text、ORC、RC、Sequence、CSV、Parquet。
檔案不存在時
當讀取的檔案不存在時,支援忽略或置任務失敗。
忽略:當讀取的檔案不存在時,忽略該檔案,並繼續讀取其他檔案。
置任務失敗:當讀取的檔案不存在時,終止該任務共置失敗。
檔案為空白時
當讀取的檔案為空白時,支援忽略或置任務失敗。
忽略:當讀取的檔案為空白時,忽略該檔案,並繼續讀取其他檔案。
置任務失敗:當讀取的檔案為空白時,終止該任務共置失敗。
資料內容起始行
檔案類型為Text或CSV時需配置該項。預設為1,從第一行開始為資料內容。若需忽略前N行,您可將資料內容起始行設定為N+1。
檔案編碼(非必填)
選擇檔案編碼。系統支援的檔案編碼包括UTF-8和GBK。
欄位分隔符號(非必填)
檔案類型為Text或CSV時需配置該項。請根據實際儲存情況,填寫檔案內,內容欄位之間的分隔字元,如果不填寫預設為(,)英文逗號。
壓縮格式(非必填)
選擇檔案的壓縮格式。系統支援的壓縮格式包括:
zip
gzip
bzip2
輸出欄位
為您展示輸出欄位。 您可以手動添加輸出欄位:
單擊大量新增,支援JSON、TEXT格式大量設定。
以JSON格式大量設定,例如:
[{ "index": 0, "type": "double", "name": "HDFS1" },說明index表示引入的欄位索引,type表示引入後的欄位類型。 name表示欄位名。
以TEXT格式大量設定,例如:
0,HDFS1,Double 1,HDFS2,String行分隔字元用於分隔每個欄位的資訊,預設為分行符號(\n),可支援分行符號(\n)、分號(;)、點(.)。
資料行分隔符號用於分隔欄位名與欄位類型,預設英文逗號(,)。
單擊建立輸出欄位,根據頁面提示填寫欄位及選擇類型。
同時您也可以對已添加的欄位執行如下操作:
單擊操作列下的
表徵圖,編輯已有的欄位。單擊操作列下的
表徵圖,刪除已有的欄位。
單擊確認,完成HDFS輸入組件的屬性配置。