HBase輸入組件用於讀取HBase資料來源的資料。同步HBase資料來源的資料至其他資料來源的情境中,您需要先配置HBase輸入組件讀取的資料來源,再配置資料同步的目標資料來源。本文為您介紹如何配置HBase輸入組件。
前提條件
已購買及開通了資料服務或標籤服務模組的高可用功能才可以進行資料來源的主備鏈路配置。
已建立HBase資料來源。具體操作,請參見建立HBase資料來源。
進行HBase輸入組件屬性配置的帳號,需具備該資料來源的同步讀許可權。如果沒有許可權,則需要申請資料來源許可權。具體操作,請參見申請、續期和交還資料來源許可權。
操作步驟
在Dataphin首頁頂部功能表列,選擇研發 > Data Integration。
在整合頁面頂部功能表列選擇專案(Dev-Prod模式需要選擇環境)。
在左側導覽列中單擊離線整合,在離線整合列表中單擊需要開發的離線管道,開啟該離線管道的配置頁面。
單擊頁面右上方的組件庫,開啟組件庫面板。
在組件庫面板左側導覽列中需選擇輸入,在右側的輸入組件列表中找到HBase組件,並拖動該組件至畫布。
單擊HBase輸入組件卡片中的
表徵圖,開啟HBase輸入配置對話方塊。在HBase輸入配置對話方塊中,配置參數。
參數
描述
步驟名稱
即HBase輸入組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:
只能包含中文、字母、底線(_)、數字。
不能超過64個字元。
資料來源
在資料來源下拉式清單中,為您展示當前Dataphin中所有的HBase類型資料來源,包括您是否擁有同步讀許可權的資料來源。 單擊
表徵圖,可複製當前資料來源名稱。對於沒有同步讀許可權的資料來源,您可以單擊資料來源後的申請,申請資料來源的同步讀許可權。具體操作,請參見申請資料來源許可權。
如果您還沒有HBase類型的資料來源,單擊建立,建立資料來源。具體操作,請參見建立HBase資料來源。
選擇鏈路
已開通標籤服務高可用功能且選擇的HBase資料來源主備鏈路為主備雙鏈路時,支援選擇主鏈路或備鏈路用於整合,僅影響生產資料來源。
表
可輸入表名關鍵字進行搜尋,或輸入準確表名後單擊精準尋找。單擊
表徵圖,可複製當前所選表的名稱。輸出方式
選擇輸出方式,包括Normal模式和多版本模式(豎表)。
maxversion
輸出方式選擇多版本模式(豎表)需填寫maxversion。
maxversion指所要讀取的版本數,-1表示讀取所有的版本。
檔案編碼
選擇檔案編碼。系統支援的檔案編碼包括UTF-8和GBK。
起始主鍵
指定一個起始行鍵作為掃描的起點,所有字典序大於或等於這個起始行鍵的行都會被包括在掃描結果內。例如,
aaa(字串)或10110(二進位)。截止主鍵
定義了掃描操作結束的位置,如果指定了截止行鍵,則所有字典序小於該行鍵的行會被掃描,但不包括截止行鍵本身(即掃描是左閉右開區間)。例如,在HBase表中要掃描從
user0001到user9999的所有使用者記錄。可以設定,起始主鍵為user0001,截止主鍵為user10000。這樣會返回所有以user開頭,並且主索引值在user0001和user10000之間的行,但不會包括主鍵為user10000的行。起始主鍵類型
請選擇起始主鍵的類型,支援字串或二進位。
輸出欄位
為您展示輸出欄位。
大量新增欄位。
單擊大量新增。
以JSON格式大量設定。樣本如下:
// 樣本: [{ "name": "cf1:q1", "type": "string" }, { "name": "cf1:q2", "type": "string" }, { "name": "cf1:q3", "type": "string" }]說明name表示引入的列簇及欄位名稱,type表示欄位類型。例如,
"name":"cf1:a","type":"String"表示cf1列簇下的a欄位引入,欄位類型為String。以TEXT格式大量設定,樣本如下:
// 樣本: cf1:q1,string cf1:q2,string cf1:q3,string行分隔字元用於分隔每個欄位的資訊,預設為分行符號(\n),可支援分行符號(\n)、分號(;)、點(.)。
資料行分隔符號用於分隔欄位名與欄位類型,預設英文逗號(,)。
單擊確定。
建立輸出欄位。
單擊建立輸出欄位,根據頁面提示填寫列簇、欄位及選擇類型。
管理輸出欄位。
您可以對已添加的欄位執行如下操作:
單擊拖動欄位旁的
表徵圖,可調換欄位所處位置。單擊操作列下的
表徵圖,編輯已有的欄位。單擊操作列下的
表徵圖,刪除已有的欄位。
單擊確認,完成HBase輸入組件的屬性配置。