通過建立HBase資料來源,可以實現Dataphin讀取HBase的業務資料或向HBase寫入資料。本文為您介紹如何建立HBase資料來源。
前提條件
已購買及開通了資料服務或標籤服務模組的高可用功能才可以進行資料來源的主備鏈路配置。
背景資訊
HBase是用於處理儲存在Hadoop叢集中大量資料的SQL查詢引擎。如果您使用的是HBase,在匯出Dataphin資料至HBase,您需要先完成HBase資料來源的建立。
許可權說明
僅支援擁有建立資料來源許可權點的自訂全域角色和超級管理員、資料來源管理員、板塊架構師、專案系統管理員系統角色建立資料來源。
使用限制
僅支援建立0.9.4、1.1.x、2.x版本的HBase資料來源。
連通測試時,系統預設先校正主鏈路的連通性,校正通過後,將校正備鏈路連通性。主鏈路連通失敗時,系統將不再校正備鏈路的連通性。
操作步驟
在Dataphin首頁,單擊頂部功能表列管理中心 > 資料來源管理。
在資料來源頁面,單擊+建立資料來源。
在建立資料來源頁面的NoSQL地區,選擇HBase。
如果您最近使用過HBase,也可以在最近使用地區選取項目HBase。同時,您也可以在搜尋方塊中,輸入HBase的關鍵詞,快速搜尋。
在建立HBase資料來源頁面中,配置串連資料來源參數。
配置資料來源的基本資料。
參數
說明
資料來源名稱
填寫資料來源名稱。命名規則如下:
只能包含中文、英文字母大小寫、數字、底線(_)或短劃線(-)。
長度不能超過64個字元。
資料來源編碼
配置資料來源編碼後,您可以在Flink_SQL任務或使用Dataphin JDBC用戶端中,通過
資料來源編碼.表名稱或資料來源編碼.schema.表名稱的格式直接存取Dataphin資料來源表,實現快捷消費;如果需要根據任務執行環境自動切換資料來源,請通過${資料來源編碼}.table或${資料來源編碼}.schema.table的變數格式訪問。更多資訊,請參見Dataphin資料來源表開發方式。重要資料來源編碼配置成功後不支援修改。
資料來源編碼配置成功後,才能在資產目錄和資產清單的對象詳情頁面進行資料預覽。
Flink SQL中,目前僅支援MySQL、Hologres、MaxCompute、Oracle、StarRocks、Hive、SelectDB資料來源。
版本
HBase 2.x資料來源支援選擇如下版本:
CDH5:1.2.0。
CDP7.1.3:2.2.3。
亞信DP5.x HBase 2.x。
EMR HBase 2.x。
說明HBase0.9.4和HBase1.1.x不支援配置版本。
資料來源描述
填寫對資料來源的簡單描述。不得超過128個字元。
資料來源配置
如果業務資料來源區分生產資料來源和開發資料來源,則選擇生產+開發資料來源。
如果業務資料來源不區分生產資料來源和開發資料來源,則選擇生產資料來源。
主備鏈路
僅服務的高可用或標籤服務的高可用開啟時,可以進行配置。包括僅主鏈路和主備鏈路。
僅主鏈路:僅需要配置一個HBase服務資訊,該資料來源所有的寫操作和讀操作都會經過主鏈路。僅主鏈路模式下,主鏈路發生故障時,不具備高可用性。
主備雙鏈路:需要配置兩個HBase服務資訊,配置的主鏈路發生故障時,備鏈路可以接管主鏈路服務並繼續正常運行。具備高可用性。
標籤
您可以根據標籤給資料來源進行分類打標,如何建立標籤,請參見管理資料來源標籤。
配置資料來源與Dataphin的串連參數。
若您的資料來源配置選擇生產+開發資料來源,則需配置生產+開發資料來源的串連資訊。如果您的資料來源配置為生產資料來源,僅需配置生產資料來源的串連資訊。
說明通常情況下,生產資料來源和開發資料來源需配置為非同一個資料來源,以實現開發資料來源與生產資料來源的環境隔離,降低開發資料來源對生產資料來源的影響。但Dataphin也支援配置成同一個資料來源,即相同參數值。
參數
說明
主鏈路
串連地址
填寫主鏈路串連地址。串連地址的格式為
hb-proxy-{host}-{port}.hbase.rds.aliyuncs.com。Namespace
可選。填寫主鏈路HBase的命名空間。
設定檔
上傳主鏈路HBase的hbase-site.xml設定檔。
串連參數
配置串連主鏈路HBase的參數,參數的格式為JSON樣式。
Kerberos
Kerberos是一種基於對稱金鑰技術的身份認證協議,可以為其他服務提供身份認證功能,且支援SSO(即用戶端身份認證後,可以訪問多個服務,例如HBase和HDFS):
如果Hadoop叢集有Kerberos認證,則需要開啟Kerberos。
開啟Kerberos後,則需要配置如下參數:
Kerberos配置方式:支援KDC Server和Krb5檔案配置方式。
KDC Server地址:配置KDC伺服器位址,輔助完成Kerberos認證。
說明支援配置多個KDC Server服務地址,使用英文逗號
,分割。Krb5檔案配置:需要上傳包含Kerberos認證網域名稱的Krb5檔案。
Keytab File:上傳Kerberos認證的Keytab檔案。
Principal:配置Kerberos認證的Principal名。
如果Hadoop叢集沒有Kerberos認證,則不需要開啟Kerberos。
備鏈路
生產資料來源下主備鏈路模式支援配置備鏈路。主鏈路資訊配置完成後,您可以單擊複製主鏈路配置進行快速配置。
串連地址
填寫備鏈路串連地址。格式為
hb-proxy-{host}-{port}.hbase.rds.aliyuncs.com。Namespace
可選。填寫備鏈路HBase的命名空間。
設定檔
上傳備鏈路HBase的hbase-site.xml設定檔。
串連參數
配置串連備鏈路HBase的參數,參數的格式為JSON樣式。
Kerberos
系統預設與主鏈路的Kerberos配置資訊保持一致,不支援修改。主鏈路開啟Kerberos時,可以自訂上傳Keytab File檔案和Principal。
選擇預設資源群組,該資源群組用於運行與當前資料來源相關任務,包括資料庫SQL、離線整庫遷移、資料預覽等。
進行測試連接或直接單擊確定進行儲存,完成HBase資料來源的建立。
單擊測試連接,系統將測試資料來源是否可以和Dataphin進行正常的連通。若直接單擊確定,系統將自動對所有已選中的叢集進行測試連接,但即使所選中的叢集均串連失敗,資料來源依然可以正常建立。