ApsaraDB for HBase增強版提供LTS服務能夠支援各種HBase版本之間相互遷移和即時同步,並且支援同步RDS、Loghub的即時資料到HBase,DataX是阿里巴巴集團內被廣泛使用的離線資料同步工具,實現MySQL、Oracle、SqlServer、PostgreSQL、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS等各種異構資料來源之間高效的資料同步功能。
前提條件
叢集為2.4.3及以上版本。如何查看或升級目前的版本,請參見小版本升級。
已將用戶端IP地址添加至HBase白名單。如何添加,請參見設定白名單和安全性群組。
注意事項
當前方式僅支援通過專用網路訪問HBase叢集。
重要如果您想要通過公網訪問,在執行本文操作前,需要先升級SDK。具體操作,請參見升級HBase Java SDK。
如果應用部署在ECS執行個體,通過專用網路訪問HBase叢集前,需要確保HBase叢集和ECS執行個體滿足以下條件,以保證網路的連通性。
所在地區相同,並建議所在可用性區域相同(以減少網路延時)。
ECS執行個體與HBase叢集屬於同一專用網路。
使用DataX進行資料同步
使用DataX進行資料同步有兩種方法:
使用阿里雲DataWorks的Data Integration服務配置DataX任務(推薦使用該方法)。
使用開源DataX配置同步任務。
使用阿里雲DataWorks配置DataX任務
建立工作空間,詳情請參見建立工作空間。
建立資源群組,資源群組類型和說明如下表。推薦使用獨享資源群組和自訂資源群組的方式訪問HBase。
資源群組類型
配置文檔
特點
注意事項
獨享資源群組
獨享資源群組的機器由DataWorks自動買出,營運完全託管於系統,您無需擔心機器服務和可用性等問題。
獨享資源不支援跨地區使用。例如,華東2(上海)地區的獨享資源,只能給華東2(上海)地區的工作空間使用(無法綁定其他地區的VPC),並且獨享資源群組不能跨vSwitch訪問HBase叢集。
自訂資源群組
僅DataWorks企業版及以上版本支援自訂資源群組。自訂資源群組的ECS機器由使用者自己買出,使用者可以將ECS買在HBase的VPC內,從而用內網訪問HBase,否則只能用外網訪問。
自訂資源群組的機器完全可控、可登入訪問,但是需要自行安裝/營運/升級DataX版本。
預設資源群組
無
預設資源群組機器只能通過公網訪問HBase。
公網訪問HBase會在DataWorks產生額外費用。
配置網路。
建立同步任務並綁定資源群組。
建立同步任務,具體方法參見通過嚮導模式配置離線同步任務。
修改外掛程式配置,讀寫HBase分別使用HBase Writer和HBase Reader外掛程式。
相關的配置可以參考具體外掛程式的協助。但是HBase增強版"hbaseconfig"部分不再使用Zookeeper.quorum這個參數串連,而是使用增強版特有的endpoint形式,配置樣本如下:
"hbaseConfig": { "hbase.client.connection.impl" : "com.alibaba.hbase.client.AliHBaseUEConnection", "hbase.client.endpoint" : "host:30020", "hbase.client.username" : "testuser", "hbase.client.password" : "password" }說明hbase.client.connection.impl:固定配置不需要修改。
hbase.client.endpoint:使用者控制台上提供的Java API訪問地址,使用者可以參考串連叢集獲得。
hbase.client.username和password:HBase增強版中使用者自己建立的使用者名稱和密碼(預設均為root),使用者必須保證提供的使用者有讀寫HBase增強版中表的許可權(預設提供的root使用者已經具有讀寫所有表的許可權)。
HBase版本請選擇1.1.x。