全部產品
Search
文件中心

ApsaraDB for HBase:使用DataWorks或者DataX匯入資料

更新時間:Jul 06, 2024

ApsaraDB for HBase增強版提供LTS服務能夠支援各種HBase版本之間相互遷移和即時同步,並且支援同步RDS、Loghub的即時資料到HBase,DataX是阿里巴巴集團內被廣泛使用的離線資料同步工具,實現MySQL、Oracle、SqlServer、PostgreSQL、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS等各種異構資料來源之間高效的資料同步功能。

前提條件

注意事項

  • 當前方式僅支援通過專用網路訪問HBase叢集

    重要

    如果您想要通過公網訪問,在執行本文操作前,需要先升級SDK。具體操作,請參見升級HBase Java SDK

  • 如果應用部署在ECS執行個體,通過專用網路訪問HBase叢集前,需要確保HBase叢集和ECS執行個體滿足以下條件,以保證網路的連通性。

    • 所在地區相同,並建議所在可用性區域相同(以減少網路延時)。

    • ECS執行個體與HBase叢集屬於同一專用網路。

使用DataX進行資料同步

使用DataX進行資料同步有兩種方法:

  • 使用阿里雲DataWorks的Data Integration服務配置DataX任務(推薦使用該方法)。

  • 使用開源DataX配置同步任務。

使用阿里雲DataWorks配置DataX任務

  1. 建立工作空間,詳情請參見建立工作空間

  2. 建立資源群組,資源群組類型和說明如下表。推薦使用獨享資源群組和自訂資源群組的方式訪問HBase。

    資源群組類型

    配置文檔

    特點

    注意事項

    獨享資源群組

    獨享資源群組模式

    獨享資源群組的機器由DataWorks自動買出,營運完全託管於系統,您無需擔心機器服務和可用性等問題。

    獨享資源不支援跨地區使用。例如,華東2(上海)地區的獨享資源,只能給華東2(上海)地區的工作空間使用(無法綁定其他地區的VPC),並且獨享資源群組不能跨vSwitch訪問HBase叢集。

    自訂資源群組

    新增和使用自訂Data Integration資源群組

    僅DataWorks企業版及以上版本支援自訂資源群組。自訂資源群組的ECS機器由使用者自己買出,使用者可以將ECS買在HBase的VPC內,從而用內網訪問HBase,否則只能用外網訪問。

    自訂資源群組的機器完全可控、可登入訪問,但是需要自行安裝/營運/升級DataX版本。

    預設資源群組

    預設資源群組機器只能通過公網訪問HBase。

    公網訪問HBase會在DataWorks產生額外費用。

  3. 配置網路。

    • 獨享資源群組網路設定。

      1. 將獨享資源群組與HBase所在VPC綁定,詳情請參見獨享資源群組模式

      2. VPC控制台中找到獨立資源群組所綁定的VPC和vSwitch所在的IPv4網段。將IPv4添加至雲資料HBase增強版的白名單,具體操作請參見設定白名單

    • 自訂資源群組網路設定。

      自訂資源群組的機器都是使用者自己購買,因此能看到每台ECS的具體IP,將這些IP全部配置到雲資料HBase增強版的白名單,具體操作請參見設定白名單

    • 預設資源群組網路設定。

      預設資源群組機器的IP段詳見IP網段,將地區對應的IP添加到雲資料HBase增強版的白名單,具體操作請參見設定白名單

  4. 建立同步任務並綁定資源群組。

    1. 建立同步任務,具體方法參見通過嚮導模式配置離線同步任務

    2. 修改外掛程式配置,讀寫HBase分別使用HBase WriterHBase Reader外掛程式。

      相關的配置可以參考具體外掛程式的協助。但是HBase增強版"hbaseconfig"部分不再使用Zookeeper.quorum這個參數串連,而是使用增強版特有的endpoint形式,配置樣本如下:

      "hbaseConfig": {
        "hbase.client.connection.impl" : "com.alibaba.hbase.client.AliHBaseUEConnection",
        "hbase.client.endpoint" : "host:30020",
        "hbase.client.username" : "testuser",
        "hbase.client.password" : "password"
      }
      說明
      • hbase.client.connection.impl:固定配置不需要修改。

      • hbase.client.endpoint:使用者控制台上提供的Java API訪問地址,使用者可以參考串連叢集獲得。

      • hbase.client.username和password:HBase增強版中使用者自己建立的使用者名稱和密碼(預設均為root),使用者必須保證提供的使用者有讀寫HBase增強版中表的許可權(預設提供的root使用者已經具有讀寫所有表的許可權)。

      • HBase版本請選擇1.1.x。

使用開源DataX配置同步任務

  1. 從官網下載DataX安裝包並解壓。

  2. 編輯設定檔。

    在DataX中,讀取HBase增強版的外掛程式為hbase11xreader,此外掛程式的具體配置可參見hbase11xreader的配置樣本。寫入HBase增強版的外掛程式為hbase11xwriter,此外掛程式的具體配置可參見hbase11xwriter的配置樣本。配置樣本如下:

    ...
    "hbaseConfig": {
      // 叢集的串連地址(VPC內網地址)
      "hbase.zookeeper.quorum": "ld-bp150tns0sjxs****-proxy-hbaseue.hbaseue.rds.aliyuncs.com:30020"
    }
    ...
                        
  3. 啟動DataX開始遷移資料,DataX的具體使用方式請參見DataX官方使用文檔