本文為您介紹使用Hive/HadoopMR訪問Tablestore中的表前的環境準備。

使用Hive/HadoopMR來訪問Tablestore中的表

通過TablestoreE-MapReduce官方團隊發布的依賴包,可以直接使用Hive及HadoopMR來訪問Tablestore中的資料並進行資料分析。

安裝JDK-7+

  1. 下載並安裝JDK-7+安裝包。
    • Linux/macOS系統:使用系統內建的包管理器安裝

    • Windows系統:具體下載路徑請參見JDK安裝包

  2. 按照以下樣本進行安裝檢查。
        $ java -version
        java version "1.8.0_77"
        Java(TM) SE Runtime Environment (build 1.8.0_77-b03)
        Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)
                            

安裝並啟動Hadoop環境

  1. 下載2.6.0版本以上的Hadoop安裝包,具體下載路徑請參見Hadoop安裝包
  2. 解壓並安裝,根據實際叢集情況安裝Hadoop服務。
  3. 按照如下樣本啟動Hadoop環境。
    $ bin/start-all.sh
    # 檢查服務是否成功啟動。
    $ jps
    24017 NameNode
    24835 Jps
    24131 DataNode
    24438 ResourceManager
    5114 HMaster
    24287 SecondaryNameNode
    24527 NodeManager
                            
  4. /etc/profile中添加Hadoop路徑,並執行source /etc/profile命令使配置生效。
    export HADOOP_HOME=/data/hadoop/hadoop-2.6.0
    export PATH=$PATH:$HADOOP_HOME/bin                  

下載及安裝Hive環境

  1. 下載類型為bin.tar.gz的Hive安裝包,具體下載路徑請參見Hive安裝包
  2. 按照如下樣本解壓安裝包。
    $ mkdir /home/admin/hive-2.1.0
    $ tar -zxvf apache-hive-2.1.0-bin.tar.gz -C /home/admin/
    $ mv /home/admin/apache-hive-2.1.0-bin /home/admin/hive-2.1.0/
                            
  3. 按照如下樣本初始化schema。
        # 進入指定的目錄。
        $ cd /home/admin/hive-2.1.0/
    
        # 初始化,如果是mysql則derby可以直接替換成mysql。
        # 如果執行出錯可以刪除rm -rf metastore_db/之後重新執行。
        $ ./bin/schematool -initSchema -dbType derby
                            
  4. 按照如下樣本啟動Hive環境。
    $ ./bin/hive
    # 檢查服務是否成功啟動。
    hive> show databases;
    OK
    default
    Time taken: 0.207 seconds, Fetched: 1 row(s)                

下載Tablestore的Java SDK

  1. 在Maven庫中下載4.1.0版本以上的Java SDK相關依賴包,具體下載路徑請參見Java SDK歷史迭代版本
    Java SDK相關依賴包會隨最新的Java SDK發布,請下載最新的相關依賴包。
  2. 按照如下樣本將SDK拷貝到Hive目錄下。
    $ mv tablestore-4.1.0-jar-with-dependencies.jar /home/admin/hive-2.1.0/                  

下載阿里雲EMR SDK

下載EMR SDK依賴包,具體下載路徑請參見EMR SDK依賴包