環境準備 - Tablestore

使用Hive/HadoopMR來訪問Tablestore中的表

通過Tablestore及E-MapReduce官方團隊發布的依賴包，可以直接使用Hive及HadoopMR來訪問Tablestore中的資料並進行資料分析。

安裝JDK-7+

下載並安裝JDK-7+安裝包。
- Linux/macOS系統：使用系統內建的包管理器安裝
- Windows系統：具體下載路徑請參見JDK安裝包

按照以下樣本進行安裝檢查。

    $ java -version
    java version "1.8.0_77"
    Java(TM) SE Runtime Environment (build 1.8.0_77-b03)
    Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)

安裝並啟動Hadoop環境

下載2.6.0版本以上的Hadoop安裝包，具體下載路徑請參見Hadoop安裝包。
解壓並安裝，根據實際叢集情況安裝Hadoop服務。

按照如下樣本啟動Hadoop環境。

$ bin/start-all.sh
# 檢查服務是否成功啟動。
$ jps
24017 NameNode
24835 Jps
24131 DataNode
24438 ResourceManager
5114 HMaster
24287 SecondaryNameNode
24527 NodeManager

在/etc/profile中添加Hadoop路徑，並執行source /etc/profile命令使配置生效。

export HADOOP_HOME=/data/hadoop/hadoop-2.6.0
export PATH=$PATH:$HADOOP_HOME/bin

下載及安裝Hive環境

下載類型為bin.tar.gz的Hive安裝包，具體下載路徑請參見Hive安裝包。

按照如下樣本解壓安裝包。

$ mkdir /home/admin/hive-2.1.0
$ tar -zxvf apache-hive-2.1.0-bin.tar.gz -C /home/admin/
$ mv /home/admin/apache-hive-2.1.0-bin /home/admin/hive-2.1.0/

按照如下樣本初始化schema。

    # 進入指定的目錄。
    $ cd /home/admin/hive-2.1.0/

    # 初始化，如果是mysql則derby可以直接替換成mysql。
    # 如果執行出錯可以刪除rm -rf metastore_db/之後重新執行。
    $ ./bin/schematool -initSchema -dbType derby

按照如下樣本啟動Hive環境。

$ ./bin/hive
# 檢查服務是否成功啟動。
hive> show databases;
OK
default
Time taken: 0.207 seconds, Fetched: 1 row(s)

下載Tablestore的Java SDK

在Maven庫中下載4.1.0版本以上的Java SDK相關依賴包，具體下載路徑請參見Java SDK歷史迭代版本。
Java SDK相關依賴包會隨最新的Java SDK發布，請下載最新的相關依賴包。

按照如下樣本將SDK拷貝到Hive目錄下。

$ mv tablestore-4.1.0-jar-with-dependencies.jar /home/admin/hive-2.1.0/

下載阿里雲EMR SDK

下載EMR SDK依賴包，具體下載路徑請參見EMR SDK依賴包。