本文為您介紹使用Hive/HadoopMR訪問Tablestore中的表前的環境準備。
使用Hive/HadoopMR來訪問Tablestore中的表
通過Tablestore及E-MapReduce官方團隊發布的依賴包,可以直接使用Hive及HadoopMR來訪問Tablestore中的資料並進行資料分析。
安裝JDK-7+
- 下載並安裝JDK-7+安裝包。
- 按照以下樣本進行安裝檢查。
$ java -version
java version "1.8.0_77"
Java(TM) SE Runtime Environment (build 1.8.0_77-b03)
Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)
安裝並啟動Hadoop環境
- 下載2.6.0版本以上的Hadoop安裝包,具體下載路徑請參見Hadoop安裝包。
- 解壓並安裝,根據實際叢集情況安裝Hadoop服務。
- 按照如下樣本啟動Hadoop環境。
$ bin/start-all.sh
# 檢查服務是否成功啟動。
$ jps
24017 NameNode
24835 Jps
24131 DataNode
24438 ResourceManager
5114 HMaster
24287 SecondaryNameNode
24527 NodeManager
- 在/etc/profile中添加Hadoop路徑,並執行source /etc/profile命令使配置生效。
export HADOOP_HOME=/data/hadoop/hadoop-2.6.0
export PATH=$PATH:$HADOOP_HOME/bin
下載及安裝Hive環境
- 下載類型為bin.tar.gz的Hive安裝包,具體下載路徑請參見Hive安裝包。
- 按照如下樣本解壓安裝包。
$ mkdir /home/admin/hive-2.1.0
$ tar -zxvf apache-hive-2.1.0-bin.tar.gz -C /home/admin/
$ mv /home/admin/apache-hive-2.1.0-bin /home/admin/hive-2.1.0/
- 按照如下樣本初始化schema。
# 進入指定的目錄。
$ cd /home/admin/hive-2.1.0/
# 初始化,如果是mysql則derby可以直接替換成mysql。
# 如果執行出錯可以刪除rm -rf metastore_db/之後重新執行。
$ ./bin/schematool -initSchema -dbType derby
- 按照如下樣本啟動Hive環境。
$ ./bin/hive
# 檢查服務是否成功啟動。
hive> show databases;
OK
default
Time taken: 0.207 seconds, Fetched: 1 row(s)
下載Tablestore的Java SDK
- 在Maven庫中下載4.1.0版本以上的Java SDK相關依賴包,具體下載路徑請參見Java SDK歷史迭代版本。
Java SDK相關依賴包會隨最新的Java SDK發布,請下載最新的相關依賴包。
- 按照如下樣本將SDK拷貝到Hive目錄下。
$ mv tablestore-4.1.0-jar-with-dependencies.jar /home/admin/hive-2.1.0/