使用 Saprk/Spark SQL 來查詢和連結資料表格儲存中的表
通過Table Store及 E-MapReduce 官方團隊發布的依賴包,可以直接使用 Spark 及 Spark SQL 來訪問Table Store中的資料並進行資料的查詢分析。
下載及安裝 Spark/Spark SQL
- 下載版本號碼為 1.6.2 的 Spark 安裝包,安裝包類型為 Pre-built for Hadoop 2.6。(點此下載)
- 按照如下樣本解壓安裝包。
$ cd /home/admin/spark-1.6.2 $ tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz
安裝 JDK-7+
- 下載並安裝 JDK-7+ 安裝包。
-
Linux/MacOS 系統:請用系統內建的包管理器進行安裝
-
Windows 系統:點此下載
-
- 按照如下樣本進行安裝檢查。
$ java -version java version "1.8.0_77" Java(TM) SE Runtime Environment (build 1.8.0_77-b03) Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)
下載Table Store的 Java SDK
- 在 Maven 庫中下載 4.1.0 版本以上的 Java SDK 相關依賴包。(點此下載)
说明 該依賴包會隨最新的 Java SDK 發布,請根據最新的 Java SDK 版本下載相關依賴包。
- 按照如下樣本將 SDK 拷貝到 Spark 目錄下。
$ mv tablestore-4.1.0-jar-with-dependencies.jar /home/admin/spark-1.6.2/
下載阿里雲 EMR SDK
下載 EMR SDK 相關的依賴包。(點此下載)
说明 瞭解更多 EMR 資訊請參見
這裡。
啟動 Spark SQL
$ cd /home/admin/spark-1.6.2/
$ bin/spark-sql --master local --jars tablestore-4.3.1-jar-with-dependencies.jar,emr-tablestore-1.4.2.jar