使用 Saprk/Spark SQL 來查詢和連結資料表格儲存中的表

通過Table StoreE-MapReduce 官方團隊發布的依賴包,可以直接使用 Spark 及 Spark SQL 來訪問Table Store中的資料並進行資料的查詢分析。

下載及安裝 Spark/Spark SQL

  1. 下載版本號碼為 1.6.2 的 Spark 安裝包,安裝包類型為 Pre-built for Hadoop 2.6。(點此下載
  2. 按照如下樣本解壓安裝包。
    $ cd /home/admin/spark-1.6.2
    $ tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz
    

安裝 JDK-7+

  1. 下載並安裝 JDK-7+ 安裝包。
    • Linux/MacOS 系統:請用系統內建的包管理器進行安裝

    • Windows 系統:點此下載

  2. 按照如下樣本進行安裝檢查。
    $ java -version
    java version "1.8.0_77"
    Java(TM) SE Runtime Environment (build 1.8.0_77-b03)
    Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)
    

下載Table Store的 Java SDK

  1. 在 Maven 庫中下載 4.1.0 版本以上的 Java SDK 相關依賴包。(點此下載
    说明 該依賴包會隨最新的 Java SDK 發布,請根據最新的 Java SDK 版本下載相關依賴包。
  2. 按照如下樣本將 SDK 拷貝到 Spark 目錄下。
    $ mv tablestore-4.1.0-jar-with-dependencies.jar /home/admin/spark-1.6.2/
    

下載阿里雲 EMR SDK

下載 EMR SDK 相關的依賴包。(點此下載

说明 瞭解更多 EMR 資訊請參見 這裡

啟動 Spark SQL

$ cd /home/admin/spark-1.6.2/
$ bin/spark-sql --master local --jars tablestore-4.3.1-jar-with-dependencies.jar,emr-tablestore-1.4.2.jar