全部產品
Search
文件中心

E-MapReduce:Spark作業配置

更新時間:Jul 01, 2024

本文介紹如何配置Spark類型的作業。

前提條件

已建立好專案,詳情請參見專案管理

操作步驟

  1. 進入資料開發的專案列表頁面。
    1. 通過阿里雲帳號登入阿里雲E-MapReduce控制台
    2. 在頂部功能表列處,根據實際情況選擇地區和資源群組
    3. 單擊上方的資料開發頁簽。
  2. 單擊待編輯專案所在行的作業編輯
  3. 建立Spark類型作業。
    1. 在頁面左側,在需要操作的檔案夾上單擊右鍵,選擇新增作業
    2. 新增作業對話方塊中,輸入作業名稱作業描述,從作業類型下拉式清單中選擇Spark作業類型。
      表示建立的作業是一個Spark作業。這種類型的作業,實際是通過以下方式提交的Spark作業運行。
      spark-submit [options] --class [MainClass] xxx.jar args
    3. 單擊確定
  4. 編輯作業內容。
    1. 作業內容中,填寫提交該作業需要提供的命令列參數。
      只需要填寫spark-submit之後的參數即可。
      以下分別展示如何填寫建立Spark作業和Pyspark作業的參數:
      • 建立Spark作業 。
        建立一個Spark作業,作業名稱為Wordcount,應用參數填寫樣本如下:
        • 在命令列下提交完整的命令。
          spark-submit --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32
        • 在E-MapReduce作業的作業內容輸入框中填寫如下命令。
          --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32
          重要 JAR包儲存在OSS中,引用這個JAR包的方式是ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar。您可以單擊下方的+插入OSS路徑檔案首碼選擇OSSREF,從檔案路徑中進行瀏覽和選擇,系統會自動補齊OSS上Spark指令碼的路徑。
      • 建立Pyspark作業。
        E-MapReduce除了支援Scala或者Java類型作業外,還支援Python類型Spark作業。建立一個Python指令碼的Spark作業,作業名稱為Python-Kmeans,應用參數填寫樣本如下:
        --master yarn-client --driver-memory 7g --num-executors 10 --executor-memory 5g --executor-cores 1 ossref://emr/checklist/python/kmeans.py oss://emr/checklist/data/kddb 5 32
        重要
        • 支援Python指令碼資源的引用,同樣使用ossref協議。
        • Pyspark不支援通過作業方式安裝Python工具包。
    2. 單擊儲存,作業內容編輯完成。