本文介紹如何配置Spark類型的作業。
前提條件
已建立好專案,詳情請參見專案管理。操作步驟
- 進入資料開發的專案列表頁面。
- 通過阿里雲帳號登入阿里雲E-MapReduce控制台。
- 在頂部功能表列處,根據實際情況選擇地區和資源群組。
- 單擊上方的資料開發頁簽。
- 單擊待編輯專案所在行的作業編輯。
- 建立Spark類型作業。
- 在頁面左側,在需要操作的檔案夾上單擊右鍵,選擇新增作業。
- 在新增作業對話方塊中,輸入作業名稱和作業描述,從作業類型下拉式清單中選擇Spark作業類型。表示建立的作業是一個Spark作業。這種類型的作業,實際是通過以下方式提交的Spark作業運行。
spark-submit [options] --class [MainClass] xxx.jar args - 單擊確定。
- 編輯作業內容。
- 在作業內容中,填寫提交該作業需要提供的命令列參數。只需要填寫spark-submit之後的參數即可。以下分別展示如何填寫建立Spark作業和Pyspark作業的參數:
- 建立Spark作業 。 建立一個Spark作業,作業名稱為Wordcount,應用參數填寫樣本如下:
- 在命令列下提交完整的命令。
spark-submit --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32 - 在E-MapReduce作業的作業內容輸入框中填寫如下命令。
--master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32重要 JAR包儲存在OSS中,引用這個JAR包的方式是ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar。您可以單擊下方的+插入OSS路徑,檔案首碼選擇OSSREF,從檔案路徑中進行瀏覽和選擇,系統會自動補齊OSS上Spark指令碼的路徑。
- 在命令列下提交完整的命令。
- 建立Pyspark作業。 E-MapReduce除了支援Scala或者Java類型作業外,還支援Python類型Spark作業。建立一個Python指令碼的Spark作業,作業名稱為Python-Kmeans,應用參數填寫樣本如下:
--master yarn-client --driver-memory 7g --num-executors 10 --executor-memory 5g --executor-cores 1 ossref://emr/checklist/python/kmeans.py oss://emr/checklist/data/kddb 5 32重要- 支援Python指令碼資源的引用,同樣使用ossref協議。
- Pyspark不支援通過作業方式安裝Python工具包。
- 建立Spark作業 。
- 單擊儲存,作業內容編輯完成。
- 在作業內容中,填寫提交該作業需要提供的命令列參數。