本文介绍如何配置Spark类型的作业。

前提条件

已创建好项目,详情请参见项目管理

操作步骤

  1. 通过主账号登录阿里云 E-MapReduce 控制台
  2. 单击上方的数据开发页签。
  3. 项目列表页面,单击对应项目所在行的作业编辑
  4. 在页面左侧,在需要操作的文件夹上单击右键,选择新建作业
    说明 您还可以通过在文件夹上单击右键,进行新建子文件夹、重命名文件夹和删除文件夹操作。
  5. 输入作业名称作业描述,选择Spark作业类型。
    表示创建的作业是一个Spark作业。这种类型的作业,其运行实际是通过以下方式提交的Spark作业。
    spark-submit [options] --class [MainClass] xxx.jar args
  6. 单击确定
  7. 作业内容中,填写提交该作业需要提供的命令行参数。
    只需要填写spark-submit之后的参数即可。

    以下分别展示如何填写创建Spark作业和pyspark作业的参数。

    • 创建Spark作业 。

      新建一个Spark WordCount作业。

      • 作业名称: Wordcount。
      • 类型:选择Spark。
      • 应用参数:
        • 在命令行下提交完整的命令。
          spark-submit --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32
        • 在E-MapReduce 作业的作业内容输入框中只需要填写:。
          --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32
          注意 jar包保存在OSS 中,引用这个jar包的方式是 ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar。您可以单击下方的插入OSS 路径文件前缀选择OSSREF,从文件路径中进行浏览和选择,系统会自动补齐OSS上Spark脚本的路径。
    • 创建pyspark作业。

      E-MapReduce除了支持Scala或者Java类型作业外,还支持python类型Spark作业。以下是新建一个python脚本的Spark Kmeans作业。

      • 作业名称:Python-Kmeans。
      • 类型:Spark。
      • 应用参数。
        --master yarn-client --driver-memory 7g --num-executors 10 --executor-memory 5g --executor-cores 1  ossref://emr/checklist/python/kmeans.py oss://emr/checklist/data/kddb 5 32
      • 支持Python脚本资源的引用,同样使用ossref协议。
      • pyspark目前不支持在线安装Python工具包。
  8. 单击保存,作业配置即定义完成。