本节将创建并运行一个Spark Pi的作业示例,并最终在控制台上显示圆周率Pi的近似计算结果,以帮助您快速了解E-MapReduce中集群、作业的作用和使用方法。

背景信息

如果作业涉及的资源包和数据源存储在OSS中,则在创建作业时您需要使用以下两种OSS路径:

  • oss://的前缀代表数据路径指向一个OSS路径,为读写该数据指明路径,与hdfs://类似。一般作业的数据源使用此种路径 。
  • ossref://也指向一个OSS路径,不同的是它会将对应的代码资源下载到本地,然后将命令行中的路径替换为本地路径。ossref://类型的路径可更方便地运行一些本地代码,而不需要登录机器来上传代码和依赖资源包。一般作业资源包使用此种路径。

    例如,作业资源的jar包路径为ossref://xxxxxx/xxx.jar,则作业运行时,E-MapReduce会自动下载这个jar包到集群中运行。

    注意 ossref不可用于下载过大的数据资源,否则会导致集群作业运行失败。

操作步骤

  1. 登录阿里云E-MapReduce控制台
  2. 在顶部菜单栏处,选择地域(Region)。根据实际情况选择资源组,默认显示账号全部资源。
  3. 单击上方的数据开发页签。
  4. 项目列表页面,单击对应项目所在行的作业编辑
  5. 在页面左侧,在需要操作的文件夹上单击右键,选择新建作业
    说明 您还可以通过在文件夹上单击右键,进行创建子文件夹、重命名文件夹和删除文件夹操作。
  6. 输入作业名称作业描述,选择作业类型
    例如,选择作业类型Spark
  7. 单击确定
  8. 配置作业内容。
    内容示例如下。
    --class org.apache.spark.examples.SparkPi --master yarn-client --driver-memory 512m --num-executors 1 --executor-memory 1g --executor-cores 2 /usr/lib/spark-current/examples/jars/spark-examples_2.11-2.1.1.jar 10
    说明 /usr/lib/spark-current/examples/jars/spark-examples_2.11-2.1.1.jar 需要根据实际集群中的 Spark 版本来修改。例如,Spark 版本是 2.1.1, 则 jar 包为 spark-examples_2.11-2.1.1.jar;Spark 版本是 2.2.0,则 jar 包为 spark-examples_2.11-2.2.0.jar
  9. 单击运行
    查看作业日志并确认结果。

    作业运行后,您可以在页面下方的运行记录页签中查看作业的运行日志。单击详情跳转至运行记录中该作业的详细日志页面,可以查看作业的提交日志、YARN Container日志。