本文介绍如何配置Spark SQL类型的作业。

前提条件

已创建好项目,详情请参见项目管理

背景信息

说明 Spark SQL提交作业的模式默认是Yarn-client模式。

操作步骤

  1. 已通过主账号登录阿里云E-MapReduce控制台
  2. 输入作业名称作业描述,选择Spark SQL作业类型。
    此类型的作业,实际是通过以下方式提交的Spark SQL作业。
    spark-sql [options] [cli options] {SQL_CONTENT}                
    参数描述如下:
    • options: 在作业设置页面的高级设置页签,单击环境变量所在行的add图标,通过添加环境变量IMPALA_CLI_PARAMS设置。

      例如,添加SPARK_CLI_PARAMS"--executor-memory 1g --executor-cores"

    • cli options :例如, -e <quoted-query-string> 表示运行引号内的SQL查询语句。-f <filename>表示运行文件中的SQL语句。
    • SQL_CONTENT:填写的SQL语句。
  3. 单击确定
  4. 作业内容中,输入Spark SQL语句。
    示例如下:
    -- SQL语句示例。
    -- SQL语句最大不能超过64KB。
    show databases;
    show tables;
    -- 系统会自动为SELECT语句加上'limit 2000'的限制。
    select * from test1;
  5. 单击保存,作业配置即定义完成。