全部產品
Search
文件中心

MaxCompute:Spark2.4.5使用

更新時間:Mar 13, 2026

本文介紹使用Spark2.4.5版本時所需的專用配置資訊。

重要

建議使用Spark 3以上版本。

提交任務

  • 使用Spark用戶端提交任務時,添加以下參數指定版本,用戶端下載

    # 用於開啟kube模式和eventlog
    spark.hadoop.odps.kube.mode=true
    spark.hadoop.odps.cupid.data.proxy.enable=true
    spark.hadoop.odps.cupid.fuxi.shuffle.enable=true
    spark.hadoop.odps.spark.version=spark-2.4.5-odps0.47.0
    spark.hadoop.odps.spark.libs.public.enable=true
    spark.eventLog.enabled=true
    spark.eventLog.dir=/workdir/eventlog/
    
    # 用於讀寫Maxcompute
    spark.sql.catalogImplementation=hive
    spark.sql.sources.default=hive
  • 使用DataWorks節點提交任務時,添加以下參數指定版本。

    spark.hadoop.odps.spark.version=spark-2.4.5-odps0.47.0

參數配置

參數名

取值

說明

spark.sql.catalogImplementation

配置值為hive

spark.sql.sources.default

配置值為hive

spark.sql.odps.columnarReaderBatchSize

預設值為4096

向量化讀每個batch包含的行數。

spark.sql.odps.enableVectorizedReader

預設值為true

開啟向量化讀。

spark.sql.odps.enableVectorizedWriter

預設值為true

開啟向量化寫。

spark.sql.odps.split.size

預設值為256m

該參數用於調節讀MaxCompute表的並發度,預設每個分區為256 MB。

spark.hadoop.odps.cupid.vnet.capacity

預設值為256

  • 該參數用於設定最大的Instance數量,建議配置值為spark.executor.instances + 2,否則可能會遇到create virtual net failed錯誤。

  • 該參數需要設定到spark-defaults.confDataWorks配置項中。