Spark2.4.5使用 - MaxCompute

本文介紹使用Spark2.4.5版本時所需的專用配置資訊。

重要

建議使用Spark 3以上版本。

提交任務

使用Spark用戶端提交任務時，添加以下參數指定版本，用戶端下載。

# 用於開啟kube模式和eventlog
spark.hadoop.odps.kube.mode=true
spark.hadoop.odps.cupid.data.proxy.enable=true
spark.hadoop.odps.cupid.fuxi.shuffle.enable=true
spark.hadoop.odps.spark.version=spark-2.4.5-odps0.47.0
spark.hadoop.odps.spark.libs.public.enable=true
spark.eventLog.enabled=true
spark.eventLog.dir=/workdir/eventlog/

# 用於讀寫Maxcompute
spark.sql.catalogImplementation=hive
spark.sql.sources.default=hive

使用DataWorks節點提交任務時，添加以下參數指定版本。
```
spark.hadoop.odps.spark.version=spark-2.4.5-odps0.47.0
```

參數配置

參數名	取值	說明
`spark.sql.catalogImplementation`	配置值為`hive`
`spark.sql.sources.default`	配置值為`hive`
`spark.sql.odps.columnarReaderBatchSize`	預設值為`4096`	向量化讀每個batch包含的行數。
`spark.sql.odps.enableVectorizedReader`	預設值為`true`	開啟向量化讀。
`spark.sql.odps.enableVectorizedWriter`	預設值為`true`	開啟向量化寫。
`spark.sql.odps.split.size`	預設值為`256m`	該參數用於調節讀MaxCompute表的並發度，預設每個分區為256 MB。
`spark.hadoop.odps.cupid.vnet.capacity`	預設值為`256`	該參數用於設定最大的Instance數量，建議配置值為`spark.executor.instances + 2`，否則可能會遇到`create virtual net failed`錯誤。該參數需要設定到`spark-defaults.conf`或`DataWorks`配置項中。