Spark3.4.2配置 - MaxCompute

本文介紹使用Spark3.4.2&3.5.2版本時所需的專用配置資訊。

提交任務

使用叢集模式

使用Spark用戶端提交任務。

添加以下參數指定版本，用戶端下載spark3.4.2或下載spark-3.5.2。

# 用於開啟kube模式和eventlog
spark.hadoop.odps.kube.mode=true
spark.hadoop.odps.cupid.data.proxy.enable=true
spark.hadoop.odps.cupid.fuxi.shuffle.enable=true

## for spark 3.4.2
spark.hadoop.odps.spark.version=spark-3.4.2-odps0.48.0

## for spark 3.5.2
spark.hadoop.odps.spark.version=spark-3.5.2-odps0.49.0
spark.hadoop.odps.spark.libs.public.enable=true
spark.eventLog.enabled=true
spark.eventLog.dir=/workdir/eventlog/

# 用於讀寫Maxcompute
spark.sql.defaultCatalog=odps
spark.sql.catalog.odps=org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog
spark.sql.sources.partitionOverwriteMode=dynamic
spark.sql.extensions=org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions

使用DataWorks節點提交任務，添加以下參數指定版本。

## for spark 3.4.2
spark.hadoop.odps.spark.version=spark-3.4.2-odps0.48.0

## for spark 3.5.2
spark.hadoop.odps.spark.version=spark-3.5.2-odps0.49.0

參數配置

參數名	取值	說明
`spark.sql.defaultCatalog`	配置值為`odps`
`spark.sql.catalog.odps`	配置值為`org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog`
`spark.sql.sources.partitionOverwriteMode`	配置值為`dynamic`
`spark.sql.extensions`	配置值為`org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions`
`spark.sql.catalog.odps.enableNamespaceSchema`	預設值為`false`	如果MaxCompute專案開啟Schema級文法開關，需要設定為true。
`spark.sql.catalog.odps.enableVectorizedReader`	預設值為`true`	開啟向量化讀。
`spark.sql.catalog.odps.enableVectorizedWriter`	預設值為`true`	開啟向量化寫。
`spark.sql.catalog.odps.splitSizeInMB`	預設值為`256`	該參數用於調節讀MaxCompute表的並發度，預設每個分區為256MB。
`spark.sql.catalog.odps.tableReadProvider`	預設值為`v1`	使用`local`模式時需要設定為tunnel。
`spark.sql.catalog.odps.tableWriteProvider`	預設值為`v1`	使用`local`模式時需要設定為tunnel。
`spark.hadoop.odps.spark.alinux3.enabled`	預設值為`false`	叢集模式下使用alinux3 base鏡像，Python 3.11版本。
`spark.hadoop.odps.native.engine.enable`	預設值為`false`	叢集模式下使用Native Engine加速計算，Native Engine預設使用alinux3 base鏡像。