本文介紹使用Spark3.4.2&3.5.2版本時所需的專用配置資訊。
提交任務
使用叢集模式
使用Spark用戶端提交任務。
添加以下參數指定版本,用戶端下載spark3.4.2或下載spark-3.5.2。
# 用於開啟kube模式和eventlog spark.hadoop.odps.kube.mode=true spark.hadoop.odps.cupid.data.proxy.enable=true spark.hadoop.odps.cupid.fuxi.shuffle.enable=true ## for spark 3.4.2 spark.hadoop.odps.spark.version=spark-3.4.2-odps0.48.0 ## for spark 3.5.2 spark.hadoop.odps.spark.version=spark-3.5.2-odps0.49.0 spark.hadoop.odps.spark.libs.public.enable=true spark.eventLog.enabled=true spark.eventLog.dir=/workdir/eventlog/ # 用於讀寫Maxcompute spark.sql.defaultCatalog=odps spark.sql.catalog.odps=org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog spark.sql.sources.partitionOverwriteMode=dynamic spark.sql.extensions=org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions使用DataWorks節點提交任務,添加以下參數指定版本。
## for spark 3.4.2 spark.hadoop.odps.spark.version=spark-3.4.2-odps0.48.0 ## for spark 3.5.2 spark.hadoop.odps.spark.version=spark-3.5.2-odps0.49.0
參數配置
參數名 | 取值 | 說明 |
| 配置值為 | |
| 配置值為 | |
| 配置值為 | |
| 配置值為 | |
| 預設值為 | 如果MaxCompute專案開啟Schema級文法開關,需要設定為true。 |
| 預設值為 | 開啟向量化讀。 |
| 預設值為 | 開啟向量化寫。 |
| 預設值為 | 該參數用於調節讀MaxCompute表的並發度,預設每個分區為256MB。 |
| 預設值為 | 使用 |
| 預設值為 | 使用 |
| 預設值為 | 叢集模式下使用alinux3 base鏡像,Python 3.11版本。 |
| 預設值為 | 叢集模式下使用Native Engine加速計算,Native Engine預設使用alinux3 base鏡像。 |