Spark 3.4.2 の構成 - MaxCompute - Alibaba Cloud ドキュメントセンター

このトピックでは、Spark 3.4.2 および 3.5.2 を使用するために必要な構成について説明します。

タスクの送信

クラスターモードの使用

Spark クライアントを使用してタスクを送信します。

バージョンを指定するには、以下のパラメーターを追加してください。クライアントは、Spark 3.4.2 のダウンロードまたはSpark 3.5.2 のダウンロードから取得してください。

# kube モードとイベントログを有効化
spark.hadoop.odps.kube.mode=true
spark.hadoop.odps.cupid.data.proxy.enable=true
spark.hadoop.odps.cupid.fuxi.shuffle.enable=true

## Spark 3.4.2 向け
spark.hadoop.odps.spark.version=spark-3.4.2-odps0.48.0

## Spark 3.5.2 向け
spark.hadoop.odps.spark.version=spark-3.5.2-odps0.49.0
spark.hadoop.odps.spark.libs.public.enable=true
spark.eventLog.enabled=true
spark.eventLog.dir=/workdir/eventlog/

# MaxCompute の読み取りおよび書き込み用
spark.sql.defaultCatalog=odps
spark.sql.catalog.odps=org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog
spark.sql.sources.partitionOverwriteMode=dynamic
spark.sql.extensions=org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions

DataWorks ノードを使用してタスクを送信します。バージョンを指定するには、以下のパラメーターを追加してください。
```
## Spark 3.4.2 向け
spark.hadoop.odps.spark.version=spark-3.4.2-odps0.48.0

## Spark 3.5.2 向け
spark.hadoop.odps.spark.version=spark-3.5.2-odps0.49.0
```

パラメーター設定

パラメーター名	値	説明
`spark.sql.defaultCatalog`	値を `odps` に設定します。
`spark.sql.catalog.odps`	値を `org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog` に設定します。
`spark.sql.sources.partitionOverwriteMode`	値を `dynamic` に設定します。
`spark.sql.extensions`	値を `org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions` に設定します。
`spark.sql.catalog.odps.enableNamespaceSchema`	デフォルト値は `false` です。	MaxCompute プロジェクトでスキーマレベルの構文スイッチが有効になっている場合、この値を true に設定します。
`spark.sql.catalog.odps.enableVectorizedReader`	デフォルト値は `true` です。	ベクトル化された読み取りを有効にします。
`spark.sql.catalog.odps.enableVectorizedWriter`	デフォルト値は `true` です。	ベクトル化された書き込みを有効にします。
`spark.sql.catalog.odps.splitSizeInMB`	デフォルト値は `256` です。	このパラメーターは、MaxCompute テーブルの読み取り時の同時実行数を調整します。各パーティションのデフォルト値は 256 MB です。
`spark.sql.catalog.odps.tableReadProvider`	デフォルト値は `v1` です。	`local` モードを使用する場合、この値を tunnel に設定します。
`spark.sql.catalog.odps.tableWriteProvider`	デフォルト値は `v1` です。	`local` モードを使用する場合、この値を tunnel に設定します。
`spark.hadoop.odps.spark.alinux3.enabled`	デフォルト値は `false` です。	クラスターモードでは、Alibaba Cloud Linux 3 (Alinux 3) のベースランタイムイメージおよび Python 3.11 を使用します。
`spark.hadoop.odps.native.engine.enable`	デフォルト値は `false` です。	クラスターモードでは、計算を高速化するためにネイティブエンジンを使用します。ネイティブエンジンは、デフォルトで alinuX3 ベースイメージを使用します。