Spark 3.1.1 の使用 - MaxCompute - Alibaba Cloud ドキュメントセンター

このトピックでは、Spark 3.1.1 を使用するための具体的な構成情報について説明します。

ジョブの送信

Spark クライアント：ジョブを送信するには、次のパラメーターを追加してバージョンを指定する必要があります。クライアントはこちらからダウンロードできます。

# kube モードとイベントログを有効化
spark.hadoop.odps.kube.mode=true
spark.hadoop.odps.cupid.data.proxy.enable=true
spark.hadoop.odps.cupid.fuxi.shuffle.enable=true
spark.hadoop.odps.spark.version=spark-3.1.1-odps0.47.0
spark.hadoop.odps.spark.libs.public.enable=true
spark.eventLog.enabled=true
spark.eventLog.dir=/workdir/eventlog/

# MaxCompute の読み取りと書き込み用
spark.sql.defaultCatalog = odps
spark.sql.catalog.odps = org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog
spark.sql.sources.partitionOverwriteMode = dynamic
spark.sql.extensions = org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions

クラスターモード：PySpark ジョブを実行するには、次のパラメーターを追加して Python 3 を使用する必要があります。
```
spark.hadoop.odps.cupid.resources = public.python-3.7.9-ucs4.tar.gz
spark.pyspark.python = ./public.python-3.7.9-ucs4.tar.gz/python-3.7.9-ucs4/bin/python3
```
DataWorks ノード：ジョブを送信するには、Spark 3.x を選択するだけです。

パラメーター設定

パラメーター名	値	説明
`spark.sql.defaultCatalog`	このパラメーターを `odps` に設定します。
`spark.sql.catalog.odps`	このパラメーターを `org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog` に設定します。
`spark.sql.sources.partitionOverwriteMode`	このパラメーターを `dynamic` に設定します。
`spark.sql.extensions`	このパラメーターを `org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions` に設定します。
`spark.sql.catalog.odps.enableNamespaceSchema`	デフォルト値： `false`	MaxCompute プロジェクトでスキーマレベルの構文が有効になっている場合は、このパラメーターを true に設定します。
`spark.sql.catalog.odps.enableVectorizedReader`	デフォルト値： `true`	ベクター化された読み取りを有効にします。
`spark.sql.catalog.odps.enableVectorizedWriter`	デフォルト値： `true`	ベクター化された書き込みを有効にします。
`spark.sql.catalog.odps.splitSizeInMB`	デフォルト値： `256`	このパラメーターは、MaxCompute テーブルを読み取る際の同時実行数を調整します。デフォルトのパーティションサイズは 256 MB です。