Spark 2.3.0 の使用方法 - MaxCompute - Alibaba Cloud ドキュメントセンター

このトピックでは、Spark 2.3.0 を使用するための構成について説明します。

重要

Spark 3 以降のバージョンをご利用ください。

タスクの送信

Spark クライアントを使用してタスクを実行する場合、以下のパラメーターを追加してバージョンを指定します。クライアントはこちらからダウンロードできます。

# kube モードおよびイベントログを有効化
spark.hadoop.odps.kube.mode=true
spark.hadoop.odps.cupid.data.proxy.enable=true
spark.hadoop.odps.cupid.fuxi.shuffle.enable=true
spark.hadoop.odps.spark.version=spark-2.3.0-odps0.47.0
spark.hadoop.odps.spark.libs.public.enable=true
spark.eventLog.enabled=true
spark.eventLog.dir=/workdir/eventlog/

# MaxCompute の読み取りおよび書き込み
spark.sql.catalogImplementation=odps

DataWorks ノードを使用してタスクを実行する場合、Spark 2.x を選択し、以下のパラメーターを追加してバージョンを指定します。
```
spark.hadoop.odps.spark.version=spark-2.3.0-odps0.47.0
```

パラメーター設定項目

パラメーター名	値	説明
`spark.sql.catalogImplementation`	`odps`
`spark.hadoop.odps.cupid.vectorization.enable`	`true` に設定します。	true に設定すると、バッチ読み取り／書き込みの最適化が有効になります。
`spark.hadoop.odps.input.split.size`	デフォルト値は `256` です。	このパラメーターは、MaxCompute テーブルの読み取りにおける同時実行数を調整します。各パーティションのデフォルトサイズは 256 MB です。