Spark 2.4.5 の使用 - MaxCompute - Alibaba Cloud ドキュメントセンター

本トピックでは、Spark バージョン 2.4.5 を使用する際に必要な設定について説明します。

重要

Spark バージョン 3 以降の使用を推奨します。

タスクの送信

Spark クライアントを使用してタスクを送信する場合、次のパラメーターを追加してバージョンを指定します。クライアントはこちらからダウンロードしてください。

# kube モードとイベントログの有効化
spark.hadoop.odps.kube.mode=true
spark.hadoop.odps.cupid.data.proxy.enable=true
spark.hadoop.odps.cupid.fuxi.shuffle.enable=true
spark.hadoop.odps.spark.version=spark-2.4.5-odps0.47.0
spark.hadoop.odps.spark.libs.public.enable=true
spark.eventLog.enabled=true
spark.eventLog.dir=/workdir/eventlog/

# MaxCompute の読み取りと書き込み
spark.sql.catalogImplementation=hive
spark.sql.sources.default=hive

DataWorks ノードを使用してタスクを送信する場合、次のパラメーターを追加してバージョンを指定します。
```
spark.hadoop.odps.spark.version=spark-2.4.5-odps0.47.0
```

パラメーター設定

パラメーター名	値	説明
`spark.sql.catalogImplementation`	`hive` に設定します。
`spark.sql.sources.default`	`hive` に設定します。
`spark.sql.odps.columnarReaderBatchSize`	デフォルト値は `4096` です。	ベクター化読み取りにおける各バッチの行数。
`spark.sql.odps.enableVectorizedReader`	デフォルト値は `true` です。	ベクター化読み取りの有効化。
`spark.sql.odps.enableVectorizedWriter`	デフォルト値は `true` です。	ベクター化書き込みの有効化。
`spark.sql.odps.split.size`	デフォルト値は `256 m` です。	このパラメーターは、MaxCompute テーブルを読み取る際の同時実行レベルをコントロールします。デフォルトでは、各パーティションは 256 MB です。
`spark.hadoop.odps.cupid.vnet.capacity`	デフォルト値は `256` です。	このパラメーターはインスタンスの最大数を設定します。`spark.executor.instances + 2` に設定してください。そうしないと、`create virtual net failed` エラーが発生する可能性があります。このパラメーターを `spark-defaults.conf` または `DataWorks` の設定項目に追加してください。