すべてのプロダクト
Search
ドキュメントセンター

MaxCompute:Spark 2.4.5 の使用

最終更新日:Mar 14, 2026

本トピックでは、Spark バージョン 2.4.5 を使用する際に必要な設定について説明します。

重要

Spark バージョン 3 以降の使用を推奨します。

タスクの送信

  • Spark クライアントを使用してタスクを送信する場合、次のパラメーターを追加してバージョンを指定します。クライアントはこちらからダウンロードしてください。

    # kube モードとイベントログの有効化
    spark.hadoop.odps.kube.mode=true
    spark.hadoop.odps.cupid.data.proxy.enable=true
    spark.hadoop.odps.cupid.fuxi.shuffle.enable=true
    spark.hadoop.odps.spark.version=spark-2.4.5-odps0.47.0
    spark.hadoop.odps.spark.libs.public.enable=true
    spark.eventLog.enabled=true
    spark.eventLog.dir=/workdir/eventlog/
    
    # MaxCompute の読み取りと書き込み
    spark.sql.catalogImplementation=hive
    spark.sql.sources.default=hive
  • DataWorks ノードを使用してタスクを送信する場合、次のパラメーターを追加してバージョンを指定します。

    spark.hadoop.odps.spark.version=spark-2.4.5-odps0.47.0

パラメーター設定

パラメーター名

説明

spark.sql.catalogImplementation

hive に設定します。

spark.sql.sources.default

hive に設定します。

spark.sql.odps.columnarReaderBatchSize

デフォルト値は 4096 です。

ベクター化読み取りにおける各バッチの行数。

spark.sql.odps.enableVectorizedReader

デフォルト値は true です。

ベクター化読み取りの有効化。

spark.sql.odps.enableVectorizedWriter

デフォルト値は true です。

ベクター化書き込みの有効化。

spark.sql.odps.split.size

デフォルト値は 256 m です。

このパラメーターは、MaxCompute テーブルを読み取る際の同時実行レベルをコントロールします。デフォルトでは、各パーティションは 256 MB です。

spark.hadoop.odps.cupid.vnet.capacity

デフォルト値は 256 です。

  • このパラメーターはインスタンスの最大数を設定します。spark.executor.instances + 2 に設定してください。そうしないと、create virtual net failed エラーが発生する可能性があります。

  • このパラメーターを spark-defaults.conf または DataWorks の設定項目に追加してください。