すべてのプロダクト
Search
ドキュメントセンター

MaxCompute:Spark 2.3.0 の使用方法

最終更新日:Mar 13, 2026

このトピックでは、Spark 2.3.0 を使用するための構成について説明します。

重要

Spark 3 以降のバージョンをご利用ください。

タスクの送信

  • Spark クライアントを使用してタスクを実行する場合、以下のパラメーターを追加してバージョンを指定します。クライアントはこちらからダウンロードできます。

    # kube モードおよびイベントログを有効化
    spark.hadoop.odps.kube.mode=true
    spark.hadoop.odps.cupid.data.proxy.enable=true
    spark.hadoop.odps.cupid.fuxi.shuffle.enable=true
    spark.hadoop.odps.spark.version=spark-2.3.0-odps0.47.0
    spark.hadoop.odps.spark.libs.public.enable=true
    spark.eventLog.enabled=true
    spark.eventLog.dir=/workdir/eventlog/
    
    # MaxCompute の読み取りおよび書き込み
    spark.sql.catalogImplementation=odps
  • DataWorks ノードを使用してタスクを実行する場合、Spark 2.x を選択し、以下のパラメーターを追加してバージョンを指定します。

    spark.hadoop.odps.spark.version=spark-2.3.0-odps0.47.0

パラメーター設定項目

パラメーター名

説明

spark.sql.catalogImplementation

odps

spark.hadoop.odps.cupid.vectorization.enable

true に設定します。

true に設定すると、バッチ読み取り/書き込みの最適化が有効になります。

spark.hadoop.odps.input.split.size

デフォルト値は 256 です。

このパラメーターは、MaxCompute テーブルの読み取りにおける同時実行数を調整します。各パーティションのデフォルトサイズは 256 MB です。