すべてのプロダクト
Search
ドキュメントセンター

MaxCompute:Spark 3.1.1 の使用

最終更新日:Mar 17, 2026

このトピックでは、Spark 3.1.1 を使用するための具体的な構成情報について説明します。

ジョブの送信

  • Spark クライアント:ジョブを送信するには、次のパラメーターを追加してバージョンを指定する必要があります。クライアントはこちらからダウンロードできます。

    # kube モードとイベントログを有効化
    spark.hadoop.odps.kube.mode=true
    spark.hadoop.odps.cupid.data.proxy.enable=true
    spark.hadoop.odps.cupid.fuxi.shuffle.enable=true
    spark.hadoop.odps.spark.version=spark-3.1.1-odps0.47.0
    spark.hadoop.odps.spark.libs.public.enable=true
    spark.eventLog.enabled=true
    spark.eventLog.dir=/workdir/eventlog/
    
    # MaxCompute の読み取りと書き込み用
    spark.sql.defaultCatalog = odps
    spark.sql.catalog.odps = org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog
    spark.sql.sources.partitionOverwriteMode = dynamic
    spark.sql.extensions = org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions
  • クラスターモード:PySpark ジョブを実行するには、次のパラメーターを追加して Python 3 を使用する必要があります。

    spark.hadoop.odps.cupid.resources = public.python-3.7.9-ucs4.tar.gz
    spark.pyspark.python = ./public.python-3.7.9-ucs4.tar.gz/python-3.7.9-ucs4/bin/python3
  • DataWorks ノード:ジョブを送信するには、Spark 3.x を選択するだけです。

パラメーター設定

パラメーター名

説明

spark.sql.defaultCatalog

このパラメーターを odps に設定します。

spark.sql.catalog.odps

このパラメーターを org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog に設定します。

spark.sql.sources.partitionOverwriteMode

このパラメーターを dynamic に設定します。

spark.sql.extensions

このパラメーターを org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions に設定します。

spark.sql.catalog.odps.enableNamespaceSchema

デフォルト値: false

MaxCompute プロジェクトでスキーマレベルの構文が有効になっている場合は、このパラメーターを true に設定します。

spark.sql.catalog.odps.enableVectorizedReader

デフォルト値: true

ベクター化された読み取りを有効にします。

spark.sql.catalog.odps.enableVectorizedWriter

デフォルト値: true

ベクター化された書き込みを有効にします。

spark.sql.catalog.odps.splitSizeInMB

デフォルト値: 256

このパラメーターは、MaxCompute テーブルを読み取る際の同時実行数を調整します。デフォルトのパーティションサイズは 256 MB です。