このトピックでは、Spark 3.1.1 を使用するための具体的な構成情報について説明します。
ジョブの送信
Spark クライアント:ジョブを送信するには、次のパラメーターを追加してバージョンを指定する必要があります。クライアントはこちらからダウンロードできます。
# kube モードとイベントログを有効化 spark.hadoop.odps.kube.mode=true spark.hadoop.odps.cupid.data.proxy.enable=true spark.hadoop.odps.cupid.fuxi.shuffle.enable=true spark.hadoop.odps.spark.version=spark-3.1.1-odps0.47.0 spark.hadoop.odps.spark.libs.public.enable=true spark.eventLog.enabled=true spark.eventLog.dir=/workdir/eventlog/ # MaxCompute の読み取りと書き込み用 spark.sql.defaultCatalog = odps spark.sql.catalog.odps = org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog spark.sql.sources.partitionOverwriteMode = dynamic spark.sql.extensions = org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensionsクラスターモード:PySpark ジョブを実行するには、次のパラメーターを追加して Python 3 を使用する必要があります。
spark.hadoop.odps.cupid.resources = public.python-3.7.9-ucs4.tar.gz spark.pyspark.python = ./public.python-3.7.9-ucs4.tar.gz/python-3.7.9-ucs4/bin/python3DataWorks ノード:ジョブを送信するには、Spark 3.x を選択するだけです。
パラメーター設定
パラメーター名 | 値 | 説明 |
| このパラメーターを | |
| このパラメーターを | |
| このパラメーターを | |
| このパラメーターを | |
| デフォルト値: | MaxCompute プロジェクトでスキーマレベルの構文が有効になっている場合は、このパラメーターを true に設定します。 |
| デフォルト値: | ベクター化された読み取りを有効にします。 |
| デフォルト値: | ベクター化された書き込みを有効にします。 |
| デフォルト値: | このパラメーターは、MaxCompute テーブルを読み取る際の同時実行数を調整します。デフォルトのパーティションサイズは 256 MB です。 |