本トピックでは、Spark バージョン 2.4.5 を使用する際に必要な設定について説明します。
Spark バージョン 3 以降の使用を推奨します。
タスクの送信
Spark クライアントを使用してタスクを送信する場合、次のパラメーターを追加してバージョンを指定します。クライアントはこちらからダウンロードしてください。
# kube モードとイベントログの有効化 spark.hadoop.odps.kube.mode=true spark.hadoop.odps.cupid.data.proxy.enable=true spark.hadoop.odps.cupid.fuxi.shuffle.enable=true spark.hadoop.odps.spark.version=spark-2.4.5-odps0.47.0 spark.hadoop.odps.spark.libs.public.enable=true spark.eventLog.enabled=true spark.eventLog.dir=/workdir/eventlog/ # MaxCompute の読み取りと書き込み spark.sql.catalogImplementation=hive spark.sql.sources.default=hiveDataWorks ノードを使用してタスクを送信する場合、次のパラメーターを追加してバージョンを指定します。
spark.hadoop.odps.spark.version=spark-2.4.5-odps0.47.0
パラメーター設定
パラメーター名 | 値 | 説明 |
|
| |
|
| |
| デフォルト値は | ベクター化読み取りにおける各バッチの行数。 |
| デフォルト値は | ベクター化読み取りの有効化。 |
| デフォルト値は | ベクター化書き込みの有効化。 |
| デフォルト値は | このパラメーターは、MaxCompute テーブルを読み取る際の同時実行レベルをコントロールします。デフォルトでは、各パーティションは 256 MB です。 |
| デフォルト値は |
|