このトピックでは、Spark 3.4.2 および 3.5.2 を使用するために必要な構成について説明します。
タスクの送信
クラスターモードの使用
Spark クライアントを使用してタスクを送信します。
バージョンを指定するには、以下のパラメーターを追加してください。クライアントは、Spark 3.4.2 のダウンロードまたはSpark 3.5.2 のダウンロードから取得してください。
# kube モードとイベントログを有効化 spark.hadoop.odps.kube.mode=true spark.hadoop.odps.cupid.data.proxy.enable=true spark.hadoop.odps.cupid.fuxi.shuffle.enable=true ## Spark 3.4.2 向け spark.hadoop.odps.spark.version=spark-3.4.2-odps0.48.0 ## Spark 3.5.2 向け spark.hadoop.odps.spark.version=spark-3.5.2-odps0.49.0 spark.hadoop.odps.spark.libs.public.enable=true spark.eventLog.enabled=true spark.eventLog.dir=/workdir/eventlog/ # MaxCompute の読み取りおよび書き込み用 spark.sql.defaultCatalog=odps spark.sql.catalog.odps=org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog spark.sql.sources.partitionOverwriteMode=dynamic spark.sql.extensions=org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensionsDataWorks ノードを使用してタスクを送信します。バージョンを指定するには、以下のパラメーターを追加してください。
## Spark 3.4.2 向け spark.hadoop.odps.spark.version=spark-3.4.2-odps0.48.0 ## Spark 3.5.2 向け spark.hadoop.odps.spark.version=spark-3.5.2-odps0.49.0
パラメーター設定
パラメーター名 | 値 | 説明 |
| 値を | |
| 値を | |
| 値を | |
| 値を | |
| デフォルト値は | MaxCompute プロジェクトでスキーマレベルの構文スイッチが有効になっている場合、この値を true に設定します。 |
| デフォルト値は | ベクトル化された読み取りを有効にします。 |
| デフォルト値は | ベクトル化された書き込みを有効にします。 |
| デフォルト値は | このパラメーターは、MaxCompute テーブルの読み取り時の同時実行数を調整します。各パーティションのデフォルト値は 256 MB です。 |
| デフォルト値は |
|
| デフォルト値は |
|
| デフォルト値は | クラスターモードでは、Alibaba Cloud Linux 3 (Alinux 3) のベースランタイムイメージおよび Python 3.11 を使用します。 |
| デフォルト値は | クラスターモードでは、計算を高速化するためにネイティブエンジンを使用します。ネイティブエンジンは、デフォルトで alinuX3 ベースイメージを使用します。 |