本文介紹Spark用戶端各個版本的通用參數配置。
MaxCompute帳號參數配置
參數 | 說明 |
| MaxCompute專案名稱。 若使用DataWorks提交任務,使用預設值即可,無需配置。 |
| 具備目標MaxCompute專案存取權限的AccessKey ID,可以進入AccessKey管理頁面擷取AccessKey ID。 若使用DataWorks提交任務,使用預設值即可,無需配置。 |
| AccessKey ID對應的AccessKey Secret。 若使用DataWorks提交任務,使用預設值即可,無需配置。 |
| MaxCompute專案STS Token。 若使用DataWorks提交任務,使用預設值即可,無需配置。 |
|
|
| MaxCompute所屬Region的雲產品互聯 Endpoint。 例如,杭州雲產品互聯Endpoint為 |
MaxCompute Spark作業提交、版本及日誌等配置
參數 | 說明 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Spark資源申請參數配置
參數 | 說明 |
| 預設值1。Spark 應用程式在叢集中啟動的Executor進程總數。 |
| 預設值1。每個Executor進程可使用的CPU核心數。 |
| 預設值 2g。每個Executor進程的記憶體總量(包括堆內和堆外記憶體)。 |
| 預設值 1。Driver進程使用的CPU核心數。 |
| 預設值 2g。Driver進程的記憶體總量。 |
|
|
|
|
|
|
MaxCompute讀寫相關配置
以下以spark.sql.catalog.odps開頭的配置僅在 3.x 版本中才可以使用。
參數 | 說明 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
MaxCompute資料互連配置
spark.hadoop.odps.cupid.resources
該配置項必須要配置在spark-default.conf中或DataWorks的配置項中才會生效,不能寫在代碼中。
參數說明:
指定任務運行所需要的MaxCompute資源。格式為
<projectname>.<resourcename>,可指定多個,通過半形逗號(,)分隔。指定的資源將被下載到Driver和Executor的當前工作目錄(
/workdir),資源下載到工作目錄後預設的名字是<projectname>.<resourcename>。壓縮包資源會被自動解壓,頂層目錄名字與原壓縮包名字保持一致。例如資源名為examples.tar.gz且未重新命名,其展開路徑為/workdir/examples.tar.gz/sub/...。如果重新命名為examples,則展開路徑為/workdir/examples/sub/...,具體路徑取決於包名字和包內部的目錄結構。配置樣本:
spark.hadoop.odps.cupid.resources = public.python-python-2.7-ucs4.zip,public.myjar.jar。檔案重新命名:配置時通過
<projectname>.<resourcename>:<newresourcename>方式重新命名。重新命名樣本:
spark.hadoop.odps.cupid.resources = public.myjar.jar:myjar.jar。
MaxCompute其他配置
參數 | 說明 |
| 用於配置 VPC,詳細內容請參考訪問阿里雲VPC |
| 無預設值。如果在Spark叢集模式下,訪問雲產品互聯網站網路不通,請配置該參數(可以參考訪問阿里雲OSS)。 |
|
|
|
|
|
|
|
|
|
|