Serverless Spark計算資源 - DataWorks

準備工作

已建立EMR Serverless Spark工作空間。
DataWorks已建立工作空間，操作者使用的RAM帳號已加入工作空間並設定為工作空間管理員角色。

重要
僅支援選擇使用新版資料開發（Data Studio）的工作空間。
已使用Serverless資源群組，並綁定到目標DataWorks工作空間。

使用限制

地區限制 ：華東1（杭州）、華東2（上海）、華北2（北京）、華南1（深圳）、西南1（成都）、中國香港、日本（東京）、新加坡、印尼（雅加達）、德國（法蘭克福）、美國（矽谷）、美國（維吉尼亞）。

許可權限制：

操作人	具備許可權說明
阿里雲主帳號	無需額外授權。
阿里雲RAM帳號/RAM角色	DataWorks系統管理權限：僅擁有營運和空間管理員角色的空間成員，或擁有`AliyunDataWorksFullAccess`許可權的空間成員可建立計算資源。授權詳情請參見授權使用者空間管理員權限。 EMR Serverless Spark服務許可權： `AliyunEMRServerlessSparkFullAccess`權限原則。 EMR Serverless Spark工作空間`Owner`許可權。詳情請參見系統管理使用者和角色。

進入計算資源清單頁

登入DataWorks控制台，切換至目標地區後，單擊左側導覽列的更多 > 管理中心，在下拉框中選擇對應工作空間後單擊進入管理中心。
在左側導覽列單擊計算資源，進入計算資源清單頁。

綁定Serverless Spark計算資源

在計算資源清單頁，配置綁定Serverless Spark計算資源。

選擇綁定計算資源類型。
1. 單擊綁定計算資源，進入綁定計算資源頁面。
2. 在綁定計算資源頁面選擇計算資源類型為Serverless Spark，進入綁定Serverless Spark計算資源配置頁面。

配置Serverless Spark計算資源。

在綁定Serverless Spark計算資源配置頁面，根據下表內容進行相應配置。

參數	說明
Spark工作空間	選擇需要綁定的Spark工作空間。您也可單擊下拉式功能表中的新建來建立Spark工作空間。
默認引擎版本	選擇需要使用的引擎版本。在Data Studio中建立EMR Spark任務時，將會預設使用該引擎版本。如需面向不同任務設定不同的引擎版本，請在Spark任務編輯視窗的進階設定中進行定義。
默認資源隊列	選擇需要使用的資源隊列。您也可單擊下拉式功能表中的新建來添加隊列。在Data Studio中建立EMR Spark任務時，將會預設使用該資源隊列。如需面向不同任務設定不同的資源隊列，請在Spark任務編輯視窗的進階設定中進行定義。
預設九尾 Gateway	非必填。Kyuubi Gateway 的配置狀態會影響以下任務的執行方式：當配置了 Kyuubi Gateway 時：所有相關任務（EMR Spark SQL/Kyuubi, Serverless Spark SQL/Kyuubi）均通過 Kyuubi Gateway 執行。當未配置 Kyuubi Gateway 時： EMR Spark SQL 和 Serverless Spark SQL：通過 `spark-submit` 執行。 EMR Kyuubi 和 Serverless Kyuubi：執行失敗。若需配置，請前往 EMR Serverless Spark控制台 > 營運中心 > Gateway > Kyuubi Gateway 建立Kyuubi Gateway 和 Token 。未開啟Kerberos：單擊Kyuubi Gateway的名稱，擷取JDBC URL和Token資訊拼接擷取完整連結。已開啟Kerberos：根據已配置的Kerberos資訊，擷取Beeline連結。詳情參見：Kyuubi Gateway使用Kerberos。 `# 普通連結舉例 jdbc:hive2://kyuubi-cn-hangzhou-internal.spark.emr.aliyuncs.com:80/;transportMode=http;httpPath=cliservice/token/<token> # 開啟Kerberos連結舉例（請注意不要遺漏kyuubi服務的principle） jdbc:hive2://ep-xxxxxxxxxxx.epsrv-xxxxxxxxxxx.cn-hangzhou.privatelink.aliyuncs.com:10009/;principal=kyuubi/_HOST@EMR.C-DFD43*****7C204.COM`
默認訪問身份	定義在當前工作空間下，用什麼身份訪問該Spark工作空間。開發環境：當前僅支援使用执行者身份訪問。生產環境：支援使用阿里雲主賬號、阿里云RAM子账号和任務責任人。
計算資源執行個體名稱	用於標識該計算資源，在任務運行時，通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。

單擊確認，完成Serverless Spark計算資源配置。

配置Spark全域參數

在DataWorks中，您可以按工作空間粒度為各模組指定SPARK參數，並設定全域參數的優先順序是否高於特定模組（如資料開發）內的局部參數。設定完成後將預設使用相應的SPARK參數執行任務。設定方式如下：

參數生效範圍	設定方式
全域配置生效	您可以配置全域SPARK參數，以設定工作空間層級下某個DataWorks功能模組在運行EMR任務時所使用的SPARK參數。同時，您可以定義這些全域配置的SPARK參數優先順序是否高於特定模組內配置的SPARK參數。詳情請參見配置SPARK全域參數。
單個節點生效	在資料開發模組中，您可以在節點編輯頁面為單個節點任務設定具體的SPARK屬性。其他產品模組目前暫不支援在模組內單獨設定SPARK屬性。

許可權控制

僅以下角色可配置全域SPARK參數：

阿里雲主帳號。
擁有AliyunDataWorksFullAccess許可權的子帳號（RAM使用者）或RAM角色。
擁有空間管理員角色的子帳號（RAM使用者）。

配置SPARK全域參數

您可通過以下步驟配置SPARK全域參數。配置Serverless Spark計算資源的SPARK參數，詳情請參見作業配置說明。

進入計算資源清單頁，找到您所綁定的Serverless Spark計算資源。
單擊Spark參數，進入SPARK參數配置欄，即可查看SPARK全域參數配置資訊。

設定全域SPARK參數。

單擊Spark參數頁面右上方的編輯Spark參數，配置各模組的全域SPARK參數及優先順序。

說明

該配置為工作空間全域配置，請在配置前確認所使用的工作空間是否正確。

參數

步驟

Spark屬性

配置運行Serverless Spark任務時使用的Spark屬性。

您可通過單擊下方的添加按鈕，輸入Spark屬性名稱和對應的Spark屬性值，設定Spark屬性資訊。
可支援設定的Spark屬性參數請參見Spark Configuration及Spark Conf自訂參數列表。

全局配置是否優先

勾選後，表示全域配置將比產品模組內配置優先生效。此時將按照全域配置的SPARK屬性來統一運行任務。

全域配置：表示在管理中心 > 計算資源對應的Serverless Spark計算資源的Spark參數頁面配置的Spark屬性。

目前僅支援對資料開發（Data Studio）、營運中心、資料分析模組設定全域SPARK參數。
產品模組內配置：
- 資料開發（Data Studio）：對於EMR Spark、EMR Kyuubi、EMR Spark SQL、EMR Spark Streaming節點、Serverless Spark Batch、Serverless Spark SQL、Serverless Kyuubi節點，可在節點編輯頁面的回合組態或調度配置的Spark參數中，設定單個節點任務的SPARK屬性。
- 其他產品模組：暫不支援在模組內單獨設定SPARK屬性。

單擊確認按鈕，儲存您所配置的全域SPARK參數。

配置叢集帳號映射

手動設定DataWorks租戶成員的雲帳號與EMR叢集指定身份帳號的映射關係，可實現DataWorks租戶成員通過映射的叢集身份在EMR Serverless Spark中執行任務。

重要

該功能僅支援在Serverless資源群組中使用。2025年8月15日前購買的Serverless資源群組，如需使用該功能，需要提交工單進行資源群組升級。

進入計算資源清單頁，找到您所綁定的Serverless Spark計算資源。
單擊賬號映射，進入帳號映射參數配置欄。

單擊編輯帳號映射來配置叢集帳號映射資訊。您可根據所選映射類型配置相關參數。

帳號映射類型	任務運行說明	配置說明
系統帳號映射	使用計算資源基礎資訊中的默認訪問身份的同名叢集帳號來運行EMR Spark、EMR Spark SQL、EMR Kyuubi、基於個人開發環境開發Notebook節點任務。	預設採用同名映射。如果需要使用其他帳號映射，可以手動設定指定不同的帳號。
OPEN LDAP帳號映射	使用計算資源基礎資訊中的默認訪問身份來運行EMR Spark、EMR Spark SQL任務。使用計算資源基礎資訊中的預設訪問身份所映射的Open LDAP帳號來運行EMR Kyuubi、基於個人開發環境開發Notebook節點任務。	在為Kyuubi Gateway配置並啟用LDAP認證的情況下，需通過配置雲帳號和Open LDAP帳號（LDAP賬號、LDAP密碼）的映射關係來執行相應任務。重要若運行DataWorks任務所需的雲帳號不在帳號映射配置列表中，可能導致任務運行失敗。
Kerberos帳號映射	使用計算資源基礎資訊中的默認訪問身份來運行EMR Spark、EMR Spark SQL任務。使用計算資源基礎資訊中的預設訪問身份所映射的Kerberos帳號來運行EMR Kyuubi節點任務。	需上傳EMR Serverless Spark叢集配置的Kerberos服務的krb5.conf檔案。為預設訪問身份指定的雲帳號配置Kerberos認證所需的principal和keytab。

單擊確認，完成叢集帳號映射配置。

後續操作

配置完Serverless Spark計算資源後，您可在資料開發節點任務中使用該計算資源進行節點任務開發，詳情請參見EMR Spark節點、EMR Spark SQL節點、EMR Spark Streaming節點、EMR Kyuubi節點、Serverless Spark Batch節點、Serverless Spark SQL節點、Serverless Kyuubi節點。