若您要使用DataWorks進行EMR Serverless Spark任務的開發、管理,需先將您的EMR Serverless Spark工作空間綁定為DataWorks的Serverless Spark計算資源。綁定完成後,可在DataWorks中使用該計算資源進行資料開發操作。
準備工作
-
DataWorks已建立工作空間,操作者使用的RAM帳號已加入工作空間並設定為工作空間管理員角色。
重要僅支援選擇使用新版資料開發(Data Studio)的工作空間。
-
已使用Serverless資源群組,並綁定到目標DataWorks工作空間。
使用限制
-
地區限制 :華東1(杭州)、華東2(上海)、華北2(北京)、華南1(深圳)、西南1(成都)、中國香港、日本(東京)、新加坡、印尼(雅加達)、德國(法蘭克福)、美國( 矽谷)、美國(維吉尼亞)。
-
許可權限制:
操作人
具備許可權說明
阿里雲主帳號
無需額外授權。
阿里雲RAM帳號/RAM角色
-
DataWorks系統管理權限:僅擁有營運和空間管理員角色的空間成員,或擁有
AliyunDataWorksFullAccess許可權的空間成員可建立計算資源。授權詳情請參見授權使用者空間管理員權限。 -
EMR Serverless Spark服務許可權:
-
AliyunEMRServerlessSparkFullAccess權限原則。 -
EMR Serverless Spark工作空間
Owner許可權。詳情請參見系統管理使用者和角色。
-
-
進入計算資源清單頁
-
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入管理中心。
-
在左側導覽列單擊計算資源,進入計算資源清單頁。
綁定Serverless Spark計算資源
在計算資源清單頁,配置綁定Serverless Spark計算資源。
-
選擇綁定計算資源類型。
-
單擊綁定計算資源,進入綁定計算資源頁面。
-
在綁定計算資源頁面選擇計算資源類型為Serverless Spark,進入綁定Serverless Spark計算資源配置頁面。
-
-
配置Serverless Spark計算資源。
在綁定Serverless Spark計算資源配置頁面,根據下表內容進行相應配置。
參數
說明
Spark工作空間
選擇需要綁定的Spark工作空間。您也可單擊下拉式功能表中的新建來建立Spark工作空間。
默認引擎版本
選擇需要使用的引擎版本。
-
在Data Studio中建立EMR Spark任務時,將會預設使用該引擎版本。
-
如需面向不同任務設定不同的引擎版本,請在Spark任務編輯視窗的進階設定中進行定義。
默認資源隊列
選擇需要使用的資源隊列。您也可單擊下拉式功能表中的新建來添加隊列。
-
在Data Studio中建立EMR Spark任務時,將會預設使用該資源隊列。
-
如需面向不同任務設定不同的資源隊列,請在Spark任務編輯視窗的進階設定中進行定義。
預設九尾 Gateway
非必填。Kyuubi Gateway 的配置狀態會影響以下任務的執行方式:
-
當配置了 Kyuubi Gateway 時:
-
所有相關任務(EMR Spark SQL/Kyuubi, Serverless Spark SQL/Kyuubi)均通過 Kyuubi Gateway 執行。
-
-
當未配置 Kyuubi Gateway 時:
-
EMR Spark SQL 和 Serverless Spark SQL:通過
spark-submit執行。 -
EMR Kyuubi 和 Serverless Kyuubi:執行失敗。
-
若需配置,請前往建立Kyuubi Gateway 和 Token 。
-
未開啟Kerberos:單擊Kyuubi Gateway的名稱,擷取JDBC URL和Token資訊拼接擷取完整連結。
-
已開啟Kerberos:根據已配置的Kerberos資訊,擷取Beeline連結。詳情參見:Kyuubi Gateway使用Kerberos。
# 普通連結舉例 jdbc:hive2://kyuubi-cn-hangzhou-internal.spark.emr.aliyuncs.com:80/;transportMode=http;httpPath=cliservice/token/<token> # 開啟Kerberos連結舉例(請注意不要遺漏kyuubi服務的principle) jdbc:hive2://ep-xxxxxxxxxxx.epsrv-xxxxxxxxxxx.cn-hangzhou.privatelink.aliyuncs.com:10009/;principal=kyuubi/_HOST@EMR.C-DFD43*****7C204.COM
默認訪問身份
定義在當前工作空間下,用什麼身份訪問該Spark工作空間。
-
開發環境:當前僅支援使用执行者身份訪問。
-
生產環境:支援使用阿里雲主賬號、阿里云RAM子账号和任務責任人。
計算資源執行個體名稱
用於標識該計算資源,在任務運行時,通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。
-
-
單擊確認,完成Serverless Spark計算資源配置。
配置Spark全域參數
在DataWorks中,您可以按工作空間粒度為各模組指定SPARK參數,並設定全域參數的優先順序是否高於特定模組(如資料開發)內的局部參數。設定完成後將預設使用相應的SPARK參數執行任務。設定方式如下:
|
參數生效範圍 |
設定方式 |
|
全域配置生效 |
您可以配置全域SPARK參數,以設定工作空間層級下某個DataWorks功能模組在運行EMR任務時所使用的SPARK參數。同時,您可以定義這些全域配置的SPARK參數優先順序是否高於特定模組內配置的SPARK參數。詳情請參見配置SPARK全域參數。 |
|
單個節點生效 |
在資料開發模組中,您可以在節點編輯頁面為單個節點任務設定具體的SPARK屬性。其他產品模組目前暫不支援在模組內單獨設定SPARK屬性。 |
許可權控制
僅以下角色可配置全域SPARK參數:
-
阿里雲主帳號。
-
擁有
AliyunDataWorksFullAccess許可權的子帳號(RAM使用者)或RAM角色。 -
擁有空間管理員角色的子帳號(RAM使用者)。
配置SPARK全域參數
您可通過以下步驟配置SPARK全域參數。配置Serverless Spark計算資源的SPARK參數,詳情請參見作業配置說明。
-
進入計算資源清單頁,找到您所綁定的Serverless Spark計算資源。
-
單擊Spark參數,進入SPARK參數配置欄,即可查看SPARK全域參數配置資訊。
-
設定全域SPARK參數。
單擊Spark參數頁面右上方的編輯Spark參數,配置各模組的全域SPARK參數及優先順序。
說明該配置為工作空間全域配置,請在配置前確認所使用的工作空間是否正確。
參數
步驟
Spark屬性
配置運行Serverless Spark任務時使用的Spark屬性。
-
您可通過單擊下方的添加按鈕,輸入Spark屬性名稱和對應的Spark屬性值,設定Spark屬性資訊。
-
可支援設定的Spark屬性參數請參見Spark Configuration及Spark Conf自訂參數列表。
全局配置是否優先
勾選後,表示全域配置將比產品模組內配置優先生效。此時將按照全域配置的SPARK屬性來統一運行任務。
-
全域配置:表示在對應的Serverless Spark計算資源的Spark參數頁面配置的Spark屬性。
目前僅支援對資料開發(Data Studio)、營運中心、資料分析模組設定全域SPARK參數。
-
產品模組內配置:
-
資料開發(Data Studio):對於EMR Spark、EMR Kyuubi、EMR Spark SQL、EMR Spark Streaming節點、Serverless Spark Batch、Serverless Spark SQL、Serverless Kyuubi節點,可在節點編輯頁面的回合組態或調度配置的Spark參數中,設定單個節點任務的SPARK屬性。
-
其他產品模組:暫不支援在模組內單獨設定SPARK屬性。
-
-
-
單擊確認按鈕,儲存您所配置的全域SPARK參數。
配置叢集帳號映射
手動設定DataWorks租戶成員的雲帳號與EMR叢集指定身份帳號的映射關係,可實現DataWorks租戶成員通過映射的叢集身份在EMR Serverless Spark中執行任務。
該功能僅支援在Serverless資源群組中使用。2025年8月15日前購買的Serverless資源群組,如需使用該功能,需要提交工單進行資源群組升級。
-
進入計算資源清單頁,找到您所綁定的Serverless Spark計算資源。
-
單擊賬號映射,進入帳號映射參數配置欄。
-
單擊編輯帳號映射來配置叢集帳號映射資訊。您可根據所選映射類型配置相關參數。
帳號映射類型
任務運行說明
配置說明
系統帳號映射
使用計算資源基礎資訊中的默認訪問身份的同名叢集帳號來運行EMR Spark、EMR Spark SQL、EMR Kyuubi、基於個人開發環境開發Notebook節點任務。
預設採用同名映射。如果需要使用其他帳號映射,可以手動設定指定不同的帳號。
OPEN LDAP帳號映射
使用計算資源基礎資訊中的默認訪問身份來運行EMR Spark、EMR Spark SQL任務。
使用計算資源基礎資訊中的預設訪問身份所映射的Open LDAP帳號來運行EMR Kyuubi、基於個人開發環境開發Notebook節點任務。
在為Kyuubi Gateway配置並啟用LDAP認證的情況下,需通過配置雲帳號和Open LDAP帳號(LDAP賬號、LDAP密碼)的映射關係來執行相應任務。
重要若運行DataWorks任務所需的雲帳號不在帳號映射配置列表中,可能導致任務運行失敗。
Kerberos帳號映射
使用計算資源基礎資訊中的默認訪問身份來運行EMR Spark、EMR Spark SQL任務。
使用計算資源基礎資訊中的預設訪問身份所映射的Kerberos帳號來運行EMR Kyuubi節點任務。
-
需上傳EMR Serverless Spark叢集配置的Kerberos服務的krb5.conf檔案。
-
為預設訪問身份指定的雲帳號配置Kerberos認證所需的principal和keytab。
-
-
單擊確認,完成叢集帳號映射配置。
後續操作
配置完Serverless Spark計算資源後,您可在資料開發節點任務中使用該計算資源進行節點任務開發,詳情請參見EMR Spark節點、EMR Spark SQL節點、EMR Spark Streaming節點、EMR Kyuubi節點、Serverless Spark Batch節點、Serverless Spark SQL節點、Serverless Kyuubi節點。