全部產品
Search
文件中心

DataWorks:綁定EMR Serverless Spark計算資源

更新時間:Dec 11, 2025

若您要使用DataWorks進行EMR Serverless Spark任務的開發、管理,需先將您的EMR Serverless Spark工作空間綁定為DataWorks的Serverless Spark計算資源。綁定完成後,可在DataWorks中使用該計算資源進行資料開發操作。

前提條件

使用限制

  • 地區限制:華東1(杭州)、華東2(上海)、華北2(北京)、華南1(深圳)、西南1(成都)、中國香港、日本(東京)、新加坡、印尼(雅加達)、德國(法蘭克福)、美國( 矽谷)、美國(維吉尼亞)。

  • 許可權限制

    操作人

    具備許可權說明

    阿里雲主帳號

    無需額外授權。

    阿里雲RAM帳號/RAM角色

    • DataWorks系統管理權限:僅擁有營運空間管理員角色的空間成員,或擁有AliyunDataWorksFullAccess許可權的空間成員可建立計算資源。授權詳情請參見授權使用者空間管理員權限

    • EMR Serverless Spark服務許可權:

進入計算資源清單頁

  1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的更多 > 管理中心,在下拉框中選擇對應工作空間後單擊進入管理中心

  2. 在左側導覽列單擊計算資源,進入計算資源清單頁。

綁定Serverless Spark計算資源

計算資源清單頁,配置綁定Serverless Spark計算資源。

  1. 選擇綁定計算資源類型。

    1. 單擊綁定計算資源,進入綁定計算資源頁面。

    2. 綁定計算資源頁面選擇計算資源類型為Serverless Spark,進入綁定Serverless Spark計算資源配置頁面。

  2. 配置Serverless Spark計算資源。

    綁定Serverless Spark計算資源配置頁面,根據下表內容進行相應配置。

    參數

    說明

    Spark工作空間

    選擇需要綁定的Spark工作空間。您也可單擊下拉式功能表中的建立建立Spark工作空間

    預設引擎版本

    選擇需要使用的引擎版本。

    • 在Data Studio中建立EMR Spark任務時,將會預設使用該引擎版本。

    • 如需面向不同任務設定不同的引擎版本,請在Spark任務編輯視窗的進階設定中進行定義。

    預設訊息佇列

    選擇需要使用的訊息佇列。您也可單擊下拉式功能表中的建立添加隊列

    • 在Data Studio中建立EMR Spark任務時,將會預設使用該資源隊列。

    • 如需面向不同任務設定不同的資源隊列,請在Spark任務編輯視窗的進階設定中進行定義。

    預設Kyuubi Gateway

    非必填。Kyuubi Gateway 的配置狀態會影響以下任務的執行方式:

    • 當配置了 Kyuubi Gateway 時:

      • 所有相關任務(EMR Spark SQL/Kyuubi, Serverless Spark SQL/Kyuubi)均通過 Kyuubi Gateway 執行。

    • 當未配置 Kyuubi Gateway 時:

      • EMR Spark SQL 和 Serverless Spark SQL:通過 spark-submit 執行。

      • EMR Kyuubi 和 Serverless Kyuubi:執行失敗。

    若需配置,請前往EMR Serverless Spark控制台 > 營運中心 > Gateway > Kyuubi Gateway建立Kyuubi GatewayToken

    • 未開啟Kerberos:單擊Kyuubi Gateway的名稱,擷取JDBC URL和Token資訊拼接擷取完整連結。

    • 已開啟Kerberos:根據已配置的Kerberos資訊,擷取Beeline連結。詳情參見:Kyuubi Gateway使用Kerberos

      # 普通連結舉例
      jdbc:hive2://kyuubi-cn-hangzhou-internal.spark.emr.aliyuncs.com:80/;transportMode=http;httpPath=cliservice/token/<token>
      # 開啟Kerberos連結舉例(請注意不要遺漏kyuubi服務的principle)
      jdbc:hive2://ep-xxxxxxxxxxx.epsrv-xxxxxxxxxxx.cn-hangzhou.privatelink.aliyuncs.com:10009/;principal=kyuubi/_HOST@EMR.C-DFD43*****7C204.COM

    預設訪問身份

    定義在當前工作空間下,用什麼身份訪問該Spark工作空間。

    • 開發環境:當前僅支援使用執行者身份訪問。

    • 生產環境:支援使用阿里雲主帳號阿里雲RAM子帳號任務責任人

    計算資源執行個體名

    用於標識該計算資源,在任務運行時,通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。

  3. 單擊確認,完成Serverless Spark計算資源配置。

配置Spark全域參數

在DataWorks中,您可以按工作空間粒度為各模組指定SPARK參數,並設定全域參數的優先順序是否高於特定模組(如資料開發)內的局部參數。設定完成後將預設使用相應的SPARK參數執行任務。設定方式如下:

參數生效範圍

設定方式

全域配置生效

您可以配置全域SPARK參數,以設定工作空間層級下某個DataWorks功能模組在運行EMR任務時所使用的SPARK參數。同時,您可以定義這些全域配置的SPARK參數優先順序是否高於特定模組內配置的SPARK參數。詳情請參見配置SPARK全域參數

單個節點生效

在資料開發模組中,您可以在節點編輯頁面為單個節點任務設定具體的SPARK屬性。其他產品模組目前暫不支援在模組內單獨設定SPARK屬性。

許可權控制

僅以下角色可配置全域SPARK參數:

  • 阿里雲主帳號。

  • 擁有AliyunDataWorksFullAccess許可權的子帳號(RAM使用者)或RAM角色。

  • 擁有空間管理員角色的子帳號(RAM使用者)。

配置SPARK全域參數

您可通過以下步驟配置SPARK全域參數。配置Serverless Spark計算資源的SPARK參數,詳情請參見作業配置說明

  1. 進入計算資源清單頁,找到您所綁定的Serverless Spark計算資源。

  2. 單擊SPARK參數,進入SPARK參數配置欄,即可查看SPARK全域參數配置資訊。

  3. 設定全域SPARK參數。

    單擊SPARK參數頁面右上方的編輯SPARK參數,配置各模組的全域SPARK參數及優先順序。

    說明

    該配置為工作空間全域配置,請在配置前確認所使用的工作空間是否正確。

    參數

    步驟

    Spark屬性

    配置運行Serverless Spark任務時使用的Spark屬性。

    全域配置是否優先

    勾選後,表示全域配置將比產品模組內配置優先生效。此時將按照全域配置的SPARK屬性來統一運行任務。

    • 全域配置:表示在管理中心 > 計算資源對應的Serverless Spark計算資源SPARK參數頁面配置的Spark屬性。

      目前僅支援對資料開發(Data Studio)、營運中心、資料分析模組設定全域SPARK參數。

    • 產品模組內配置

      • 資料開發(Data Studio):對於EMR Spark、EMR Kyuubi、EMR Spark SQL、EMR Spark Streaming節點、Serverless Spark Batch、Serverless Spark SQL、Serverless Kyuubi節點,可在節點編輯頁面的調試配置調度配置Spark參數中,設定單個節點任務的SPARK屬性。

      • 其他產品模組:暫不支援在模組內單獨設定SPARK屬性。

  4. 單擊確認按鈕,儲存您所配置的全域SPARK參數

配置叢集帳號映射

手動設定DataWorks租戶成員的雲帳號與EMR叢集指定身份帳號的映射關係,可實現DataWorks租戶成員通過映射的叢集身份在EMR Serverless Spark中執行任務。

重要

該功能僅支援在Serverless資源群組中使用。2025年8月15日前購買的Serverless資源群組,如需使用該功能,需要提交工單進行資源群組升級。

  1. 進入計算資源清單頁,找到您所綁定的Serverless Spark計算資源。

  2. 單擊帳號映射,進入帳號映射參數配置欄。

  3. 單擊編輯帳號映射來配置叢集帳號映射資訊。您可根據所選映射類型配置相關參數。

    帳號映射類型

    任務運行說明

    配置說明

    系統帳號映射

    使用計算資源基礎資訊中的預設訪問身份的同名叢集帳號來運行EMR SparkEMR Spark SQLEMR KyuubiNotebook節點任務。

    預設採用同名映射。如果需要使用其他帳號映射,可以手動設定指定不同的帳號。

    OPEN LDAP帳號映射

    使用計算資源基礎資訊中的預設訪問身份來運行EMR SparkEMR Spark SQL任務。

    使用計算資源基礎資訊中的預設訪問身份所映射的Open LDAP帳號來運行EMR KyuubiNotebook節點任務。

    為Kyuubi Gateway配置並啟用LDAP認證的情況下,需通過配置雲帳號和Open LDAP帳號(LDAP帳號LDAP密碼)的映射關係來執行相應任務。

    重要

    若運行DataWorks任務所需的雲帳號不在帳號映射配置列表中,可能導致任務運行失敗。

    Kerberos帳號映射

    使用計算資源基礎資訊中的預設訪問身份來運行EMR SparkEMR Spark SQL任務。

    使用計算資源基礎資訊中的預設訪問身份所映射的Kerberos帳號來運行EMR Kyuubi節點任務。

    1. 需上傳EMR Serverless Spark叢集配置的Kerberos服務的krb5.conf檔案。

    2. 為預設訪問身份指定的雲帳號配置Kerberos認證所需的principal和keytab。

  4. 單擊確認,完成叢集帳號映射配置。

後續操作

配置完Serverless Spark計算資源後,您可在資料開發節點任務中使用該計算資源進行節點任務開發,詳情請參見EMR Spark節點EMR Spark SQL節點EMR Spark Streaming節點EMR Kyuubi節點Serverless Spark Batch節點Serverless Spark SQL節點Serverless Kyuubi節點