若您要使用DataWorks進行E-MapReduce(簡稱EMR)任務的開發、管理,需先將您的E-MapReduce叢集綁定為DataWorks的EMR計算資源。綁定完成後,可在DataWorks中使用該計算資源進行資料同步和開發等操作。
前提條件
DataWorks已建立工作空間,操作者使用的RAM帳號已加入工作空間並設定為工作空間管理員角色。
已建立EMR叢集。
支援綁定的叢集類型:
支援使用新版資料開發(Data Studio)的工作空間綁定該計算資源。
說明未使用新版資料開發(Data Studio)的工作空間可通過叢集管理舊版資料開發:綁定EMR計算資源。
已為工作空間綁定資源群組,且確保網路連通。
使用Serverless資源群組時,只需確保EMR計算資源與Serverless資源群組連通性正常即可。
使用舊版獨享型資源群組時,需確保EMR計算資源與對應情境下的獨享調度資源群組連通性正常。
使用限制
產品限制:
開啟Kerberos認證的EMR叢集的安全性群組需要對資源群組綁定的交換器網段放開UDP協議連接埠的入方向許可權。
說明您需單擊EMR叢集基礎資訊中叢集安全性群組的
表徵圖,進入安全性群組詳情頁簽,單擊訪問規則的入方向,選擇手動添加,協議類型選擇自訂UDP,連接埠範圍配置詳情請查看EMR叢集中的/etc/krb5.conf檔案中對應的kdc連接埠,授權對象設定為資源群組綁定的交換器網段。DataLake或自訂叢集若要在DataWorks管理中繼資料,您可在叢集側或設定SPARK參數時配置EMR-HOOK。若未配置,則在DataWorks中無法即時展示中繼資料、產生審計日誌、展示血緣關係,EMR相關治理任務將無法開展。目前僅EMR Hive、EMR Spark SQL服務支援配置EMR-HOOK,配置詳情請參見配置Hive的EMR-HOOK、配置Spark SQL的EMR-HOOK。
說明配置Hive的EMR-HOOK可通過E-MapReduce控制台完成,配置完成後無需重新初始化資源群組。
配置Spark SQL的EMR-HOOK有兩種方式:
在E-MapReduce控制台配置,需要重新初始化資源群組。
在計算資源中通過設定SPARK屬性參數配置,無需重新初始化資源群組。
地區限制:華東1(杭州)、華東2(上海)、華北2(北京)、華南1(深圳)、西南1(成都)、中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)、德國(法蘭克福)、英國(倫敦)、美國(矽谷)、美國(維吉尼亞)。
許可權限制:
操作人
具備許可權說明
阿里雲主帳號
無需額外授權。
阿里雲RAM帳號/RAM角色
僅擁有營運和空間管理員角色的空間成員,或擁有
AliyunDataWorksFullAccess許可權的空間成員可建立計算資源。授權詳情請參見授權使用者空間管理員權限。
注意事項
支援在DataWorks使用以下EMR版本的Hadoop叢集(舊版資料湖):
EMR-3.38.2、EMR-3.38.3、EMR-4.9.0、EMR-5.6.0、EMR-3.26.3、EMR-3.27.2、EMR-3.29.0、EMR-3.32.0、EMR-3.35.0、EMR-4.3.0、EMR-4.4.1、EMR-4.5.0、EMR-4.5.1、EMR-4.6.0、EMR-4.8.0、EMR-5.2.1、EMR-5.4.3。Hadoop叢集(舊版資料湖)已不建議使用,請儘快遷移至DataLake叢集,詳情請參見Hadoop叢集遷移至DataLake叢集。
進入計算資源清單頁
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入管理中心。
在左側導覽列單擊計算資源,進入計算資源清單頁。
綁定EMR計算資源
在計算資源清單頁,配置綁定EMR計算資源。
選擇綁定計算資源類型。
單擊綁定計算資源,進入綁定計算資源頁面。
在綁定計算資源頁面選擇計算資源類型為EMR,進入綁定EMR計算資源配置頁面。
配置EMR計算資源。
在綁定EMR計算資源配置頁面,根據下表內容進行相應配置。
參數
配置說明
叢集所屬雲帳號
支援選擇當前阿里雲主帳號和其他阿里雲主帳號。
說明使用其他阿里雲主帳號時,您可根據情境:註冊跨帳號的EMR叢集,進行相關帳號授權後根據介面提示填寫相關參數。
叢集類型
您可根據業務需要選擇所需使用的叢集類型。
叢集
在對應叢集類型下選擇您所使用的EMR叢集。
預設訪問身份
開發環境:可選擇使用叢集帳號
hadoop,或任務執行者所映射的叢集帳號。生產環境:可選擇使用叢集帳號
hadoop,任務責任人、阿里雲主帳號或阿里雲子帳號所映射的叢集帳號。說明當預設訪問身份選擇任務責任人、阿里雲主帳號或阿里雲子帳號所映射的叢集帳號時,您可以參考設定叢集身份映射手動設定DataWorks租戶成員與EMR叢集指定帳號的映射關係。通過該映射的叢集帳號在DataWorks執行EMR任務,未配置DataWorks租戶成員與叢集帳號映射的情況下,DataWorks處理策略如下:
若使用RAM使用者(子帳號)執行任務:我們將預設按照與當前操作人同名的EMR叢集系統帳號執行任務。若叢集開啟LDAP或者Kerberos認證,任務執行將失敗。
若使用阿里雲主帳號執行任務:DataWorks任務執行將報錯。
傳遞Proxy User資訊
用於配置是否傳遞Proxy User資訊。
說明當開啟LDAP/Kerberos等認證方式時,叢集會為每個普通使用者頒發一個認證憑證。為方便統一系統管理使用者許可權,您可通過某個超級使用者(Real User)代理普通使用者(Proxy User)進行許可權認證,此時,通過Proxy User訪問叢集時,實際使用的是超級使用者的身份認證資訊。您只需將使用者添加為Proxy User即可。
傳遞:在EMR叢集中運行任務時,根據Proxy User進行資料存取權限的校正及控制。
DataStudio(資料開發)、資料分析:將動態傳遞任務執行者的阿里雲帳號名稱,即Proxy User資訊作為任務執行者的資訊。
營運中心:將固定傳遞註冊叢集時配置的預設訪問身份的阿里雲帳號名稱,即Proxy User資訊,作為預設訪問身份的資訊。
不傳遞:在EMR叢集中運行任務時,根據註冊叢集時配置的帳號認證方式進行資料存取權限的校正及控制。
不同類型的EMR任務,傳遞Proxy User資訊的方式如下:
EMR Kyuubi任務:通過
hive.server2.proxy.user配置項傳遞。EMR Spark任務及非JDBC模式的EMR Spark SQL任務:通過
-proxy-user配置項傳遞。
設定檔
當叢集類型選擇HADOOP時,您可以前往EMR控制台擷取設定檔。詳情請參見匯出和匯入服務配置。匯出後請根據產品介面要上傳的設定檔,修改檔案名稱。
此外,您還可以登入EMR叢集,通過以下路徑擷取相關設定檔。
/etc/ecm/hadoop-conf/core-site.xml /etc/ecm/hadoop-conf/hdfs-site.xml /etc/ecm/hadoop-conf/mapred-site.xml /etc/ecm/hadoop-conf/yarn-site.xml /etc/ecm/hive-conf/hive-site.xml /etc/ecm/spark-conf/spark-defaults.conf /etc/ecm/spark-conf/spark-env.sh計算資源執行個體名
自訂計算資源執行個體名。在任務運行時,可根據計算資源名稱來選擇任務啟動並執行計算資源。
單擊確認,完成EMR計算資源配置。
資源群組初始化
初次註冊叢集、叢集服務配置變更或組件版本升級(例如:修改core-site.xml)請初始化資源群組,確保通過配置網路連通,資源群組可正常訪問EMR叢集。
在計算資源列表頁,找到您所建立的EMR計算資源。單擊右上方的資源群組初始化。
在需要的資源群組後面單擊初始化。資源群組初始化成功後,單擊確定即可。
(可選)設定YARN資源隊列
您可在計算資源列表頁找到您所綁定的EMR叢集,在YARN 資源隊列頁簽單擊編輯YARN 資源隊列,在不同模組為任務設定全域YARN資源隊列。
(可選)設定SPARK參數
在不同模組為任務設定專有的SPARK屬性參數。
在計算資源列表頁找到您所綁定的EMR叢集。
單擊SPARK 參數頁簽的編輯SPARK 參數按鈕,進入編輯EMR叢集的SPARK參數頁。
通過單擊模組下方的添加按鈕,輸入Spark屬性名稱和對應的Spark屬性值,在不同模組為任務設定全域Spark參數。
後續步驟
設定Kyuubi串連資訊:若您需使用自訂的帳號及密碼登入Kyuubi來運行相關任務,可參考該文檔自訂Kyuubi的串連資訊。
配置完EMR計算資源後,您可在資料開發中通過EMR相關節點進行資料開發操作。