許可權說明
超級管理員、系統管理員和擁有Amazon EMR叢集-管理許可權的自訂全域角色,均可建立和管理Amazon EMR叢集。同時,這些使用者可設定在建立Amazon EMR計算源時可引用該叢集的使用者,以及為該叢集指定叢集管理員。
支援叢集管理員對自己負責的叢集進行管理。
擁有計算源管理-建立自訂全域角色的使用者,可以在建立Amazon EMR計算源時,選擇引用自己有使用許可權的Amazon EMR叢集。
建立Amazon EMR叢集
在Dataphin首頁的頂部功能表列中,選擇規劃 > 計算源。
在計算源頁面,單擊管理Amazon EMR叢集。
在管理Amazon EMR叢集對話方塊中,單擊+建立Amazon EMR叢集。
在建立Amazon EMR叢集頁面,配置以下參數。
基本資料
參數
描述
叢集名稱
輸入當前叢集的名稱,僅支援中文、英文、數字、底線(_)和短劃線(-),長度不超過128個字元。
叢集管理員
選擇一個或多個當前租戶下的成員,成為當前叢集的叢集管理員。叢集管理員可管理當前叢集,支援編輯、查看歷史版本和刪除操作。
描述(非必填)
輸入當前叢集的簡單描述,長度不超過128個字元。
叢集安全管控
可使用成員:建立計算源時哪些使用者可以引用當前叢集的配置資訊,可選擇擁有“建立計算源”許可權的角色或指定使用者。
擁有“建立計算源”許可權的角色:預設選中。
指定使用者:支援選擇一個或多個個人帳號和使用者組。
叢集配置
參數
描述
主節點公有DNS
將通過公有DNS擷取VPC私人DNS,Hive和Spark均通過私人DNS串連,格式為
ec2-<public_ip>.<region>.compute.amazonaws.com。密鑰檔案(*.pem)
訪問主節點ec2的金鑰組(建立EMR叢集時所設定的金鑰組)。
core-site.xml
可自行上傳相關叢集設定檔,或單擊擷取叢集配置(需先填寫主節點公有DNS並上傳密鑰檔案),從主節點下載相關檔案。
yarn-site.xml
hive-site.xml
hdfs-site.xml
叢集儲存
當前僅支援選擇HDFS。
中繼資料擷取方式
可選擇HMS或Amazon Glue。
HMS:預設選擇HMS。
Amazon Glue:選擇Amazon Glue後,還需配置Glue Region Code、Glue AccessKey ID、Glue AccessKey Secret。
Glue Region Code:輸入Amazon Glue的Region Code,例如ap-northeast-3,us-east-1,us-west-1。
Glue AccessKey ID、Glue AccessKey Secret:輸入Amazon Glue的訪問AccessKey ID和AccessKey Secret。
Hive JDBC URL
輸入Hive的JDBC串連地址,或自動擷取串連地址(需先填寫主節點公有DNS並上傳密鑰檔案)。Hive JDBC URL格式為
jdbc:hive2//host1:port1,host2:post2/,無需填寫Database name。Spark SQL
選擇開啟或關閉,開啟後還需配置Spark JDBC URL。
Spark JDBC URL
輸入Spark的JDBC串連地址,格式為
jdbc:hive2//host1:port1/或jdbc:kyuubi://host1:port1/,無需填寫Database name。說明僅當開啟Spark SQL時,需要配置此項。
使用者名稱
Hive或Spark的指定使用者名稱,此使用者名稱將設定為JDBC的
username。Spark本地用戶端
選擇開啟或關閉,開啟後需上傳Spark用戶端檔案。
說明請從Spark官網下載相應版本的Spark用戶端或提供自有用戶端(須與社區版目錄結構一致,附帶Hadoop用戶端),上傳完整的壓縮包(格式為.tgz或.zip)。Dataphin使用上傳的用戶端通過調度叢集提交Job,可以實現Job的全生命週期管理。
單擊測試連接,測試連接通過後,單擊儲存,完成Amazon EMR叢集的建立。
管理Amazon EMR叢集
在Dataphin首頁的頂部功能表列中,選擇規劃 > 計算源。
在計算源頁面,單擊管理Amazon EMR叢集。
在管理Amazon EMR叢集對話方塊中,查看Amazon EMR叢集列表,列表中展示叢集名稱、叢集管理員、關聯計算源、建立資訊和修改資訊等。
關聯計算源:展示關聯計算源的總數,單擊
表徵圖查看關聯計算源的列表,單擊計算源名稱將跳轉至計算源頁面。建立資訊:記錄建立使用者和建立時間。
修改資訊:記錄最近一次編輯當前叢集的使用者名稱和修改時間。
說明計算任務只能在一個叢集中運行,不同Amazon EMR叢集之間的資料無法進行聯結操作。
(可選)可在搜尋方塊中輸入集群名稱,進行模糊搜尋。
在Amazon EMR叢集列表操作列中,對目的地組群進行相關管理操作。支援的操作如下。
操作項
說明
查看
單擊目的地組群操作列的
表徵圖,查看叢集目前的版本的詳細資料。擁有Amazon EMR叢集-管理許可權的使用者,可下載叢集設定檔。編輯
單擊目的地組群操作列的
表徵圖,開啟編輯Amazon EMR叢集頁面。您可在編輯Amazon EMR叢集頁面中修改已有的配置。修改完成後,單擊儲存,在彈出的對話方塊中填寫變更說明並單擊確定。複製
單擊目的地組群操作列的
表徵圖,系統將自動複製當前叢集的所有資料並開啟建立Amazon EMR叢集頁面,您可在已有配置基礎上進行修改。歷史版本
單擊目的地組群操作列的
表徵圖,選擇歷史版本,對話方塊中展示當前叢集各版本資訊,包含版本名稱、修改人、變更說明等資訊。您可在歷史版本進行查看和對比操作。查看:單擊目標版本操作列中的
表徵圖,跳轉至查看Amazon EMR叢集頁面,查看叢集目前的版本的詳細資料。擁有Amazon EMR叢集-管理許可權的使用者,可下載叢集設定檔。對比:單擊目標版本操作列中的
表徵圖,跳轉至版本對比頁面。可在對比頁面中篩選的下拉式清單中選擇不同版本,預設將目前的版本的Amazon EMR叢集和目標版本進行對比。
刪除
說明僅在當前Amazon EMR叢集下沒有關聯的計算源時,支援刪除當前叢集。
叢集刪除後無法恢複。
單擊目的地組群操作列的
表徵圖,選擇刪除,在彈出的對話方塊中,單擊確定。