全部產品
Search
文件中心

Dataphin:建立及管理Amazon EMR叢集

更新時間:May 29, 2025

許可權說明

  • 超級管理員系統管理員和擁有Amazon EMR叢集-管理許可權的自訂全域角色,均可建立和管理Amazon EMR叢集。同時,這些使用者可設定在建立Amazon EMR計算源時可引用該叢集的使用者,以及為該叢集指定叢集管理員。

  • 支援叢集管理員對自己負責的叢集進行管理。

  • 擁有計算源管理-建立自訂全域角色的使用者,可以在建立Amazon EMR計算源時,選擇引用自己有使用許可權的Amazon EMR叢集。

建立Amazon EMR叢集

  1. 在Dataphin首頁的頂部功能表列中,選擇規劃 > 計算源

  2. 計算源頁面,單擊管理Amazon EMR叢集

  3. 管理Amazon EMR叢集對話方塊中,單擊+建立Amazon EMR叢集

  4. 建立Amazon EMR叢集頁面,配置以下參數。

    • 基本資料

      參數

      描述

      叢集名稱

      輸入當前叢集的名稱,僅支援中文、英文、數字、底線(_)和短劃線(-),長度不超過128個字元。

      叢集管理員

      選擇一個或多個當前租戶下的成員,成為當前叢集的叢集管理員。叢集管理員可管理當前叢集,支援編輯、查看歷史版本和刪除操作。

      描述(非必填)

      輸入當前叢集的簡單描述,長度不超過128個字元。

    • 叢集安全管控

      可使用成員:建立計算源時哪些使用者可以引用當前叢集的配置資訊,可選擇擁有“建立計算源”許可權的角色指定使用者

      • 擁有“建立計算源”許可權的角色:預設選中。

      • 指定使用者:支援選擇一個或多個個人帳號和使用者組。

    • 叢集配置

      參數

      描述

      主節點公有DNS

      將通過公有DNS擷取VPC私人DNS,Hive和Spark均通過私人DNS串連,格式為ec2-<public_ip>.<region>.compute.amazonaws.com

      密鑰檔案(*.pem

      訪問主節點ec2的金鑰組(建立EMR叢集時所設定的金鑰組)。

      core-site.xml

      可自行上傳相關叢集設定檔,或單擊擷取叢集配置(需先填寫主節點公有DNS並上傳密鑰檔案),從主節點下載相關檔案。

      yarn-site.xml

      hive-site.xml

      hdfs-site.xml

      叢集儲存

      當前僅支援選擇HDFS

      中繼資料擷取方式

      可選擇HMSAmazon Glue

      • HMS:預設選擇HMS。

      • Amazon Glue:選擇Amazon Glue後,還需配置Glue Region Code、Glue AccessKey ID、Glue AccessKey Secret。

        • Glue Region Code:輸入Amazon Glue的Region Code,例如ap-northeast-3,us-east-1,us-west-1。

        • Glue AccessKey IDGlue AccessKey Secret:輸入Amazon Glue的訪問AccessKey ID和AccessKey Secret。

      Hive JDBC URL

      輸入Hive的JDBC串連地址,或自動擷取串連地址(需先填寫主節點公有DNS並上傳密鑰檔案)。Hive JDBC URL格式為jdbc:hive2//host1:port1,host2:post2/,無需填寫Database name。

      Spark SQL

      選擇開啟關閉,開啟後還需配置Spark JDBC URL

      Spark JDBC URL

      輸入Spark的JDBC串連地址,格式為jdbc:hive2//host1:port1/jdbc:kyuubi://host1:port1/,無需填寫Database name。

      說明

      僅當開啟Spark SQL時,需要配置此項。

      使用者名稱

      Hive或Spark的指定使用者名稱,此使用者名稱將設定為JDBC的username

      Spark本地用戶端

      選擇開啟或關閉,開啟後需上傳Spark用戶端檔案。

      說明

      請從Spark官網下載相應版本的Spark用戶端或提供自有用戶端(須與社區版目錄結構一致,附帶Hadoop用戶端),上傳完整的壓縮包(格式為.tgz或.zip)。Dataphin使用上傳的用戶端通過調度叢集提交Job,可以實現Job的全生命週期管理。

  5. 單擊測試連接,測試連接通過後,單擊儲存,完成Amazon EMR叢集的建立。

管理Amazon EMR叢集

  1. 在Dataphin首頁的頂部功能表列中,選擇規劃 > 計算源

  2. 計算源頁面,單擊管理Amazon EMR叢集

  3. 管理Amazon EMR叢集對話方塊中,查看Amazon EMR叢集列表,列表中展示叢集名稱、叢集管理員、關聯計算源、建立資訊和修改資訊等。

    • 關聯計算源:展示關聯計算源的總數,單擊image表徵圖查看關聯計算源的列表,單擊計算源名稱將跳轉至計算源頁面。

    • 建立資訊:記錄建立使用者和建立時間。

    • 修改資訊:記錄最近一次編輯當前叢集的使用者名稱和修改時間。

    說明

    計算任務只能在一個叢集中運行,不同Amazon EMR叢集之間的資料無法進行聯結操作。

  4. (可選)可在搜尋方塊中輸入集群名稱,進行模糊搜尋。

  5. 在Amazon EMR叢集列表操作列中,對目的地組群進行相關管理操作。支援的操作如下。

    操作項

    說明

    查看

    單擊目的地組群操作列的image表徵圖,查看叢集目前的版本的詳細資料。擁有Amazon EMR叢集-管理許可權的使用者,可下載叢集設定檔。

    編輯

    單擊目的地組群操作列的image表徵圖,開啟編輯Amazon EMR叢集頁面。您可在編輯Amazon EMR叢集頁面中修改已有的配置。修改完成後,單擊儲存,在彈出的對話方塊中填寫變更說明並單擊確定

    複製

    單擊目的地組群操作列的image表徵圖,系統將自動複製當前叢集的所有資料並開啟建立Amazon EMR叢集頁面,您可在已有配置基礎上進行修改。

    歷史版本

    單擊目的地組群操作列的image表徵圖,選擇歷史版本,對話方塊中展示當前叢集各版本資訊,包含版本名稱、修改人、變更說明等資訊。您可在歷史版本進行查看對比操作。

    • 查看:單擊目標版本操作列中的image表徵圖,跳轉至查看Amazon EMR叢集頁面,查看叢集目前的版本的詳細資料。擁有Amazon EMR叢集-管理許可權的使用者,可下載叢集設定檔。

    • 對比:單擊目標版本操作列中的image表徵圖,跳轉至版本對比頁面。可在對比頁面中篩選的下拉式清單中選擇不同版本,預設將目前的版本的Amazon EMR叢集和目標版本進行對比。

    刪除

    說明
    • 僅在當前Amazon EMR叢集下沒有關聯的計算源時,支援刪除當前叢集。

    • 叢集刪除後無法恢複

    單擊目的地組群操作列的image表徵圖,選擇刪除,在彈出的對話方塊中,單擊確定