進入建立叢集頁面

  1. 登入阿里雲 E-MapReduce 控制台叢集列表
  2. 完成 RAM 授權,操作步驟請參見角色授權
  3. 在上方選擇所在的地區(Region),所建立叢集將會在對應的地區內,一旦建立後不能修改。
  4. 單擊右上方的建立叢集,進行建立。

建立叢集流程

注意 叢集除了名字以外,一旦建立完成就無法被修改。所以在建立時請仔細確認需要的配置。

要建立叢集,您需要繼續完成以下 3 個步驟:

  1. 軟體配置

    配置項說明:

    • 產品版本:E-MapReduce 產品的主要版本,代表了一整套的開源軟體環境,它會定時的根據內部組成軟體的升級進行升級。一般如果 Hadoop 相關的軟體有進行升級,E-MapReduce 也會升級,這個時候就會升級這個主要版本號。低版本的叢集無法自動的升級到一個高版本上。

    • 叢集類型:目前的EMR提供了

      • Hadoop標準的 Hadoop 叢集,包含了大部分的 Hadoop 相關的組件,具體的組件資訊可以在選擇介面的列表中查看。
      • Kafka獨立的 Kafka 叢集,提供Message Service。
    • 包含配置:展示選擇的叢集類型下的所有的軟體組件列表,包括名稱和版本號碼。根據需求,您可選擇不同的組件,被選中的組件會預設啟動相關的服務進程。
      说明 您選擇的組件越多,對您機器的配置要求就越高,否則很可能無法有足夠的資源來運行這些服務。
    • 安全模式:是否開啟叢集的 Kerberos 認證功能。

    • 軟體配置(可選):可以對叢集中的基礎軟體例如 Hadoop、Spark、Hive 等進行配置,詳細使用方法請參見軟體配置

  2. 硬體設定

    配置項說明:

    • 付費配置

      • 付費類型:訂用帳戶是一次性支付一個長期的費用,價格相對來說會比較便宜,特別是包三年的時候折扣會很大。隨用隨付是根據實際使用的小時數來支付費用,每個小時計一次費用。適合與短期的測試或者是靈活的動態任務,價格相對來說會貴一些。

      • 購買時間長度:您可選擇購買 1 個月、2 個月、3 個月、6 個月、9 個月、1 年、2 年、3 年。

    • 叢集網路設定

      • 叢集可用性區域:選擇叢集所在的可用性區域(Zone),不同的可用性區域會有不同的機型和磁碟。在每個 Region 記憶體在多個可用性區域。可用性區域在物理上屬於不同的地區,一般來說如果需要較好的網路,推薦您選擇相同的可用性區域,但是這樣也會使建立叢集失敗的風險增大,因為單個可用性區域的存庫不一定那麼充足。如果需要大量的機器可以工單諮詢我們。

      • 網路類型:可以選擇傳統網路和專用網路(VPC),專用網路需要額外提供所屬 VPC 以及子網(交換器),若還未建立,可前往VPC控制台進行建立。E-MapReduce 專用網路詳細使用說明查看專用網路

        注意:傳統網路與專用網路不互連,購買後不能更換網路類型。

      • ECS 執行個體系列:不同的可用性區域有不同的執行個體系列,系列 I、II、III等。盡量使用最新的系列。

      • VPC:選擇在該地區的VPC。

      • 交換器:選擇在對應的VPC下的在對應可用性區域的交換器,如果在這個可用性區域沒有可用的交換器,那麼就需要前往去建立一個新的使用。

      • 建立安全性群組:一般使用者初次來到這裡還沒有安全性群組,開啟“建立安全性群組”開關,在“安全性群組名稱”裡面填上新的安全性群組的名字。

      • 選擇安全性群組:叢集所屬的安全性群組。這裡只展示使用者在 E-MapReduce 產品中建立的安全性群組,目前尚不支援選擇在 E-MapReduce 外建立的安全性群組。如果需要建立安全性群組,可以選擇“建立安全性群組”選項,同時輸入安全性群組的名字完成建立。長度限制為 2-64 個字元,以大小寫字母或中文開頭,可使用中文、字母、數字、“-”和“_”。

    • 叢集節點配置

      • 高可用叢集:開啟後,Hadoop 叢集會有 2 個 master 來支援 Resource Manager 和 Name Node 的高可用。HBase 叢集原來就支援高可用,只是另一個節點用其中一個 core 節點來充當,如果開啟高可用,會獨立使用一個 master 節點來支援高可用,更加的安全可靠。預設為非高可用模式,master節點數量為1。

      • 節點類型:

        • Master主執行個體節點,主要負責Resource Manager,Name node等控制進程的部署
        • Core核心執行個體節點,主要負責叢集所有資料的儲存,可以按照需要進行擴容
        • Task純計算節點,不儲存資料。調整叢集的計算力使用。
      • 節點配置:不同規格的機型的選擇。各個機型有各自比較適用的情境,可以根據需要選擇。

      • 資料盤類型:叢集的節點使用的資料盤類型,資料盤有 3 種類型,普通雲端硬碟、高效雲端硬碟和 SSD 雲端硬碟,根據不同機型和不同的 Region,會有不同。當使用者選擇不同的區的時候,該區支援什麼盤,下拉框就會展示什麼類型的盤。資料盤預設設定為隨著叢集的釋放而釋放。本地碟的計算節點,磁碟是預設選定的,無法修改。

      • 資料盤容量:目前推薦的叢集容量最小是 40G 單機,最大可以到32T單節點。本地碟的容量是預設的,無法調整。

      • 執行個體數量:需要的總的節點的台數。一個叢集至少需要 3 台執行個體(高可用叢集需增加 1 個 Master 節點,至少 4 台)。按量叢集目前最大台數是 50 台,如果需要超過 50 台,請工單聯絡我們。包月叢集最大100台,超過50台請工單聯絡我們。

  3. 基礎配置

    配置項說明:

    • 基本資料

      叢集名稱:叢集的名字,長度限制為 1-64 個字元,僅可使用中文、字母、數字、“-”和“_”。

    • 作業記錄

      • 作業記錄:是否儲存作業的日誌,日誌儲存預設是開啟的。開啟後會需要您選擇用來儲存日誌的 OSS 目錄位置,會將您的作業的日誌儲存到該 OSS 儲存目錄上。當然,您要使用這個功能必須先開通 OSS,同時上傳的檔案會按照使用的量來計算使用者的費用。強烈建議您開啟 OSS 日誌儲存功能,這會對您的作業調試和錯誤排查有極大的協助。

      • 日誌路徑:儲存日誌的 OSS 路徑。

      • 統一Meta資料庫:將你所有的 Hive 的元資料都儲存到叢集外部的資料庫上,由EMR產品提供。推薦當叢集使用 OSS 作為主要的儲存的時候,使用這個功能。

    • 使用權限設定

      • 服務角色:這個是使用者將許可權授予EMR服務,允許 EMR 代表使用者調用其他阿里雲的服務,例如 ECS 和 OSS
      • ECS應用角色:這個是當使用者的程式在 EMR 計算節點上啟動並執行時候,可以不填寫阿里雲的 AK 來訪問相關的雲端服務,比如OSS。EMR 會自動的申請一個臨時 AK 來授權這次訪問。而這個 AK 的許可權控制將由這個角色來控制。
    • 登入設定

      登入密碼:設定 master 節點的登入密碼。8 - 30 個字元,且必須同時包含大寫字母、小寫字母、數字和特殊字元!@#$%^&*。

    • 引導操作(可選): 您可以在叢集啟動 Hadoop 前執行您自訂的指令碼,詳細使用說明請參見引導操作

配置清單和叢集費用

頁面右邊會顯示您所建立叢集的配置清單以及叢集費用。根據付費類型的不同,會展示不同的價格資訊。隨用隨付叢集顯示每小時費用,訂用帳戶顯示總費用。

確認建立

當所有的資訊都有效填寫以後,建立按鈕會亮起,確認無誤後單擊建立將會建立叢集。

说明
  • 若是隨用隨付叢集,叢集會立刻開始建立。頁面會返回叢集列表頁,就能看到在列表中有一個叢集建立中的叢集。請耐心等待,叢集建立會需要幾分鐘時間。完成之後叢集的狀態會切換為叢集空閑

  • 若是訂用帳戶叢集,則會先產生訂單,在支付完成訂單以後叢集才會開始建立。

登入Core節點

登入Core節點,請按照以下步驟操作:

  1. 在Master節點上切換到hadoop帳號。
    su hadoop
  2. 免密碼SSH登入到對應的Core節點。
    ssh emr-worker-1
  3. 通過sudo命令可以獲得root許可權。
    sudo vi /etc/hosts

建立失敗

如果建立失敗,在叢集列表頁上會顯示叢集建立失敗,將滑鼠移動到紅色的驚嘆號上會看到失敗原因。

建立失敗的叢集可以不用處理,對應的計算資源並沒有真正的建立出來。這個叢集會在停留3天以後自動隱藏。