全部產品
Search
文件中心

Elastic High Performance Computing:建立公用雲託管版叢集

更新時間:May 08, 2025

託管叢集的管理節點由E-HPC負責建立並維護,您只需關注計算節點的配置,專註於業務需求。本文介紹如何在控制台上建立託管叢集。

背景資訊

託管叢集由以下幾部分組成:

  • 計算節點:由多個ECS執行個體組成,可以按隊列分組管理,支援擴縮容,用於運行作業。

  • 登入節點:對應一個ECS執行個體,部署了Login組件,且綁定了EIP,用於遠端連線叢集。

  • 共用儲存:支援掛載NAS和CPFS檔案系統,用於共用資料,包括作業資料、軟體資料等。

重要

更多關於E-HPC叢集的相關資訊,請參見叢集概述

前提條件

  • 已建立服務關聯角色。首次登入E-HPC控制台,系統會提示您建立E-HPC服務關聯角色。

  • 已建立Virtual Private Cloud和交換器。具體操作,請參見建立專用網路建立交換器

  • 已開通NAS服務,建立NAS檔案系統和掛載點。具體操作,請參見建立檔案系統添加掛載點

操作步驟

步驟一:開啟建立叢集頁面

單擊前往建立叢集頁面

步驟二:配置叢集

叢集配置頁面,完成叢集網路、類型、調度器等配置。

  • 基礎設定

    配置項

    說明

    地區

    選擇叢集所在地區。

    網路及可用性區域

    選擇叢集所在的專用網路和交換器。

    說明

    叢集內的節點會佔用所選交換器的IP地址,請確保交換器下的可用IP地址數大於所需的節點數量。

    安全性群組

    安全性群組用於控制叢集及其節點的出入流量。系統自動建立的安全性群組會自動添加規則,保證叢集內的各節點通訊。

    請根據需要選擇自動建立的安全性群組類型。關於普通安全性群組和企業安全性群組的差異,請參見普通安全性群組與企業級安全性群組

  • 叢集類型

    該類型叢集由一個管理節點(E-HPC託管)和多個計算節點組成。您無需組態管理節點。

    配置項

    說明

    系列

    選擇託管版

    部署模式

    選擇公用雲叢集

    叢集類型

    選擇叢集的調度器類型。僅支援選擇Slurm調度器。

  • 自訂選項

    配置項

    說明

    調度器

    選擇要部署的調度器軟體。託管版叢集僅支援Slurm 22。

    域帳號

    選擇叢集部署的域賬戶服務。託管版叢集僅支援NIS。

    網域名稱解析

    保持預設。

    叢集最大節點數

    叢集允許包含的最大節點數量,與叢集最大核心數共同控制叢集規模。

    叢集最大核心數

    叢集允許包含的最大核心數,與叢集最大節點數共同控制叢集規模。

    叢集刪除保護

    設定是否開啟叢集刪除保護功能。開啟後,需要關閉功能才能釋放叢集,從而避免誤釋放叢集。

  • 資源群組

    資源群組用於分組管理資源,具體請參見資源群組。叢集預設屬於預設資源群組,您可以按需修改。

步驟三:配置計算節點與隊列

計算節點與隊列頁面,完成隊列配置。

隊列用於分組管理計算節點,運行作業時可以指定隊列。叢集預設存在1個隊列(comp隊列),您可以單擊添加更多隊列來添加隊列。單個隊列需要配置以下資訊:

  • 基本設定

    配置項

    說明

    隊列自動調整

    選擇是否開啟自動調整。開啟後,可進一步按需選擇是否開啟自動擴容自動縮容

    開啟自動調整後,系統會根據配置資訊和即時負載,自動增加或者減少計算節點。

    隊列節點數

    設定隊列包含的節點數量。

    • 如果沒有開啟隊列自動調整,請配置隊列初始的計算節點數量。

    • 如果開啟了隊列自動調整,請配置隊列允許的最小節點數和最大節點數。

      重要

      如果將最小節點數修改為非0值,叢集縮容時該隊列會保留最小節點數量的節點,即使是空閑節點也不會被釋放。請您謹慎設定最小節點數,以免導致自動縮容後隊列中存在空閑節點,造成資源浪費和不必要的經濟損失。

  • 選擇隊列節點配置

    如果開啟了隊列自動調整,或者沒有開啟隊列自動調整但初始節點數不為0時,需配置以下資訊,以便系統可以建立計算節點。

    配置項

    說明

    節點間互聯

    選擇節點之間網路連通方式。

    • VPC網路:節點之間通過VPC網路進行通訊。

    • eRDMA網路:如果節點使用支援ERI的規格,則節點之間可以通過eRDMA網路進行通訊。

      說明

      僅部分節點規格支援ERI,更多資訊,請參見eRDMA概述在企業級執行個體上啟用eRDMA

    使用預設節點池

    選擇已建立好的預設節點池。系統會自動從預設節點池的未分配預設節點中選取IP及主機名稱建立計算節點。

    說明

    使用預設節點池擴容時能夠快速複用預分配的資源。具體操作,請參見在叢集中使用預設節點池

    虛擬交換器

    選擇節點所屬的交換器。系統會自動從可用的交換器網段中為節點分配IP地址。

    執行個體規格組

    單擊添加執行個體規格,選擇節點的規格。

    如果未開啟自動調整,則僅支援添加一個執行個體規格;如果開啟了自動調整,則支援添加多個執行個體規格。

    重要

    您可以選擇多個虛擬交換器和多個執行個體規格作為備選,避免因庫存問題導致執行個體建立失敗。建立計算節點時,系統會從第一個交換器所在可用性區域開始,按照執行個體規格順序嘗試建立,直到建立出滿足所需節點數量的計算節點。最終建立成功的執行個體的規格可能隨庫存變化而不同。

  • 自動調整

    配置項

    說明

    伸縮策略

    選擇伸縮策略。目前僅支援供應優先策略,表示會按照配置的交換器順序,從對應可用性區域依次嘗試建立符合規格要求的計算節點。

    單次最大伸縮節點數

    每輪擴容或縮容周期最多增加或減少的節點數量。預設為0,表示不限制最大數量。

    如果您對使用成本有要求,可以設定該值,確保擴容的節點數量不超出預期。

    主機名稱首碼

    節點主機名稱的開頭字元,用以標記區分節點。

    主機名稱尾碼

    節點主機名稱的結尾字元,用以標記區分節點。

    主機RAM角色

    為節點綁定RAM角色,使得節點可以獲得許可權訪問阿里雲服務。

    建議您選擇系統建立的預設角色AliyunECSInstanceForEHPCRole。

步驟四:配置共用檔案儲存體

共用檔案儲存體頁面,完成儲存配置。

預設情況下,管理節點的/home/opt將掛載檔案系統,作為共用儲存目錄。如果您想要為其他目錄掛載檔案系統,可單擊添加更多儲存,並完成相關配置。單個目錄需要配置的檔案系統資訊如下:

說明

/home/opt目錄暫不支援掛載不同的檔案系統目錄。

配置項

說明

類型

選擇要掛載的檔案系統類型。

  • 通用型NAS:掛載通用型NAS檔案系統。

  • 極速型NAS:掛載極速型NAS檔案系統。

  • 並行檔案CPFS:使用NFS協議掛載CPFS檔案系統。

檔案系統

選擇要掛載的檔案系統ID和掛載點,請確保該檔案系統還有可用的掛載點餘量。

檔案系統目錄

輸入要掛載的檔案系統目錄。

掛載選項

選擇掛載協議。

步驟五:配置軟體與服務元件

軟體與服務元件頁面,完成軟體和服務元件配置。

  • 單擊添加軟體,在彈出的對話方塊中選擇需要安裝的軟體。E-HPC提供了HPC行業常用的軟體,您可以按需選擇。

  • 單擊添加服務元件,在彈出的對話方塊中選擇服務元件,並配置組件參數。

    說明

    目前僅支援Login組件。

    公用雲叢集預設配置了Login組件,用於通過公網遠端連線叢集。組件參數說明如下:

    配置

    配置項

    說明

    Login組件自訂參數

    SSH

    設定通過SSH串連叢集時,對應的連接埠號碼、協議,以及允許的IP網段。

    VNC

    設定通過VNC串連叢集時,對應的連接埠號碼、協議,以及允許的IP網段。

    CLIENT

    設定通過用戶端串連叢集時,對應的連接埠號碼、協議,以及允許的IP網段。

    組件部署資源

    EIP執行個體

    為部署Login組件的ECS執行個體綁定EIP,以便可以通過公網串連叢集。支援自動建立或選擇已有EIP。

    ECS執行個體

    設定用於部署Login組件的ECS執行個體的規格。

步驟六:確認配置

確認配置頁面,確認配置資訊,並配置叢集名稱和登入憑證。

配置項

說明

叢集名稱

輸入名稱。該名稱會在叢集列表中顯示,便於您尋找識別。

叢集免密

root使用者從管理節點切換到計算節點時,是否可以免密登入。

重要

開啟該功能,將配置root使用者從管理節點到所有計算節點的單向免密登入方式,但不支援從計算節點到管理節點的免密登入,請謹慎操作。

登入憑證

選擇登入叢集的憑證。目前僅支援自訂密碼

設定密碼確認密碼

輸入登入叢集的密碼。叢集中所有節點預設使用該密碼作為root使用者的登入密碼。

配置完成後,閱讀服務於協議,確認費用資訊,然後單擊建立叢集

相關文檔

建立叢集後,您需要建立使用者來提交作業。具體操作,請參見使用者管理作業概述