託管叢集的管理節點由E-HPC負責建立並維護,您只需關注計算節點的配置,專註於業務需求。本文介紹如何在控制台上建立託管叢集。
背景資訊
託管叢集由以下幾部分組成:
計算節點:由多個ECS執行個體組成,可以按隊列分組管理,支援擴縮容,用於運行作業。
登入節點:對應一個ECS執行個體,部署了Login組件,且綁定了EIP,用於遠端連線叢集。
共用儲存:支援掛載NAS和CPFS檔案系統,用於共用資料,包括作業資料、軟體資料等。
建立E-HPC叢集時,系統會自動建立ECS執行個體等資源,可能會產生相關費用。更多資訊,請參見計費概述。
建立E-HPC叢集後,非特殊情況請勿使用Elastic Compute Service控制台調整單個叢集節點。建議您通過彈性高效能運算控制台操作。
更多關於E-HPC叢集的相關資訊,請參見叢集概述。
前提條件
操作步驟
步驟一:開啟建立叢集頁面
單擊前往建立叢集頁面。
步驟二:配置叢集
在叢集配置頁面,完成叢集網路、類型、調度器等配置。
基礎設定
配置項
說明
地區
選擇叢集所在地區。
網路及可用性區域
選擇叢集所在的專用網路和交換器。
說明叢集內的節點會佔用所選交換器的IP地址,請確保交換器下的可用IP地址數大於所需的節點數量。
安全性群組
安全性群組用於控制叢集及其節點的出入流量。系統自動建立的安全性群組會自動添加規則,保證叢集內的各節點通訊。
請根據需要選擇自動建立的安全性群組類型。關於普通安全性群組和企業安全性群組的差異,請參見普通安全性群組與企業級安全性群組。
叢集類型
該類型叢集由一個管理節點(E-HPC託管)和多個計算節點組成。您無需組態管理節點。
配置項
說明
系列
選擇託管版。
部署模式
選擇公用雲叢集。
叢集類型
選擇叢集的調度器類型。僅支援選擇Slurm調度器。
自訂選項
配置項
說明
調度器
選擇要部署的調度器軟體。託管版叢集僅支援Slurm 22。
域帳號
選擇叢集部署的域賬戶服務。託管版叢集僅支援NIS。
網域名稱解析
保持預設。
叢集最大節點數
叢集允許包含的最大節點數量,與叢集最大核心數共同控制叢集規模。
叢集最大核心數
叢集允許包含的最大核心數,與叢集最大節點數共同控制叢集規模。
叢集刪除保護
設定是否開啟叢集刪除保護功能。開啟後,需要關閉功能才能釋放叢集,從而避免誤釋放叢集。
資源群組
資源群組用於分組管理資源,具體請參見資源群組。叢集預設屬於預設資源群組,您可以按需修改。
步驟三:配置計算節點與隊列
在計算節點與隊列頁面,完成隊列配置。
隊列用於分組管理計算節點,運行作業時可以指定隊列。叢集預設存在1個隊列(comp隊列),您可以單擊添加更多隊列來添加隊列。單個隊列需要配置以下資訊:
基本設定
配置項
說明
隊列自動調整
選擇是否開啟自動調整。開啟後,可進一步按需選擇是否開啟自動擴容和自動縮容。
開啟自動調整後,系統會根據配置資訊和即時負載,自動增加或者減少計算節點。
隊列節點數
設定隊列包含的節點數量。
如果沒有開啟隊列自動調整,請配置隊列初始的計算節點數量。
如果開啟了隊列自動調整,請配置隊列允許的最小節點數和最大節點數。
重要如果將最小節點數修改為非0值,叢集縮容時該隊列會保留最小節點數量的節點,即使是空閑節點也不會被釋放。請您謹慎設定最小節點數,以免導致自動縮容後隊列中存在空閑節點,造成資源浪費和不必要的經濟損失。
選擇隊列節點配置
如果開啟了隊列自動調整,或者沒有開啟隊列自動調整但初始節點數不為0時,需配置以下資訊,以便系統可以建立計算節點。
配置項
說明
節點間互聯
選擇節點之間網路連通方式。
VPC網路:節點之間通過VPC網路進行通訊。
eRDMA網路:如果節點使用支援ERI的規格,則節點之間可以通過eRDMA網路進行通訊。
說明僅部分節點規格支援ERI,更多資訊,請參見eRDMA概述和在企業級執行個體上啟用eRDMA。
使用預設節點池
選擇已建立好的預設節點池。系統會自動從預設節點池的未分配預設節點中選取IP及主機名稱建立計算節點。
說明使用預設節點池擴容時能夠快速複用預分配的資源。具體操作,請參見在叢集中使用預設節點池。
虛擬交換器
選擇節點所屬的交換器。系統會自動從可用的交換器網段中為節點分配IP地址。
執行個體規格組
單擊添加執行個體規格,選擇節點的規格。
如果未開啟自動調整,則僅支援添加一個執行個體規格;如果開啟了自動調整,則支援添加多個執行個體規格。
重要您可以選擇多個虛擬交換器和多個執行個體規格作為備選,避免因庫存問題導致執行個體建立失敗。建立計算節點時,系統會從第一個交換器所在可用性區域開始,按照執行個體規格順序嘗試建立,直到建立出滿足所需節點數量的計算節點。最終建立成功的執行個體的規格可能隨庫存變化而不同。
自動調整
配置項
說明
伸縮策略
選擇伸縮策略。目前僅支援供應優先策略,表示會按照配置的交換器順序,從對應可用性區域依次嘗試建立符合規格要求的計算節點。
單次最大伸縮節點數
每輪擴容或縮容周期最多增加或減少的節點數量。預設為0,表示不限制最大數量。
如果您對使用成本有要求,可以設定該值,確保擴容的節點數量不超出預期。
主機名稱首碼
節點主機名稱的開頭字元,用以標記區分節點。
主機名稱尾碼
節點主機名稱的結尾字元,用以標記區分節點。
主機RAM角色
為節點綁定RAM角色,使得節點可以獲得許可權訪問阿里雲服務。
建議您選擇系統建立的預設角色AliyunECSInstanceForEHPCRole。
步驟四:配置共用檔案儲存體
在共用檔案儲存體頁面,完成儲存配置。
預設情況下,管理節點的/home和/opt將掛載檔案系統,作為共用儲存目錄。如果您想要為其他目錄掛載檔案系統,可單擊添加更多儲存,並完成相關配置。單個目錄需要配置的檔案系統資訊如下:
/home和/opt目錄暫不支援掛載不同的檔案系統目錄。
配置項 | 說明 |
類型 | 選擇要掛載的檔案系統類型。
|
檔案系統 | 選擇要掛載的檔案系統ID和掛載點,請確保該檔案系統還有可用的掛載點餘量。 |
檔案系統目錄 | 輸入要掛載的檔案系統目錄。 |
掛載選項 | 選擇掛載協議。 |
步驟五:配置軟體與服務元件
在軟體與服務元件頁面,完成軟體和服務元件配置。
單擊添加軟體,在彈出的對話方塊中選擇需要安裝的軟體。E-HPC提供了HPC行業常用的軟體,您可以按需選擇。
單擊添加服務元件,在彈出的對話方塊中選擇服務元件,並配置組件參數。
說明目前僅支援Login組件。
公用雲叢集預設配置了Login組件,用於通過公網遠端連線叢集。組件參數說明如下:
配置
配置項
說明
Login組件自訂參數
SSH
設定通過SSH串連叢集時,對應的連接埠號碼、協議,以及允許的IP網段。
VNC
設定通過VNC串連叢集時,對應的連接埠號碼、協議,以及允許的IP網段。
CLIENT
設定通過用戶端串連叢集時,對應的連接埠號碼、協議,以及允許的IP網段。
組件部署資源
EIP執行個體
為部署Login組件的ECS執行個體綁定EIP,以便可以通過公網串連叢集。支援自動建立或選擇已有EIP。
ECS執行個體
設定用於部署Login組件的ECS執行個體的規格。
步驟六:確認配置
在確認配置頁面,確認配置資訊,並配置叢集名稱和登入憑證。
配置項 | 說明 |
叢集名稱 | 輸入名稱。該名稱會在叢集列表中顯示,便於您尋找識別。 |
叢集免密 | root使用者從管理節點切換到計算節點時,是否可以免密登入。 重要 開啟該功能,將配置root使用者從管理節點到所有計算節點的單向免密登入方式,但不支援從計算節點到管理節點的免密登入,請謹慎操作。 |
登入憑證 | 選擇登入叢集的憑證。目前僅支援自訂密碼。 |
設定密碼、確認密碼 | 輸入登入叢集的密碼。叢集中所有節點預設使用該密碼作為root使用者的登入密碼。 |
配置完成後,閱讀服務於協議,確認費用資訊,然後單擊建立叢集。