公用雲標準版叢集部署在雲環境中,由Elastic Compute Service執行個體和共用檔案系統等組件構成,使用者可自主維護叢集服務的可用性。本文介紹如何在控制台上建立公用雲叢集。
背景資訊
E-HPC公用雲標準版叢集由以下幾部分組成:
管理節點:對應一個ECS執行個體,部署了調度器和域帳號服務,用於管理作業調度和使用者資訊等。
計算節點:由多個ECS執行個體組成,可以按隊列分組管理,支援擴縮容,用於運行作業。
登入節點:對應一個ECS執行個體,部署了Login組件,且綁定了EIP,用於遠端連線叢集。
共用儲存:支援掛載NAS和CPFS檔案系統,用於共用資料,包括作業資料、軟體資料等。
建立E-HPC叢集時,系統會自動建立ECS執行個體等資源,可能會產生相關費用。更多資訊,請參見計費概述。
建立E-HPC叢集後,非特殊情況請勿使用Elastic Compute Service控制台調整單個叢集節點。建議您通過彈性高效能運算控制台操作。
更多關於E-HPC叢集的相關資訊,請參見叢集概述。
前提條件
手動建立
步驟一:開啟建立叢集頁面
單擊前往建立叢集頁面。
步驟二:配置叢集
在叢集配置頁面,完成叢集網路、類型、調度器等配置。
基礎設定
配置項
說明
地區
選擇叢集所在地區。
網路及可用性區域
選擇叢集所在的專用網路和交換器。
說明叢集內的節點會佔用所選交換器的IP地址,請確保交換器下的可用IP地址數大於所需的節點數量。
安全性群組
安全性群組用於控制叢集及其節點的出入流量。系統自動建立的安全性群組會自動添加規則,保證叢集內的各節點通訊。
請根據需要選擇自動建立的安全性群組類型。關於普通安全性群組和企業安全性群組的差異,請參見普通安全性群組與企業級安全性群組。
叢集類型
該類型叢集由一個管理節點和多個計算節點組成。您需要選擇叢集部署的調度器類型,並組態管理節點。
配置項
說明
系列
選擇標準版。
部署模式
選擇公用雲叢集。
叢集類型
選擇叢集的調度器類型。支援HPC情境常用調度器,包括Slurm和OpenPBS。
管理節點
管理節點是一台部署了調度器和域帳號服務的ECS執行個體。請根據業務情境和叢集規模,為管理節點選擇合適的配置。
付費模式
選擇如何為管理節點付費。具體計費說明,請參見執行個體規格計費。
隨用隨付:後付費,按實際使用時間長度計費,不支援搶佔式執行個體。
訂用帳戶:預付費,按月、年計費。
執行個體規格
選擇合適的管理節點規格。對於不同規模的叢集,推薦的管理節點規格如下:
如果計算節點數≤100個,管理節點規格建議vCPU≥16核,記憶體≥64 GiB。
如果100<計算節點數≤500個,管理節點規格建議vCPU≥32核,記憶體≥128 GiB。
如果計算節點數>500個,管理節點規格建議vCPU≥64核,記憶體≥256 GiB。
鏡像
選擇鏡像類型後,可進一步選擇要使用的鏡像。不同鏡像對應不同的作業系統,系統會根據您選擇的鏡像來部署叢集節點。
說明自訂鏡像具有以下限制:
支援基於阿里雲官方鏡像建立的自訂鏡像,以及匯入的CentOS鏡像。匯入鏡像時,請務必選中匯入後執行檢測,否則無法在E-HPC控制台識別該鏡像。
無法使用基於已有E-HPC叢集節點建立的自訂鏡像。否則,建立叢集計算節點將會產生異常。
自訂鏡像中不能修改作業系統的yum源配置,否則會導致無法建立叢集或擴容。
自訂鏡像的掛載路徑(通過mount命令掛載NAS檔案系統的掛載路徑)不能有
/home和/opt目錄。
儲存
選擇管理節點的系統硬碟規格,以及是否掛載資料盤。關於雲端硬碟的類型和效能等資訊,請參見雲端硬碟概述。
超執行緒
預設開啟CPU超執行緒,如果您的業務情境需要獲得更好的效能表現,可以關閉CPU超執行緒。
自訂選項
配置項
說明
調度器
根據選擇的叢集類型,以及管理節點配置的鏡像,選擇要部署的調度器軟體。
域帳號
選擇叢集部署的域賬戶服務。
網域名稱解析
保持預設。
叢集後處理指令碼
指在叢集計算任務完成後,用於處理結果資料或執行其他後續操作的指令碼。
叢集最大節點數
叢集允許包含的最大節點數量。和叢集最大核心數共同控制叢集規模。
叢集最大核心數
叢集允許包含的最大核心數。和叢集最大節點數共同控制叢集規模。
叢集刪除保護
設定是否開啟叢集刪除保護功能。開啟後,需要關閉功能才能釋放叢集,可以避免誤釋放叢集。
資源群組
資源群組用於分組管理資源,具體請參見資源群組。叢集預設屬於預設資源群組,您可以按需修改。
步驟三:配置計算節點與隊列
在計算節點與隊列頁面,完成隊列配置。
隊列用於分組管理計算節點,運行作業時可以指定隊列。叢集預設存在1個隊列(comp隊列),您可以單擊添加更多隊列來添加隊列。單個隊列需要配置以下資訊:
基本設定
配置項
說明
隊列自動調整
選擇是否開啟自動調整。開啟後,可進一步按需選擇是否開啟自動擴容和自動縮容。
開啟自動調整後,系統會根據配置資訊和即時負載,自動增加或者減少計算節點。
隊列節點數
設定隊列包含的節點數量。
如果沒有開啟隊列自動調整,請配置隊列初始的計算節點數量。
如果開啟了隊列自動調整,請配置隊列允許的最小節點數和最大節點數。
重要如果將最小節點數修改為非0值,叢集縮容時該隊列會保留最小節點數量的節點,即使是空閑節點也不會被釋放。請您謹慎設定最小節點數,以免導致自動縮容後隊列中存在空閑節點,造成資源浪費和不必要的經濟損失。
選擇隊列節點配置
如果開啟了隊列自動調整,或者沒有開啟隊列自動調整但初始節點數不為0時,需配置以下資訊,以便系統可以建立計算節點。
配置項
說明
節點間互聯
選擇節點之間網路連通方式。
VPC網路:節點之間通過VPC網路進行通訊。
eRDMA網路:如果節點使用支援ERI的規格,則節點之間可以通過eRDMA網路進行通訊。
說明僅部分節點規格支援ERI,更多資訊,請參見eRDMA概述和在企業級執行個體上啟用eRDMA。
使用預設節點池
選擇已建立好的預設節點池。系統會自動從預設節點池的未分配預設節點中選取IP及主機名稱建立計算節點。
說明使用預設節點池擴容時能夠快速複用預分配的資源。具體操作,請參見在叢集中使用預設節點池。
虛擬交換器
選擇節點所屬的交換器。系統會自動從可用的交換器網段中為節點分配IP地址。
執行個體規格組
單擊添加執行個體規格,選擇節點的規格。
如果未開啟自動調整,則僅支援添加一個執行個體規格;如果開啟了自動調整,則支援添加多個執行個體規格。
重要您可以選擇多個虛擬交換器和多個執行個體規格作為備選,避免因庫存問題導致執行個體建立失敗。建立計算節點時,系統會從第一個交換器所在可用性區域開始,按照執行個體規格順序嘗試建立,直到建立出滿足所需節點數量的計算節點。最終建立成功的執行個體的規格可能隨庫存變化而不同。
自動調整
配置項
說明
伸縮策略
選擇伸縮策略。目前僅支援供應優先策略,表示會按照配置的交換器順序,從對應可用性區域依次嘗試建立符合規格要求的計算節點。
單次最大伸縮節點數
每輪擴容或縮容周期最多增加或減少的節點數量。預設為0,表示不限制最大數量。
如果您對使用成本有要求,可以設定該值,確保擴容的節點數量不超出預期。
主機名稱首碼
節點主機名稱的開頭字元,用以標記區分節點。
主機名稱尾碼
節點主機名稱的結尾字元,用以標記區分節點。
主機RAM角色
為節點綁定RAM角色,使得節點可以獲得許可權訪問阿里雲服務。
建議您選擇系統建立的預設角色AliyunECSInstanceForEHPCRole。
步驟四:配置共用檔案儲存體
在共用檔案儲存體頁面,完成儲存配置。
預設情況下,管理節點的/home和/opt將掛載檔案系統,作為共用儲存目錄。如果您想要為其他目錄掛載檔案系統,可單擊添加更多儲存,並完成相關配置。單個目錄需要配置的檔案系統資訊如下:
/home和/opt目錄暫不支援掛載不同的檔案系統目錄。
配置項 | 說明 |
類型 | 選擇要掛載的檔案系統類型。
|
檔案系統 | 選擇要掛載的檔案系統ID和掛載點,請確保該檔案系統還有可用的掛載點餘量。 |
檔案系統目錄 | 輸入要掛載的檔案系統目錄。 |
掛載選項 | 選擇掛載協議。 |
步驟五:配置軟體與服務元件
在軟體與服務元件頁面,完成軟體和服務元件配置。
單擊添加軟體,在彈出的對話方塊中選擇需要安裝的軟體。E-HPC提供了HPC行業常用的軟體,您可以按需選擇。
單擊添加服務元件,在彈出的對話方塊中選擇服務元件,並配置組件參數。
說明目前僅支援Login組件。
公用雲叢集預設配置了Login組件,用於通過公網遠端連線叢集。組件參數說明如下:
配置
配置項
說明
Login組件自訂參數
SSH
設定通過SSH串連叢集時,對應的連接埠號碼、協議,以及允許的IP網段。
VNC
設定通過VNC串連叢集時,對應的連接埠號碼、協議,以及允許的IP網段。
CLIENT
設定通過用戶端串連叢集時,對應的連接埠號碼、協議,以及允許的IP網段。
組件部署資源
EIP執行個體
為部署Login組件的ECS執行個體綁定EIP,以便可以通過公網串連叢集。支援自動建立或選擇已有EIP。
ECS執行個體
設定用於部署Login組件的ECS執行個體的規格。
步驟六:確認配置
在確認配置頁面,確認配置資訊,並配置叢集名稱和登入憑證。
配置項 | 說明 |
叢集名稱 | 輸入名稱。該名稱會在叢集列表中顯示,便於您尋找識別。 |
叢集免密 | root使用者從管理節點切換到計算節點時,是否可以免密登入。 重要 開啟該功能,將配置root使用者從管理節點到所有計算節點的單向免密登入方式,但不支援從計算節點到管理節點的免密登入,請謹慎操作。 |
登入憑證 | 選擇登入叢集的憑證。目前僅支援自訂密碼。 |
設定密碼、確認密碼 | 輸入登入叢集的密碼。叢集中所有節點預設使用該密碼作為root使用者的登入密碼。 |
配置完成後,閱讀服務於協議,確認費用資訊,然後單擊建立叢集。
模板建立
E-HPC支援通過模板來快速、大量建立叢集。模板中定義了建立叢集需要配置的基本參數,您可以選擇E-HPC提供的叢集模板,也可以自訂編寫模板。
使用公用模板建立叢集
進入叢集列表頁面。
登入彈性高效能運算控制台。
在頂部功能表列左上方處,選擇地區。
在左側導覽列,單擊叢集。
在叢集列表頁面,單擊叢集模板。
在彈出的對話方塊中,選擇要使用的模板,單擊對應的建立叢集。

確認配置資訊,並輸入集群名稱等資訊。
在配置概要處,會顯示模板提供的預設配置,如果您想要修改配置,可以單擊編輯,在相應配置項中修改。
在管理設定處,按照頁面提示完成配置。
閱讀服務合約,確認費用資訊,然後單擊建立叢集。
使用自訂模板建立叢集
在本地編寫自訂模板。
進入叢集列表頁面。
登入彈性高效能運算控制台。
在頂部功能表列左上方處,選擇地區。
在左側導覽列,單擊叢集。
在叢集列表頁面,單擊叢集模板。
在彈出的對話方塊中,單擊匯入本地模板,上傳本地編輯好的模板檔案。
在彈出的叢集模板編輯對話方塊中,確認自訂模板資訊無誤,然後單擊確認模板並建立。
在建立叢集頁面,確認配置資訊無誤,然後單擊建立叢集。