叢集指運行高效能運算的節點集合,可以提供單節點不能提供的強大計算能力,擁有高效能、彈性擴充、穩定可靠等優點。本文介紹叢集涉及的基本概念和功能。
節點
E-HPC叢集中的每個節點是一台ECS執行個體。按節點功能分類,可以分為登入節點、管控節點和計算節點。各節點功能如下表所示:
節點 | 說明 |
登入節點 | 用於遠程登入叢集,進行相關操作的節點,操作包括軟體調試、編譯和安裝,以及作業提交等。 |
管控節點 | 用於管理叢集的節點,部署了調度服務和域帳號服務。
重要 管控節點負責作業的管理調度和域帳號解析,請勿在管控節點進行編譯軟體、上傳下載打包資料等操作,以免影響業務穩定性。 |
計算節點 | 用於執行高效能運算作業的節點。 |
對於不同規模的叢集,建議的管控節點配置和作業執行數量如下:
叢集規模 | 管控節點配置建議 | 作業建議 |
計算節點數≤100個 |
|
|
計算節點數≤500個 |
|
|
計算節點數>500個 |
|
|
鏡像
鏡像提供叢集節點(即ECS執行個體)所需的資訊,包括必要的作業系統和相關配置資料等。E-HPC支援以下幾類鏡像:
公用鏡像:阿里雲官方鏡像。
自訂鏡像:您使用ECS執行個體或者快照建立的鏡像,或者從本地匯入的鏡像。
共用鏡像:其他阿里雲帳號共用給您的鏡像。
鏡像市場:第三方服務商ISV(Independent Software Vendor)通過阿里雲雲市場授權提供的鏡像。
社區鏡像:鏡像提供者通過阿里雲社區鏡像平台發布的鏡像。
可以選擇的鏡像由選擇的地區可用性區域、所登入帳號本身是否有相關鏡像資源,以及選擇的節點執行個體規格決定,以介面顯示為準。
選擇不同的鏡像,叢集的調度器類型、域帳號服務,以及支援的共用儲存、軟體會有所不同。具體請參見鏡像支援的調度器、域帳號服務和共用儲存列表。
更多資訊,請參見鏡像概述。
調度器
調度器是叢集上調度作業的軟體。E-HPC支援的調度器如下:
類型 | 調度器 | 控制台顯示 |
PBS | PBS Pro19 | pbs19 |
PBS Pro18 | pbs 說明 由選擇的鏡像決定安裝的調度器軟體版本。 | |
OpenPBS 20 | ||
OpenPBS 22 | ||
Slurm | Slurm 22 | slurm22 |
Slurm 20 | slurm20 | |
Slurm 19 | slurm19 | |
Slurm 17 | slurm | |
GridEngine | Open Grid Scheduler(SGE) | opengridscheduler |
其他 | Deadline | deadline |
不同鏡像支援的調度器不同,具體請參見鏡像支援的調度器、域帳號服務和共用儲存列表。
域帳號服務
域帳號服務用於管理叢集使用者。E-HPC支援以下兩種域帳號服務:
NIS:網路資訊服務(Network Information Service),是一種集中身份管理的方式。您可以在NIS伺服器上建立使用者,當新節點加入到NIS中時,便可以使用NIS伺服器中的使用者來登入這個節點,而不需要在每個節點上都建立同樣的使用者。
LDAP:輕量型目錄存取通訊協定(Lightweight Directory Access Protocol),在E-HPC中,LDAP被用來對使用者進行身份許可權認證。您可以在LDAP中對使用者進行授權,分組,以建立具有不同的存取權限的使用者。
不同鏡像支援的域帳號服務不同,具體請參見鏡像支援的調度器、域帳號服務和共用儲存列表。
共用儲存
E-HPC叢集的使用者資料、調度器資訊、作業共用資料等資訊均會儲存在檔案系統,以供叢集所有節點共用訪問。E-HPC支援以下幾類檔案系統:
NAS:包括通用型NAS和極速型NAS。
CPFS:支援CPFS-NFS和CPFS-POSIX兩種掛載方式。
其他:非阿里雲檔案儲存體,例如您自建的NAS儲存。
不同鏡像支援的共用儲存不同,具體請參見鏡像支援的調度器、域帳號服務和共用儲存列表。
鏡像支援的調度器、域帳號服務和共用儲存列表
不同的鏡像支援的調度器類型、域帳號服務和共用儲存類型有所不同,下表列出了公用鏡像的支援情況。
在控制台建立叢集時,可選的鏡像、調度器以及域帳號服務以控制台介面顯示為準。
下表中的Custom表示E-HPC不提供安裝,由您自行安裝。
CentOS 6和CentOS 8作業系統版本結束了生命週期(EOL),Linux社區已不再維護該作業系統版本,建議您切換作業系統。具體操作,請參見CentOS 6 EOL如何切換源或CentOS 8 EOL如何切換源。
公用鏡像 | 支援的調度器 | 支援的域帳號服務 | 支援的共用儲存 |
|
|
|
|
CentOS 8.0 64位 | Open PBS 20 | NIS |
|
CentOS 6.9 64位 |
|
|
|
CentOS 6.10 64位 | Custom | Custom |
|
Alibaba Cloud Linux 2.1903 LTS 64位 | PBS Pro18 |
|
|
Alibaba Cloud Linux 3.2104 LTS 64位 | Open Grid Scheduler(SGE) | NIS |
|
Alibaba Cloud Linux 3.2104 LTS 64位 ARM版 | Open Grid Scheduler(SGE) | NIS |
|
Ubuntu 20.04 64位 | Slurm 22 | NIS |
|
Ubuntu 20.04 64位 ARM版 | Slurm 22 | NIS |
|
| Custom | Custom | Custom |
使用者
建立叢集使用者後,您才能在叢集上提交、調試、運行作業。您可以建立兩種不同許可權的使用者來使用叢集。
普通許可權組:適用於只有提交、調試作業需求的普通使用者。
sudo許可權組:適用於需要管理叢集的管理員,除提交、調試作業外,還可以執行sudo命令進行安裝軟體、重啟節點等操作。
重要root使用者僅能在建立叢集時初始化建立,不推薦使用root使用者提交任何作業,避免作業指令碼中的誤操作導致E-HPC叢集資料遭受破壞。
更多資訊,請參見系統管理使用者。
軟體
E-HPC提供了業界主流的科學計算應用、編譯器執行階段程式庫、MPI通訊庫等軟體,您可以根據需求安裝使用。更多資訊,請參見軟體概述。
叢集狀態
建立中:叢集建立初始狀態,對應ECS執行個體建立。
安裝中:叢集處於安裝軟體狀態。
初始化中:叢集處於初始化階段,包括初始化root使用者等。
運行中:叢集建立完成後處於正常可用狀態。
異常:當管理節點被刪除或停止、調度器軟體退出時,叢集狀態為異常。您可以嘗試修複叢集,若修複無效後,請提交工單。
釋放中:叢集在停機釋放過程中。