全部產品
Search
文件中心

Elastic High Performance Computing:叢集概述

更新時間:Jul 06, 2024

叢集指運行高效能運算的節點集合,可以提供單節點不能提供的強大計算能力,擁有高效能、彈性擴充、穩定可靠等優點。本文介紹叢集涉及的基本概念和功能。

節點

E-HPC叢集中的每個節點是一台ECS執行個體。按節點功能分類,可以分為登入節點、管控節點和計算節點。各節點功能如下表所示:

節點

說明

登入節點

用於遠程登入叢集,進行相關操作的節點,操作包括軟體調試、編譯和安裝,以及作業提交等。

管控節點

用於管理叢集的節點,部署了調度服務和域帳號服務。

  • 調度服務:主要作用是運行PBS或Slurm等調度工具的服務端,處理作業提交、管理調度等。

  • 域帳號服務:集中管理E-HPC叢集內使用者資訊。

重要

管控節點負責作業的管理調度和域帳號解析,請勿在管控節點進行編譯軟體、上傳下載打包資料等操作,以免影響業務穩定性。

計算節點

用於執行高效能運算作業的節點。

對於不同規模的叢集,建議的管控節點配置和作業執行數量如下:

叢集規模

管控節點配置建議

作業建議

計算節點數≤100個

  • vCPU≥16核

  • 記憶體≥64 GiB

  • 排隊作業數量<5000條

  • 未完成作業數量<10000條

計算節點數≤500個

  • vCPU≥32核

  • 記憶體≥128 GiB

  • 排隊作業數量<10000條

  • 未完成作業數量<20000條

計算節點數>500個

  • vCPU≥64核

  • 記憶體≥256 GiB

  • 排隊作業數量<10000條

  • 未完成作業數量<20000條

鏡像

鏡像提供叢集節點(即ECS執行個體)所需的資訊,包括必要的作業系統和相關配置資料等。E-HPC支援以下幾類鏡像:

  • 公用鏡像:阿里雲官方鏡像。

  • 自訂鏡像:您使用ECS執行個體或者快照建立的鏡像,或者從本地匯入的鏡像。

  • 共用鏡像:其他阿里雲帳號共用給您的鏡像。

  • 鏡像市場:第三方服務商ISV(Independent Software Vendor)通過阿里雲雲市場授權提供的鏡像。

  • 社區鏡像:鏡像提供者通過阿里雲社區鏡像平台發布的鏡像。

重要
  • 可以選擇的鏡像由選擇的地區可用性區域、所登入帳號本身是否有相關鏡像資源,以及選擇的節點執行個體規格決定,以介面顯示為準。

  • 選擇不同的鏡像,叢集的調度器類型、域帳號服務,以及支援的共用儲存、軟體會有所不同。具體請參見鏡像支援的調度器、域帳號服務和共用儲存列表

更多資訊,請參見鏡像概述

調度器

調度器是叢集上調度作業的軟體。E-HPC支援的調度器如下:

類型

調度器

控制台顯示

PBS

PBS Pro19

pbs19

PBS Pro18

pbs

說明

由選擇的鏡像決定安裝的調度器軟體版本。

OpenPBS 20

OpenPBS 22

Slurm

Slurm 22

slurm22

Slurm 20

slurm20

Slurm 19

slurm19

Slurm 17

slurm

GridEngine

Open Grid Scheduler(SGE)

opengridscheduler

其他

Deadline

deadline

說明

不同鏡像支援的調度器不同,具體請參見鏡像支援的調度器、域帳號服務和共用儲存列表

域帳號服務

域帳號服務用於管理叢集使用者。E-HPC支援以下兩種域帳號服務:

  • NIS:網路資訊服務(Network Information Service),是一種集中身份管理的方式。您可以在NIS伺服器上建立使用者,當新節點加入到NIS中時,便可以使用NIS伺服器中的使用者來登入這個節點,而不需要在每個節點上都建立同樣的使用者。

  • LDAP:輕量型目錄存取通訊協定(Lightweight Directory Access Protocol),在E-HPC中,LDAP被用來對使用者進行身份許可權認證。您可以在LDAP中對使用者進行授權,分組,以建立具有不同的存取權限的使用者。

說明

不同鏡像支援的域帳號服務不同,具體請參見鏡像支援的調度器、域帳號服務和共用儲存列表

共用儲存

E-HPC叢集的使用者資料、調度器資訊、作業共用資料等資訊均會儲存在檔案系統,以供叢集所有節點共用訪問。E-HPC支援以下幾類檔案系統:

  • NAS:包括通用型NAS和極速型NAS。

  • CPFS:支援CPFS-NFS和CPFS-POSIX兩種掛載方式。

  • 其他:非阿里雲檔案儲存體,例如您自建的NAS儲存。

說明

不同鏡像支援的共用儲存不同,具體請參見鏡像支援的調度器、域帳號服務和共用儲存列表

鏡像支援的調度器、域帳號服務和共用儲存列表

不同的鏡像支援的調度器類型、域帳號服務和共用儲存類型有所不同,下表列出了公用鏡像的支援情況。

說明
  • 在控制台建立叢集時,可選的鏡像、調度器以及域帳號服務以控制台介面顯示為準。

  • 下表中的Custom表示E-HPC不提供安裝,由您自行安裝。

  • CentOS 6和CentOS 8作業系統版本結束了生命週期(EOL),Linux社區已不再維護該作業系統版本,建議您切換作業系統。具體操作,請參見CentOS 6 EOL如何切換源CentOS 8 EOL如何切換源

公用鏡像

支援的調度器

支援的域帳號服務

支援的共用儲存

  • CentOS 7.2 64位

  • CentOS 7.3 64位

  • CentOS 7.4 64位

  • CentOS 7.5 64位

  • CentOS 7.6 64位

  • CentOS 7.8 64位

  • CentOS 7.9 64位

  • CentOS 7.9 64位 UEFI版

  • PBS Pro18

  • PBS Pro19

  • Slurm 17

  • Slurm 19

  • Slurm 20

  • Slurm 22

  • Open Grid Scheduler(SGE)

  • Deadline

  • NIS

  • LDAP

  • 通用型NAS

  • 極速型NAS

  • CPFS-NFS

  • CPFS-POSIX

CentOS 8.0 64位

Open PBS 20

NIS

  • 通用型NAS

  • 極速型NAS

  • CPFS-NFS

CentOS 6.9 64位

  • PBS Pro18

  • Deadline

  • NIS

  • LDAP

  • 通用型NAS

  • 極速型NAS

CentOS 6.10 64位

Custom

Custom

  • 通用型NAS

  • 極速型NAS

Alibaba Cloud Linux 2.1903 LTS 64位

PBS Pro18

  • NIS

  • LDAP

  • 通用型NAS

  • 極速型NAS

  • CPFS-NFS

Alibaba Cloud Linux 3.2104 LTS 64位

Open Grid Scheduler(SGE)

NIS

  • 通用型NAS

  • 極速型NAS

  • CPFS-NFS

Alibaba Cloud Linux 3.2104 LTS 64位 ARM版

Open Grid Scheduler(SGE)

NIS

  • 通用型NAS

  • 極速型NAS

  • CPFS-NFS

Ubuntu 20.04 64位

Slurm 22

NIS

  • 通用型NAS

  • 極速型NAS

  • CPFS-NFS

Ubuntu 20.04 64位 ARM版

Slurm 22

NIS

  • 通用型NAS

  • 極速型NAS

  • CPFS-NFS

  • Windows Server 2022

  • Windows Server 2019

  • Windows Server 2016

  • Windows Server 2012 R2

  • Windows Server 2008 R2

Custom

Custom

Custom

使用者

建立叢集使用者後,您才能在叢集上提交、調試、運行作業。您可以建立兩種不同許可權的使用者來使用叢集。

  • 普通許可權組:適用於只有提交、調試作業需求的普通使用者。

  • sudo許可權組:適用於需要管理叢集的管理員,除提交、調試作業外,還可以執行sudo命令進行安裝軟體、重啟節點等操作。

    重要

    root使用者僅能在建立叢集時初始化建立,不推薦使用root使用者提交任何作業,避免作業指令碼中的誤操作導致E-HPC叢集資料遭受破壞。

更多資訊,請參見系統管理使用者

軟體

E-HPC提供了業界主流的科學計算應用、編譯器執行階段程式庫、MPI通訊庫等軟體,您可以根據需求安裝使用。更多資訊,請參見軟體概述

叢集狀態

  • 建立中:叢集建立初始狀態,對應ECS執行個體建立。

  • 安裝中:叢集處於安裝軟體狀態。

  • 初始化中:叢集處於初始化階段,包括初始化root使用者等。

  • 運行中:叢集建立完成後處於正常可用狀態。

  • 異常:當管理節點被刪除或停止、調度器軟體退出時,叢集狀態為異常。您可以嘗試修複叢集,若修複無效後,請提交工單

  • 釋放中:叢集在停機釋放過程中。