全部產品
Search
文件中心

Elastic High Performance Computing:建立公用雲標準版叢集

更新時間:May 23, 2025

公用雲標準版叢集部署在雲環境中,由Elastic Compute Service執行個體和共用檔案系統等組件構成,使用者可自主維護叢集服務的可用性。本文介紹如何在控制台上建立公用雲叢集。

背景資訊

E-HPC公用雲標準版叢集由以下幾部分組成:

  • 管理節點:對應一個ECS執行個體,部署了調度器和域帳號服務,用於管理作業調度和使用者資訊等。

  • 計算節點:由多個ECS執行個體組成,可以按隊列分組管理,支援擴縮容,用於運行作業。

  • 登入節點:對應一個ECS執行個體,部署了Login組件,且綁定了EIP,用於遠端連線叢集。

  • 共用儲存:支援掛載NAS和CPFS檔案系統,用於共用資料,包括作業資料、軟體資料等。

重要

更多關於E-HPC叢集的相關資訊,請參見叢集概述

前提條件

  • 已建立服務關聯角色。首次登入E-HPC控制台,系統會提示您建立E-HPC服務關聯角色。

  • 已建立Virtual Private Cloud和交換器。具體操作,請參見建立專用網路建立交換器

  • 已開通NAS服務,建立NAS檔案系統和掛載點。具體操作,請參見建立檔案系統添加掛載點

手動建立

步驟一:開啟建立叢集頁面

單擊前往建立叢集頁面

步驟二:配置叢集

叢集配置頁面,完成叢集網路、類型、調度器等配置。

  • 基礎設定

    配置項

    說明

    地區

    選擇叢集所在地區。

    網路及可用性區域

    選擇叢集所在的專用網路和交換器。

    說明

    叢集內的節點會佔用所選交換器的IP地址,請確保交換器下的可用IP地址數大於所需的節點數量。

    安全性群組

    安全性群組用於控制叢集及其節點的出入流量。系統自動建立的安全性群組會自動添加規則,保證叢集內的各節點通訊。

    請根據需要選擇自動建立的安全性群組類型。關於普通安全性群組和企業安全性群組的差異,請參見普通安全性群組與企業級安全性群組

  • 叢集類型

    該類型叢集由一個管理節點和多個計算節點組成。您需要選擇叢集部署的調度器類型,並組態管理節點。

    配置項

    說明

    系列

    選擇標準版

    部署模式

    選擇公用雲叢集

    叢集類型

    選擇叢集的調度器類型。支援HPC情境常用調度器,包括Slurm和OpenPBS。

    管理節點

    管理節點是一台部署了調度器和域帳號服務的ECS執行個體。請根據業務情境和叢集規模,為管理節點選擇合適的配置。

    • 付費模式

      選擇如何為管理節點付費。具體計費說明,請參見執行個體規格計費

      • 隨用隨付:後付費,按實際使用時間長度計費,不支援搶佔式執行個體。

      • 訂用帳戶:預付費,按月、年計費。

    • 執行個體規格

      選擇合適的管理節點規格。對於不同規模的叢集,推薦的管理節點規格如下:

      • 如果計算節點數≤100個,管理節點規格建議vCPU≥16核,記憶體≥64 GiB。

      • 如果100<計算節點數≤500個,管理節點規格建議vCPU≥32核,記憶體≥128 GiB。

      • 如果計算節點數>500個,管理節點規格建議vCPU≥64核,記憶體≥256 GiB。

    • 鏡像

      選擇鏡像類型後,可進一步選擇要使用的鏡像。不同鏡像對應不同的作業系統,系統會根據您選擇的鏡像來部署叢集節點。

      說明

      自訂鏡像具有以下限制:

      • 支援基於阿里雲官方鏡像建立的自訂鏡像,以及匯入的CentOS鏡像。匯入鏡像時,請務必選中匯入後執行檢測,否則無法在E-HPC控制台識別該鏡像。

      • 無法使用基於已有E-HPC叢集節點建立的自訂鏡像。否則,建立叢集計算節點將會產生異常。

      • 自訂鏡像中不能修改作業系統的yum源配置,否則會導致無法建立叢集或擴容。

      • 自訂鏡像的掛載路徑(通過mount命令掛載NAS檔案系統的掛載路徑)不能有/home/opt目錄。

    • 儲存

      選擇管理節點的系統硬碟規格,以及是否掛載資料盤。關於雲端硬碟的類型和效能等資訊,請參見雲端硬碟概述

    • 超執行緒

      預設開啟CPU超執行緒,如果您的業務情境需要獲得更好的效能表現,可以關閉CPU超執行緒。

  • 自訂選項

    配置項

    說明

    調度器

    根據選擇的叢集類型,以及管理節點配置的鏡像,選擇要部署的調度器軟體。

    域帳號

    選擇叢集部署的域賬戶服務。

    網域名稱解析

    保持預設。

    叢集後處理指令碼

    指在叢集計算任務完成後,用於處理結果資料或執行其他後續操作的指令碼。

    叢集最大節點數

    叢集允許包含的最大節點數量。和叢集最大核心數共同控制叢集規模。

    叢集最大核心數

    叢集允許包含的最大核心數。和叢集最大節點數共同控制叢集規模。

    叢集刪除保護

    設定是否開啟叢集刪除保護功能。開啟後,需要關閉功能才能釋放叢集,可以避免誤釋放叢集。

  • 資源群組

    資源群組用於分組管理資源,具體請參見資源群組。叢集預設屬於預設資源群組,您可以按需修改。

步驟三:配置計算節點與隊列

計算節點與隊列頁面,完成隊列配置。

隊列用於分組管理計算節點,運行作業時可以指定隊列。叢集預設存在1個隊列(comp隊列),您可以單擊添加更多隊列來添加隊列。單個隊列需要配置以下資訊:

  • 基本設定

    配置項

    說明

    隊列自動調整

    選擇是否開啟自動調整。開啟後,可進一步按需選擇是否開啟自動擴容自動縮容

    開啟自動調整後,系統會根據配置資訊和即時負載,自動增加或者減少計算節點。

    隊列節點數

    設定隊列包含的節點數量。

    • 如果沒有開啟隊列自動調整,請配置隊列初始的計算節點數量。

    • 如果開啟了隊列自動調整,請配置隊列允許的最小節點數和最大節點數。

      重要

      如果將最小節點數修改為非0值,叢集縮容時該隊列會保留最小節點數量的節點,即使是空閑節點也不會被釋放。請您謹慎設定最小節點數,以免導致自動縮容後隊列中存在空閑節點,造成資源浪費和不必要的經濟損失。

  • 選擇隊列節點配置

    如果開啟了隊列自動調整,或者沒有開啟隊列自動調整但初始節點數不為0時,需配置以下資訊,以便系統可以建立計算節點。

    配置項

    說明

    節點間互聯

    選擇節點之間網路連通方式。

    • VPC網路:節點之間通過VPC網路進行通訊。

    • eRDMA網路:如果節點使用支援ERI的規格,則節點之間可以通過eRDMA網路進行通訊。

      說明

      僅部分節點規格支援ERI,更多資訊,請參見eRDMA概述在企業級執行個體上啟用eRDMA

    使用預設節點池

    選擇已建立好的預設節點池。系統會自動從預設節點池的未分配預設節點中選取IP及主機名稱建立計算節點。

    說明

    使用預設節點池擴容時能夠快速複用預分配的資源。具體操作,請參見在叢集中使用預設節點池

    虛擬交換器

    選擇節點所屬的交換器。系統會自動從可用的交換器網段中為節點分配IP地址。

    執行個體規格組

    單擊添加執行個體規格,選擇節點的規格。

    如果未開啟自動調整,則僅支援添加一個執行個體規格;如果開啟了自動調整,則支援添加多個執行個體規格。

    重要

    您可以選擇多個虛擬交換器和多個執行個體規格作為備選,避免因庫存問題導致執行個體建立失敗。建立計算節點時,系統會從第一個交換器所在可用性區域開始,按照執行個體規格順序嘗試建立,直到建立出滿足所需節點數量的計算節點。最終建立成功的執行個體的規格可能隨庫存變化而不同。

  • 自動調整

    配置項

    說明

    伸縮策略

    選擇伸縮策略。目前僅支援供應優先策略,表示會按照配置的交換器順序,從對應可用性區域依次嘗試建立符合規格要求的計算節點。

    單次最大伸縮節點數

    每輪擴容或縮容周期最多增加或減少的節點數量。預設為0,表示不限制最大數量。

    如果您對使用成本有要求,可以設定該值,確保擴容的節點數量不超出預期。

    主機名稱首碼

    節點主機名稱的開頭字元,用以標記區分節點。

    主機名稱尾碼

    節點主機名稱的結尾字元,用以標記區分節點。

    主機RAM角色

    為節點綁定RAM角色,使得節點可以獲得許可權訪問阿里雲服務。

    建議您選擇系統建立的預設角色AliyunECSInstanceForEHPCRole。

步驟四:配置共用檔案儲存體

共用檔案儲存體頁面,完成儲存配置。

預設情況下,管理節點的/home/opt將掛載檔案系統,作為共用儲存目錄。如果您想要為其他目錄掛載檔案系統,可單擊添加更多儲存,並完成相關配置。單個目錄需要配置的檔案系統資訊如下:

說明

/home/opt目錄暫不支援掛載不同的檔案系統目錄。

配置項

說明

類型

選擇要掛載的檔案系統類型。

  • 通用型NAS:掛載通用型NAS檔案系統。

  • 極速型NAS:掛載極速型NAS檔案系統。

  • 並行檔案CPFS:使用NFS協議掛載CPFS檔案系統。

檔案系統

選擇要掛載的檔案系統ID和掛載點,請確保該檔案系統還有可用的掛載點餘量。

檔案系統目錄

輸入要掛載的檔案系統目錄。

掛載選項

選擇掛載協議。

步驟五:配置軟體與服務元件

軟體與服務元件頁面,完成軟體和服務元件配置。

  • 單擊添加軟體,在彈出的對話方塊中選擇需要安裝的軟體。E-HPC提供了HPC行業常用的軟體,您可以按需選擇。

  • 單擊添加服務元件,在彈出的對話方塊中選擇服務元件,並配置組件參數。

    說明

    目前僅支援Login組件。

    公用雲叢集預設配置了Login組件,用於通過公網遠端連線叢集。組件參數說明如下:

    配置

    配置項

    說明

    Login組件自訂參數

    SSH

    設定通過SSH串連叢集時,對應的連接埠號碼、協議,以及允許的IP網段。

    VNC

    設定通過VNC串連叢集時,對應的連接埠號碼、協議,以及允許的IP網段。

    CLIENT

    設定通過用戶端串連叢集時,對應的連接埠號碼、協議,以及允許的IP網段。

    組件部署資源

    EIP執行個體

    為部署Login組件的ECS執行個體綁定EIP,以便可以通過公網串連叢集。支援自動建立或選擇已有EIP。

    ECS執行個體

    設定用於部署Login組件的ECS執行個體的規格。

步驟六:確認配置

確認配置頁面,確認配置資訊,並配置叢集名稱和登入憑證。

配置項

說明

叢集名稱

輸入名稱。該名稱會在叢集列表中顯示,便於您尋找識別。

叢集免密

root使用者從管理節點切換到計算節點時,是否可以免密登入。

重要

開啟該功能,將配置root使用者從管理節點到所有計算節點的單向免密登入方式,但不支援從計算節點到管理節點的免密登入,請謹慎操作。

登入憑證

選擇登入叢集的憑證。目前僅支援自訂密碼

設定密碼確認密碼

輸入登入叢集的密碼。叢集中所有節點預設使用該密碼作為root使用者的登入密碼。

配置完成後,閱讀服務於協議,確認費用資訊,然後單擊建立叢集

模板建立

E-HPC支援通過模板來快速、大量建立叢集。模板中定義了建立叢集需要配置的基本參數,您可以選擇E-HPC提供的叢集模板,也可以自訂編寫模板。

使用公用模板建立叢集

  1. 進入叢集列表頁面。

    1. 登入彈性高效能運算控制台

    2. 在頂部功能表列左上方處,選擇地區。

    3. 在左側導覽列,單擊叢集

  2. 叢集列表頁面,單擊叢集模板

  3. 在彈出的對話方塊中,選擇要使用的模板,單擊對應的建立叢集

    image

  4. 確認配置資訊,並輸入集群名稱等資訊。

    • 配置概要處,會顯示模板提供的預設配置,如果您想要修改配置,可以單擊編輯,在相應配置項中修改。

    • 管理設定處,按照頁面提示完成配置。

  5. 閱讀服務合約,確認費用資訊,然後單擊建立叢集

使用自訂模板建立叢集

  1. 在本地編寫自訂模板。

    本文使用該模板作為樣本,請根據實際需求修改參數。

    ### 叢集基本設定
    Region: cn-hangzhou                            # 叢集所屬地區。可選,預設時,前端自動填滿地區
    ClusterName: "TestClusterName"                 # 叢集名稱。可選,預設時,可以按照叢集類型自動產生,如SLURM-Region-DATESTAMP
    ClusterDescription: "XXXXX"                    # 叢集描述。可選。
    ClusterCategory: "Standard"                    # 叢集系列,必選,合法值:['Standard', 'Serverless', 'SuperComputing']
    ClusterVpcId: ""                               # 叢集VPCID。可選,預設時,前端自動選擇改地區下有效值填充
    ClusterVSwitchId: ""                           # 叢集前端節點vSwitchId。可選,預設時,前端自動選擇該VPCID下有效值填充
    IsEnterpriseSecurityGroup: true                # 是否使用企業級安全性群組,若且唯若SecurityGroupId為空白時生效。可選,預設為false,使用普通安全性群組
    SecurityGroupId: sg-bp1gje9ip78z7v6zy203       # 為空白時,自動建立。可選,預設為空白,自動建立。
    ClusterCustomConfiguration:                    # 叢集自訂PostInstall指令碼。可選
      Script: oss://                               # 指令碼OSS檔案地址
      Args: arg1 arg2                              # 指令碼傳參
    MaxCount: 1000                                 # 叢集最大節點數。可選,預設為1000
    MaxCoreCount: 100000                           # 叢集最大vCPU數。可選,預設為10000
    DeletionProtection: true                       # 叢集刪除保護。可選,預設為true,啟用刪除模板
    ResourceGroupId: rg-acfm2xumdifd3ri            # 叢集所屬資源群組。可選,預設時,前端自動選擇該帳號下有效值填充
    Tags:                                          # 叢集標籤。可選。
      - Key: String
        Value: String
    
    ### 叢集管控服務設定
    Manager:                                     # 前端節點模組
      Scheduler:                                 # 調度服務模組
        Type: "SLURM"                            # 選填,調度器類型,預設是SLURM
        Version: "22"                            # 選填,調度器版本,預設是22
      DirectoryService:                          # 帳號服務模組
        Type: "NIS"                              # 選填,帳號模組類型,預設是NIS
        Version: "x.x.x"                         # 選填,域帳號版本
      DNS:                                       # 網域名稱解析服務模組
        Type: "NIS"                              # 選填,網域名稱解析服務類型,預設是NIS
        Version: "x.x.x"                         # 選填,網域名稱解析服務版本
      ManagerNode:                               # 前端節點執行個體
        InstanceType: "ecs.c7.xlarge"            # 執行個體規格,選填,非託管版叢集必填
        ImageId: "m-xxxxxx"                      # 執行個體鏡像,選填,非託管版叢集必填
        InstanceChargeType: "PostPaid"           # 執行個體購買模式,選填,前端節點付費類型只支援PostPaid和Subscription,預設為PostPaid
        PeriodUnit: "Month"                      # 執行個體購買時間長度單位,選填,只有付費類型為Subscription需要提供
        Period: 1                                # 執行個體購買時間長度數量,選填,只有付費類型為Subscription需要提供
        AutoRenew: false                         # 是否自動續約,選填,只有付費類型為Subscription需要提供
        AutoRenewPeriod: 1                       # 自動續約時間長度,選填,只有付費類型為Subscription需要提供
        SpotStrategy: "SpotWithPriceGo"          # 執行個體購買模式,選填,Spot付費類型,前端節點下該參數無效
        SpotPriceLimit: 0.5                      # Spot價格上限,前端節點下該參數無效
        Duration: 1                              # Spot執行個體保留時間長度,前端節點下該參數無效
        SystemDisk:                              # 選填,系統硬碟參數
          Category: "cloud_essd"                 # 選填,預設是cloud_essd
          Size: 40                               # 選填,預設是40
          Level: "PL0"                           # 選填,預設是PL0
        DataDisks:                               # 選填,資料盤參數
          - Category: "cloud_essd"               # 選填,預設是cloud_essd
            Size: 40                             # 選填,預設是40
            Level: "PL0"                         # 選填,預設是PL0
            DeleteWithInstance: false            # 選填,預設是false
        EnableHT: false                          # 選填,預設是true
    
    ### 叢集計算隊列與節點配置                      # 選填,隊列配置
    Queues:                                      # 
      - Name: workq                              # 選填,隊列1
        EnableScaleOut: false                     # 選填,是否開啟擴容,預設為fasle
        EnableScaleIn: false                      # 選填,是否開啟縮容,預設為fasle
        MinCount: 0                              # 選填,隊列最小節點數
        MaxCount: 500                            # 選填,隊列最大節點數
        InitialCount: 0                          # 選填,隊列初始化節點數
        InterConnect: erdma                      # 選填,隊列中節點網路互聯類型,支援VPC和eRDMA
        VSwitchIds:                              # 選填,隊列交換器列表
          - "vsw-xxxxxxx"
          - "vsw-xxxxxxx"        
        ComputeNodes:                            # 選填,隊列計算節點配置
          - InstanceType: "ecs.c7.xlarge"            # 執行個體規格,選填,非託管版叢集必填
            ImageId: "m-xxxxxx"                      # 執行個體鏡像,選填,非託管版叢集必填
            InstanceChargeType: "PostPaid"           # 執行個體購買模式,選填,前端節點付費類型只支援PostPaid和Subscription,預設為PostPaid
            PeriodUnit: "Month"                      # 執行個體購買時間長度單位,選填,只有付費類型為Subscription需要提供
            Period: 1                                # 執行個體購買時間長度數量,選填,只有付費類型為Subscription需要提供
            AutoRenew: false                         # 是否自動續約,選填,只有付費類型為Subscription需要提供
            AutoRenewPeriod: 1                       # 自動續約時間長度,選填,只有付費類型為Subscription需要提供
            SpotStrategy: "SpotWithPriceGo"          # 執行個體購買模式,選填,Spot付費類型,前端節點下該參數無效
            SpotPriceLimit: 0.5                      # Spot價格上限,前端節點下該參數無效
            Duration: 1                              # Spot執行個體保留時間長度,前端節點下該參數無效
            SystemDisk:                              # 選填,系統硬碟參數
              Category: "cloud_essd"                 # 選填,預設是cloud_essd
              Size: 40                               # 選填,預設是40
              Level: "PL0"                           # 選填,預設是PL0
            DataDisks:                               # 選填,資料盤參數
              - Category: "cloud_essd"               # 選填,預設是cloud_essd
                Size: 40                             # 選填,預設是40
                Level: "PL0"                         # 選填,預設是PL0
                DeleteWithInstance: false            # 選填,預設是false
            EnableHT: false                          # 選填,預設是true   
        AllocationStrategy: "PriorityInstanceType"   # 選填,自動調整策略,供應優先或者成本優先
        RamRole: "xxxxxx"                            # 選填,節點使用的RamRole名稱
        HostNamePrefix: "xxxxx"                        # 選填,主機名稱首碼
        HostNameSuffix: "xxxxx"                        # 選填,主機名稱尾碼
        KeepAliveNodes:                                # 選填,例外節點列表
          - compute000
          - compute001
          - compute002
    ### 叢集共用儲存
    SharedStorage:
      - MountDirectory: "/home"                    # 選填,叢集掛載目錄
        FileSystemId: "xxxx"                       # 選填,共用檔案儲存體的檔案系統ID
        NASDirectory: "/"                          # 選填,共用檔案儲存體的檔案目錄
        MountTargetDomain: "xxxxxx"                # 選填,掛載點
        ProtocolType: "NFS"                        # 選填,協議
        MountOptions: "xxxxx"                      # 選填,掛載選項
    ### 叢集軟體
    AdditionalPackages:                            # 選填,叢集軟體列表
      - Name: "LAMMPS"                             # 軟體名稱
        Version: "xxxx"                            # 軟體版本
      - Name: "Gromacs"
        Version: "xxx"
    ### 叢集組件
    Addons:
      - Name: "LoginNode"                          #  組件名稱    
        Version: "xxxxxx"                          #  組件版本
        ServicesSpec: "JSON String"                #  元件服務使用者自訂參數
        ResourcesSpec: "JSON String"               #  元件服務使用者自訂資源
  2. 進入叢集列表頁面。

    1. 登入彈性高效能運算控制台

    2. 在頂部功能表列左上方處,選擇地區。

    3. 在左側導覽列,單擊叢集

  3. 叢集列表頁面,單擊叢集模板

  4. 在彈出的對話方塊中,單擊匯入本地模板,上傳本地編輯好的模板檔案。

  5. 在彈出的叢集模板編輯對話方塊中,確認自訂模板資訊無誤,然後單擊確認模板並建立

  6. 建立叢集頁面,確認配置資訊無誤,然後單擊建立叢集

相關文檔

建立叢集後,您需要建立使用者來提交作業。具體操作,請參見使用者管理作業概述