全部產品
Search
文件中心

Elastic High Performance Computing:管理隊列

更新時間:Apr 24, 2025

E-HPC叢集支援對運行不同作業或執行不同任務的計算節點進行分類,以實現資源的高效管理。通過對計算節點進行隊列分組,可以更靈活地篩選和調度節點,從而最佳化作業執行效率。本文介紹如何使用隊列分組管理計算節點,包括建立和刪除隊列,以及編輯隊列配置。

說明

隊列在資源監控中是一個重要的維度,您可以通過監控頁面以隊列為維度,查看隊列節點整體的負載與效能。更多資訊,請參見查看監控資訊

前提條件

  • 叢集狀態處於運行中

  • 執行刪除隊列操作時,隊列中沒有計算節點。

建立隊列

  1. 進入叢集詳情頁面。

    1. 登入彈性高效能運算控制台

    2. 在頂部功能表列左上方處,選擇地區。

    3. 在左側導覽列,單擊叢集

    4. 叢集列表頁面,單擊目標叢集名稱

  2. 在左側導覽列,選擇節點與隊列 > 隊列

  3. 單擊建立隊列,在建立隊列頁面填寫對應參數。

    配置項說明如下:

    • 基本設定

      配置項

      說明

      隊列名稱

      填寫隊列名稱,需滿足以下條件:

      • 字元長度:1~15個字元。

      • 允許字元:大寫字母(A~Z)、小寫字母(a~z)、數字(0~9)、底線(_)。

      隊列自動調整

      選擇是否開啟自動調整。開啟後,可進一步按需選擇是否開啟自動擴容自動縮容

      開啟自動調整後,系統會根據配置資訊和即時負載,自動增加或者減少計算節點。

      隊列節點數

      設定隊列包含的節點數量。

      • 如果沒有開啟隊列自動調整,請配置隊列初始的計算節點數量。

      • 如果開啟了隊列自動調整,請配置隊列允許的最小節點數和最大節點數。

        重要

        如果將最小節點數修改為非0值,叢集縮容時該隊列會保留最小節點數量的節點,即使是空閑節點也不會被釋放。請您謹慎設定最小節點數,以免導致自動縮容後隊列中存在空閑節點,造成資源浪費和不必要的經濟損失。

    • 選擇隊列節點配置

      如果開啟了隊列自動調整,或者沒有開啟隊列自動調整但初始節點數不為0時,需配置以下資訊,以便系統可以建立計算節點。

      配置項

      說明

      節點間互聯

      選擇節點之間網路連通方式。

      • VPC網路:節點之間通過VPC網路進行通訊。

      • eRDMA網路:如果節點使用支援ERI的規格,則節點之間可以通過eRDMA網路進行通訊。

        說明

        僅部分節點規格支援ERI,更多資訊,請參見eRDMA概述在企業級執行個體上啟用eRDMA

      使用預設節點池

      選擇已建立好的預設節點池。系統會自動從預設節點池的未分配預設節點中選取IP及主機名稱建立計算節點。

      說明

      使用預設節點池擴容時能夠快速複用預分配的資源。具體操作,請參見在叢集中使用預設節點池

      虛擬交換器

      選擇節點所屬的交換器。系統會自動從可用的交換器網段中為節點分配IP地址。

      執行個體規格組

      單擊添加執行個體規格,選擇節點的規格。

      如果未開啟自動調整,則僅支援添加一個執行個體規格;如果開啟了自動調整,則支援添加多個執行個體規格。

      重要

      您可以選擇多個虛擬交換器和多個執行個體規格作為備選,避免因庫存問題導致執行個體建立失敗。建立計算節點時,系統會從第一個交換器所在可用性區域開始,按照執行個體規格順序嘗試建立,直到建立出滿足所需節點數量的計算節點。最終建立成功的執行個體的規格可能隨庫存變化而不同。

    • 自動調整

      配置項

      說明

      伸縮策略

      選擇伸縮策略。目前僅支援供應優先策略,表示會按照配置的交換器順序,從對應可用性區域依次嘗試建立符合規格要求的計算節點。

      單次最大伸縮節點數

      每輪擴容或縮容周期最多增加或減少的節點數量。預設為0,表示不限制最大數量。

      如果您對使用成本有要求,可以設定該值,確保擴容的節點數量不超出預期。

      主機名稱首碼

      節點主機名稱的開頭字元,用以標記區分節點。

      主機名稱尾碼

      節點主機名稱的結尾字元,用以標記區分節點。

      主機RAM角色

      為節點綁定RAM角色,使得節點可以獲得許可權訪問阿里雲服務。

      建議您選擇系統建立的預設角色AliyunECSInstanceForEHPCRole。

  4. 單擊儲存

    在隊列列表頁面單擊2024-07-31_11-49-59表徵圖進行重新整理,如果目標隊列存在,則表示您已成功建立。

配置隊列

重要

建議您在業務空閑時執行配置隊列操作,以避免對進行中的業務造成影響。

  1. 進入叢集詳情頁面。

    1. 登入彈性高效能運算控制台

    2. 在頂部功能表列左上方處,選擇地區。

    3. 在左側導覽列,單擊叢集

    4. 叢集列表頁面,單擊目標叢集名稱

  2. 在左側導覽列,選擇節點與隊列 > 隊列

  3. 單擊目標隊列操作列下的編輯

  4. 編輯隊列頁面,完成以下參數配置。

    • 基本設定

      配置項

      說明

      隊列自動調整

      隊列自動調整預設為關閉狀態,開啟該功能後,根據實際業務需求選擇是否開啟自動擴容自動縮容

      說明

      當隊列配置和全域配置中配置不一致時,以隊列設定為優先。

      隊列節點數

      隊列允許的計算節點數量範圍。

      • 最小節點數:該值會影響縮容效果,取值範圍:0~1000。

      • 最大節點數:該值會影響擴容效果,取值範圍:0~5000。

      重要
      • 如果將最小節點數修改為非0值,叢集縮容時該隊列會保留最小節點數量的節點,即使是空閑節點也不會被釋放。請您謹慎設定最小節點數,以免導致自動縮容後隊列中存在空閑節點,造成資源浪費和不必要的經濟損失。

      • 隊列最大節點數不能超過叢集最大節點數

    • 選擇隊列節點配置

      如果開啟了隊列自動調整,或者沒有開啟隊列自動調整但初始節點數不為0時,需配置以下資訊,以便系統可以建立計算節點。

      配置項

      說明

      節點間互聯

      選擇節點之間網路連通方式。

      • VPC網路:節點之間通過VPC網路進行通訊。

      • eRDMA網路:如果節點使用支援ERI的規格,則節點之間可以通過eRDMA網路進行通訊。

        說明

        僅部分節點規格支援ERI,更多資訊,請參見eRDMA概述在企業級執行個體上啟用eRDMA

      使用預設節點池

      選擇已建立好的預設節點池。系統會自動從預設節點池的未分配預設節點中選取IP及主機名稱建立計算節點。

      說明

      使用預設節點池擴容時能夠快速複用預分配的資源。具體操作,請參見在叢集中使用預設節點池

      虛擬交換器

      選擇節點所屬的交換器。系統會自動從可用的交換器網段中為節點分配IP地址。

      執行個體規格組

      單擊添加執行個體規格,選擇節點的規格。

      如果未開啟自動調整,則僅支援添加一個執行個體規格;如果開啟了自動調整,則支援添加多個執行個體規格。

      重要

      您可以選擇多個虛擬交換器和多個執行個體規格作為備選,避免因庫存問題導致執行個體建立失敗。建立計算節點時,系統會從第一個交換器所在可用性區域開始,按照執行個體規格順序嘗試建立,直到建立出滿足所需節點數量的計算節點。最終建立成功的執行個體的規格可能隨庫存變化而不同。

    • 自動調整

      配置項

      說明

      伸縮策略

      選擇伸縮策略。目前僅支援供應優先策略,表示會按照配置的交換器順序,從對應可用性區域依次嘗試建立符合規格要求的計算節點。

      單次最大伸縮節點數

      每輪擴容或縮容周期最多增加或減少的節點數量。預設為0,表示不限制最大數量。

      如果您對使用成本有要求,可以設定該值,確保擴容的節點數量不超出預期。

      主機名稱首碼

      節點主機名稱的開頭字元,用以標記區分節點。

      主機名稱尾碼

      節點主機名稱的結尾字元,用以標記區分節點。

      主機RAM角色

      為節點綁定RAM角色,使得節點可以獲得許可權訪問阿里雲服務。

      建議您選擇系統建立的預設角色AliyunECSInstanceForEHPCRole。

  5. 單擊儲存

    在隊列列表頁面單擊2024-07-31_11-49-59表徵圖進行重新整理,查看伸縮配置列中的資訊,如果顯示資訊已變更,則表示您已成功編輯。

刪除隊列

重要
  • 在刪除目標隊列前,請確保待刪除的隊列中沒有計算節點,否則您將無法執行刪除操作。

  • 建議您在業務空閑時執行刪除隊列操作,以避免對進行中的業務造成影響。

  1. 進入叢集詳情頁面。

    1. 登入彈性高效能運算控制台

    2. 在頂部功能表列左上方處,選擇地區。

    3. 在左側導覽列,單擊叢集

    4. 叢集列表頁面,單擊目標叢集名稱

  2. 在左側導覽列,選擇節點與隊列 > 隊列

  3. 選中待操作的隊列,選擇以下任一方式刪除隊列。

    • 刪除單個隊列:單擊對應操作列中的刪除

    • 大量刪除隊列:選中一個或多個隊列,然後單擊頁面下方的大量刪除

  4. 在彈出的對話方塊中,確認隊列資訊,然後單擊確定

    在隊列列表頁面單擊2024-07-31_11-49-59表徵圖進行重新整理,如果目標隊列不存在,則表示您已成功刪除。