您可以通過配置叢集自動調整,實現計算節點的動態分配,無需手動操作。此功能根據即時負載自動調整計算節點數量,既提高了叢集的可用性,又降低了使用成本。本文介紹如何配置自動調整。
功能優勢
根據即時負載,自動增加計算節點,提高叢集的可用性。
在保證叢集可用性的前提下,自動減少計算節點,降低叢集成本。
停止異常狀態的節點,並建立相應的新節點,提高叢集容錯能力。
使用限制
僅支援所有節點的作業系統為Linux的叢集配置自動調整。
除了自訂叢集,其他叢集都支援配置自動調整。
僅支援調度器為Slurm的叢集配置基於記憶體維度自動調整。
建議在提交作業時指定作業所需的vCPU來實現自動調整,另外作業指定的記憶體使用量大小不能超出ECS資源的記憶體規格。
注意事項
自動調整服務依賴於調度器服務和域帳號服務運行正常。開啟自動調整後,管理節點需要一直保持運行中。
如果管理節點需要關機或者重啟,請在計算節點沒有作業運行,並且自動調整已經釋放了空閑節點後再進行操作。此時,建議您先關閉自動調整,在管理節點重新啟動後,再開啟自動調整。
操作步驟
進入叢集列表頁面。
登入彈性高效能運算控制台。
在頂部功能表列左上方處,選擇地區。
在左側導覽列,單擊叢集。
在叢集列表頁面,找到待操作的叢集,單擊自動調整。
在彈出的叢集自動調整對話方塊中,完成叢集全域配置地區的參數配置。
配置項
說明
自動擴容/自動縮容
為叢集內所有隊列開啟自動擴容和自動縮容。
說明當隊列配置和全域配置中配置不一致時,以隊列設定為優先。
擴容等待時間
指從提交作業到系統開始擴容操作所需的預計時間。預設為2分鐘。
縮容等待時間
指節點在沒有接收到任何作業請求的情況下,持續閒置時間閾值,超過這個時間後,系統將會自動釋放該節點的資源。其中,縮容等待時間預設為4分鐘。
叢集最大節點數
該叢集內可建立的最大節點數。
叢集最大核心數
該叢集內可建立的最大核心數。
在隊列中配置自動調整。
單擊目的地組群,單擊左側導覽列。找到待操作的隊列,單擊目標隊列的編輯,在編輯隊列頁面配置以下參數。
基本設定
配置項
說明
隊列自動調整
隊列自動調整預設為關閉狀態,開啟該功能後,根據實際業務需求選擇是否開啟自動擴容和自動縮容。
說明當隊列配置和全域配置中配置不一致時,以隊列設定為優先。
隊列節點數
隊列允許的計算節點數量範圍。
最小節點數:該值會影響縮容效果,取值範圍:0~1000。
最大節點數:該值會影響擴容效果,取值範圍:0~5000。
重要如果將最小節點數修改為非0值,叢集縮容時該隊列會保留最小節點數量的節點,即使是空閑節點也不會被釋放。請您謹慎設定最小節點數,以免導致自動縮容後隊列中存在空閑節點,造成資源浪費和不必要的經濟損失。
隊列最大節點數不能超過叢集最大節點數。
選擇隊列節點配置
如果開啟了隊列自動調整,或者沒有開啟隊列自動調整但初始節點數不為0時,需配置以下資訊,以便系統可以建立計算節點。
配置項
說明
節點間互聯
選擇節點之間網路連通方式。
VPC網路:節點之間通過VPC網路進行通訊。
eRDMA網路:如果節點使用支援ERI的規格,則節點之間可以通過eRDMA網路進行通訊。
說明僅部分節點規格支援ERI,更多資訊,請參見eRDMA概述和在企業級執行個體上啟用eRDMA。
使用預設節點池
選擇已建立好的預設節點池。系統會自動從預設節點池的未分配預設節點中選取IP及主機名稱建立計算節點。
說明使用預設節點池擴容時能夠快速複用預分配的資源。具體操作,請參見在叢集中使用預設節點池。
虛擬交換器
選擇節點所屬的交換器。系統會自動從可用的交換器網段中為節點分配IP地址。
執行個體規格組
單擊添加執行個體規格,選擇節點的規格。
如果未開啟自動調整,則僅支援添加一個執行個體規格;如果開啟了自動調整,則支援添加多個執行個體規格。
重要您可以選擇多個虛擬交換器和多個執行個體規格作為備選,避免因庫存問題導致執行個體建立失敗。建立計算節點時,系統會從第一個交換器所在可用性區域開始,按照執行個體規格順序嘗試建立,直到建立出滿足所需節點數量的計算節點。最終建立成功的執行個體的規格可能隨庫存變化而不同。
自動調整
配置項
說明
伸縮策略
選擇伸縮策略。目前僅支援供應優先策略,表示會按照配置的交換器順序,從對應可用性區域依次嘗試建立符合規格要求的計算節點。
單次最大伸縮節點數
每輪擴容或縮容周期最多增加或減少的節點數量。預設為0,表示不限制最大數量。
如果您對使用成本有要求,可以設定該值,確保擴容的節點數量不超出預期。
主機名稱首碼
節點主機名稱的開頭字元,用以標記區分節點。
主機名稱尾碼
節點主機名稱的結尾字元,用以標記區分節點。
主機RAM角色
為節點綁定RAM角色,使得節點可以獲得許可權訪問阿里雲服務。
建議您選擇系統建立的預設角色AliyunECSInstanceForEHPCRole。
確認配置資訊無誤,然後單擊儲存。
伸縮策略說明
如果隊列中配置了多個執行個體規格,自動調整將按照執行個體規格的配置順序,並基於執行個體的庫存以及作業的任務數和GPU數,自動請求資源進行擴容。例如,當前排隊作業需要單節點具備16核,隊列分別配置8、16和32核時,自動調整將會自動選擇16核的執行個體規格進行擴容,但如果16核執行個體規格沒有庫存,自動調整將會選擇32核的執行個體規格進行擴容。
相關文檔
配置自動調整後,建議您檢查監控叢集的健康狀態和資源使用方式,以評估自動調整參數的合理性。更多資訊,請參見查看監控資訊。