當E-HPC叢集面臨計算節點資源不足或過多的問題時,您可以根據實際需求手動擴縮容叢集,或者配置叢集自動調整功能,無需手動操作即可實現擴縮容,以滿足業務需求。本文介紹E-HPC伸縮叢集的相關概念和功能。
手動擴縮容
在E-HPC叢集中,手動擴縮容本質上就是指手動建立或刪除計算節點。您可以根據實際需求手動擴容或縮容節點,以增加或減少計算節點的數量。擴容節點可以提高叢集的計算能力,而縮容節點則可以減少資源浪費或節省成本。
如需瞭解具體操作和使用限制,請參見管理節點。
自動調整
E-HPC叢集提供自動調整功能,該功能基於隊列維度進行調整。系統會根據叢集作業的任務數和GPU數,自動擴容或縮容叢集中某個隊列的計算節點數量。當有大量計算任務提交時,叢集可以自動增加計算節點,以加速任務的處理;而在沒有任務時,叢集可以自動減少計算節點,以節約能源和資源消耗。通過自動化的調整,E-HPC叢集能夠更加高效地應對不同工作負載的變化,從而提高整體的效能和資源使用率。
全域配置
您可以通過設定全域配置,啟動叢集擴縮容,並且設定叢集最大節點和最大核心數等條件限制。
進入叢集列表頁面。
登入彈性高效能運算控制台。
在頂部功能表列左上方處,選擇地區。
在左側導覽列,單擊叢集。
在叢集列表頁面,找到待操作的叢集,單擊自動調整。
在彈出的叢集自動調整對話方塊中,完成叢集全域配置地區的參數配置。
配置項
說明
開關設定
為叢集內所有隊列開啟自動擴容和自動縮容。
說明當隊列配置和全域配置中配置不一致時,以隊列設定為優先。
擴容等待時間
指從提交作業到系統開始擴容操作所需的預計時間。預設為2分鐘。
縮容等待時間
指節點在沒有接收到任何作業請求的情況下,持續閒置時間閾值,超過這個時間後,系統將會自動釋放該節點的資源。其中,縮容等待時間預設為4分鐘。
叢集最大節點數
該叢集內可建立的最大節點數。
叢集最大核心數
該叢集內可建立的最大核心數。
隊列自動調整
對於任意單個隊列,您可以自訂設定隊列自動調整配置。如需瞭解具體操作和使用限制,請參見自動調整節點。