全部產品
Search
文件中心

Elastic High Performance Computing:管理節點

更新時間:Apr 24, 2025

E-HPC叢集所屬的計算節點為ECS執行個體,您可以管理叢集中已建立的計算節點,執行遠端連線、發送命令、重啟和釋放等操作。本文介紹如何管理叢集中的ECS節點。

前提條件

  • 叢集狀態處於運行中

  • 建立節點時,需滿足以下條件:

說明

節點列表頁面僅展示計算節點,不展示管理節點和登入節點。

建立節點

  1. 進入叢集詳情頁面。

    1. 登入彈性高效能運算控制台

    2. 在頂部功能表列左上方處,選擇地區。

    3. 在左側導覽列,單擊叢集

    4. 叢集列表頁面,單擊目標叢集名稱

  2. 在左側導覽列,選擇節點與隊列 > 節點

  3. 單擊添加節點,在添加節點頁面配置以下參數。

    • 基礎設定

      配置項

      說明

      目標隊列

      選擇該叢集內已建立的隊列。

      節點數

      設定需要擴容的節點數量。

    • 節點配置

      配置項

      說明

      選擇節點類型

      僅支援選擇建立節點

      節點間互聯

      選擇節點之間網路連通方式。

      • VPC:節點之間通過VPC網路進行通訊。

      • eRDMA:如果節點使用支援ERI的規格,則節點之間可以通過eRDMA網路進行通訊。

        說明

        僅部分節點規格支援ERI。更多資訊,請參見eRDMA概述在企業級執行個體上啟用eRDMA

      使用預設節點池

      選擇已建立好的預設節點池。系統會自動從預設節點池的未分配預設節點中選取IP及主機名稱建立計算節點。

      說明

      使用預設節點池擴容時能夠快速複用預分配的資源。具體操作,請參見在叢集中使用預設節點池

      虛擬交換器

      選擇節點所屬的交換器。系統會自動從可用的交換器網段中為節點分配IP地址。

      執行個體規格組

      單擊添加執行個體規格,選擇節點的規格。

      如果未開啟自動調整,則僅支援添加一個執行個體規格;如果開啟了自動調整,則支援添加多個執行個體規格。

      主機名稱首碼

      節點主機名稱的開頭字元,用以標記區分節點。

      主機名稱尾碼

      節點主機名稱的結尾字元,用以標記區分節點。

      執行個體RAM角色

      為節點綁定RAM角色,使得節點可以獲得許可權訪問阿里雲服務。

      建議您選擇系統建立的預設角色AliyunECSInstanceForEHPCRole。

  4. 選中我已知曉:添加節點預設開啟“刪除保護”功能,不受隊列伸縮配置影響,然後單擊確認添加

    說明

    新增計算節點會自動安裝叢集軟體並初始化,原有計算節點的使用不受影響。

    您可以在節點列表中查看已擴容節點的狀態。當該節點狀態為運行中,說明擴容叢集已完成。

重啟節點

如果計算節點出現異常,您可以嘗試重啟節點。重啟分為以下兩種方式:

  • 普通重啟:向節點發送重啟命令,由作業系統完成終止進程、系統重啟等操作。

  • 強制重啟:等同於強制斷電重啟,可能遺失資料。請僅在普通重啟失敗時再嘗試強制重啟。

重要

重啟節點時,正在該節點啟動並執行作業將會停止。請確保要重啟的節點上沒有正在啟動並執行作業再執行重啟操作。

  1. 進入叢集詳情頁面。

    1. 登入彈性高效能運算控制台

    2. 在頂部功能表列左上方處,選擇地區。

    3. 在左側導覽列,單擊叢集

    4. 叢集列表頁面,單擊目標叢集名稱

  2. 在左側導覽列,選擇節點與隊列 > 節點

  3. 在節點列表中選中一個或多個目標節點。

  4. 在列表下方單擊重啟

  5. 在彈出對話方塊中,選擇重啟方式,然後單擊確定

遠端連線節點

說明

Workbench的遠端連線會話預設維持6個小時,如果您超過6小時沒有任何操作,串連會自動斷開,您需要重新串連執行個體。

  1. 進入叢集詳情頁面。

    1. 登入彈性高效能運算控制台

    2. 在頂部功能表列左上方處,選擇地區。

    3. 在左側導覽列,單擊叢集

    4. 叢集列表頁面,單擊目標叢集名稱

  2. 在左側導覽列,選擇節點與隊列 > 節點

  3. 在節點列表頁面,找到需要串連的節點,單擊對應操作列下的遠端連線

  4. 在彈出的遠端連線對話方塊中,單擊通過Workbench遠端連線對應的立即登入

  5. 在彈出的登入執行個體對話方塊中,輸入登入資訊。關於各項參數配置資訊,請參見通過Workbench串連執行個體

發送命令

如果需要快速完成對節點的維護,例如安裝軟體,執行營運指令碼等,可以使用發送命令功能快速控制項目。

  1. 進入叢集詳情頁面。

    1. 登入彈性高效能運算控制台

    2. 在頂部功能表列左上方處,選擇地區。

    3. 在左側導覽列,單擊叢集

    4. 叢集列表頁面,單擊目標叢集名稱

  2. 在左側導覽列,選擇節點與隊列 > 節點

  3. 在節點列表中選中一個或多個目標節點。

  4. 在列表下方單擊發送命令

  5. 在彈出的對話方塊中,設定命令參數,並輸入命令內容。

    關於命令參數的解釋,請參見發送遠程命令

  6. 單擊執行

開啟或關閉刪除保護

叢集的刪除保護功能是一種安全特性,旨在防止意外刪除節點。該功能啟用後,刪除操作將受限制,需經過確認步驟才能完成,以避免誤操作或惡意刪除節點,確保叢集穩定安全運行。

  1. 進入叢集詳情頁面。

    1. 登入彈性高效能運算控制台

    2. 在頂部功能表列左上方處,選擇地區。

    3. 在左側導覽列,單擊叢集

    4. 叢集列表頁面,單擊目標叢集名稱

  2. 在左側導覽列,選擇節點與隊列 > 節點

  3. 在節點列表中選中一個或多個目標節點。

  4. 在列表下方單擊更多操作,然後按需選擇開啟刪除保護關閉刪除保護

  5. 在彈出的對話方塊中,單擊確定

刪除節點

對於不再需要的計算節點,您可以執行刪除操作將節點從叢集中移除,實現叢集縮容。

根據計費方式的差異,隨用隨付的節點將立即釋放,而訂用帳戶的節點會繼續保留。到期前,需申請退款或轉為隨用隨付後再釋放。具體操作,請參見釋放執行個體

重要

執行個體釋放後資料無法恢複。如果需要保留資料,建議提前建立快照備份資料。具體操作,請參見建立快照

  1. 進入叢集詳情頁面。

    1. 登入彈性高效能運算控制台

    2. 在頂部功能表列左上方處,選擇地區。

    3. 在左側導覽列,單擊叢集

    4. 叢集列表頁面,單擊目標叢集名稱

  2. 在左側導覽列,選擇節點與隊列 > 節點

  3. 在節點列表中選中一個或多個目標節點。

  4. 在列表下方單擊刪除

  5. 確認提示資訊,然後單擊確定