全部產品
Search
文件中心

Elastic High Performance Computing:混合雲代理模式最佳實務

更新時間:Jul 06, 2024

混合雲代理模式叢集的管理節點為已有叢集的管理節點,計算節點由已有叢集計算節點和雲上新增計算節點組成。已有叢集可以是線下叢集,也可以是雲上叢集。本文介紹混合雲代理模式叢集(SGE調度器)的部署方案。

背景資訊

在HPC生命科學領域,大部分企業均已經部署了線下的IDC資料中心,但可能會存在基礎設施陳舊、算力不足的問題。隨著業務的快速增長,企業希望在雲上搭建新的算力叢集,但同時需要利用上原有IDC內的資源。為滿足上述情境的需求,阿里雲E-HPC提供了混合雲的解決方案,可以統一、高效地管控雲上和線下的計算資源,並支援靈活運用雲上資源的彈性優勢,實現自動調整。

混合雲解決方案分為主控模式和代理模式。

  • 主控模式:管理節點屬於雲上新增叢集。

  • 代理模式:管理節點屬於原先已有叢集。

    說明

    代理模式下,已有叢集可以是線下叢集,也可以是雲上其他地區的叢集。

情境說明

假設已有叢集為線下叢集,配置為:

  • 管理節點:規格為4 vCPU、8 GiB記憶體(混合雲方案的最小配置),作業系統使用CentOS7.6

  • 調度器:OpenGridScheduler(SGE)

  • 域帳號服務:NIS使用者管理

操作流程

本實踐包含的操作如下:

操作

操作內容

步驟一:配置網路

打通已有叢集和新增混合雲叢集之間的網路並配置安全性群組規則。

步驟二:建立E-HPC混合雲叢集

建立代理模式的混合雲叢集。

步驟三:擴容E-HPC混合雲叢集

新增叢集內預設沒有雲上計算節點,需要擴容。

步驟四:配置自動調整

為混合雲叢集配置自動調整,實現根據業務需求自動增加或減少雲上計算節點。

步驟五:提交作業進行測試

分別在已有叢集隊列和新增混合雲叢集隊列中提交作業進行測試,測試叢集能否正常工作。

步驟一:配置網路

  1. 打通已有叢集和新增混合雲叢集之間的網路。

    請根據自身情境選擇網路打通方案:

  2. 為已有叢集的安全性群組添加入方向規則。具體操作,請參見添加安全性群組規則

    需要添加以下入方向規則:

    授權策略

    協議類型

    連接埠範圍

    授權對象

    說明

    允許

    自訂TCP

    6444

    計算節點所屬網段

    SGE連接埠

    允許

    • 自訂TCP

    • 自訂UDP

    834、835、905、111

    計算節點所屬網段

    NIS連接埠

    允許

    自訂TCP

    22

    0.0.0.0/0

    E-HPC預設開啟連接埠

    允許

    全部ICMP(IPv4)

    -1/-1

    0.0.0.0/0

    E-HPC預設開啟連接埠

步驟二:建立E-HPC混合雲叢集

本節僅說明本最佳實務情境下建立混合雲叢集需要注意的配置項。更多配置項說明,請參見建立混合雲叢集

  1. 登入彈性高效能運算控制台

  2. 在叢集頁面的右上方,單擊建立混合雲叢集

  3. 硬體設定頁,完成節點、儲存、網路等配置,然後單擊下一步

    配置

    說明

    樣本值

    可用性區域

    選擇叢集所屬可用性區域。

    華東2 可用性區域L

    使用代理模式

    開啟代理模式,表示該混合雲叢集由已有叢集(雲上或線下)的管理節點代為管理。

    開啟

    VPC、交換器

    選擇叢集所屬的VPC和交換器。請請確保交換器下的IP地址空間足夠(可用IP數大於叢集節點的數量)。

    • vpc-uf62yvldgikwaf2******

    • vsw-uf60uwjzu2um4ip******

    安全性群組

    關閉建立安全性群組,選擇步驟一建立的安全性群組。

    sg-test

    檔案儲存體位置

    選擇叢集節點要掛載的檔案儲存體。支援掛載雲上儲存、本機存放區或者不掛載。

    使用雲上檔案儲存體

    檔案系統ID

    檔案儲存體位置選擇使用雲上檔案儲存體時,需選擇NAS檔案系統。

    3ba2b4a***(容量型 NFS)

    掛載點

    檔案儲存體位置選擇使用雲上檔案儲存體時,需選擇NAS檔案系統的掛載點。

    3ba2b4a***-ni**.cn-shanghai.nas.aliyuncs.com

  4. 軟體配置頁,完成鏡像、調度節點、帳號節點等配置,然後單擊下一步

    配置

    說明

    樣本值

    鏡像類型

    鏡像類型支援公用鏡像、自訂鏡像等。

    說明

    可以選擇的鏡像類型由選擇的地區可用性區域、所登入帳號本身是否有相關鏡像資源決定,以介面顯示為準。

    公用鏡像

    鏡像

    鏡像提供節點所需的資訊,包含了作業系統、預裝軟體,以及部署的業務或應用資料。

    CentOS_7.6_64

    調度器

    作業調度軟體,請選擇sge。

    sge

    調度節點IP

    代理管理本叢集的已有叢集的管理節點IP。

    10.0.XX.XX

    調度節點主機名稱

    代理管理本叢集的已有叢集的管理節點主機名稱。

    manager

    帳號系統

    代理管理本叢集的已有叢集的帳號系統。

    nis

    本地叢集網域名稱

    代理管理本叢集的已有叢集的網域名稱。

    ehpc-hz-Gpxqdh****

    帳號節點IP

    代理管理本叢集的已有叢集的管理節點IP。

    10.0.XX.XX

    帳號節點主機名稱

    代理管理本叢集的已有叢集的管理節點主機名稱。

    manager

  5. 基礎配置頁,輸入集群名稱並配置登入密碼。

    重要

    此處的登入密碼必須與已有叢集(線下或雲上其他地區叢集)的root密碼保持一致。

  6. 在右側確認配置資訊,選中服務條款,然後單擊確認

    建立後,請確保新建立的混合雲叢集已成功加入到已有叢集,

  7. (可選)將已有叢集的指定目錄掛載到新建立的混合雲叢集。

    命令參考樣本如下:

    mkdir -p /home-remote
    mount -t nfs -o vers=3,nolock,proto=tcp,noresvport 000ae4****-vmp**.cn-hangzhou.nas.aliyuncs.com:/ehpc-hz-GpQt5X****/home /home-remote

    掛載目錄可以方便檔案拷貝,您也可以將新建立的混合雲叢集的指定目錄掛載到已有叢集。

    如果想要更換混合雲叢集home目錄,需要將原home下的credit目錄拷貝至目前的目錄,並確認許可權為755。命令參考如下:

    CLUSTER_ID=`cat /root/ehpc.conf |grep -i clusterid |awk -F '=' '{print $2}'`
    cp /ehpcdata/${CLUSTER_ID}/home/master_nis_ready  /home  (NIS)
    cp -rf /ehpcdata/${CLUSTER_ID}/home/ehpc_service  /home  (LDAP)

步驟三:擴容E-HPC混合雲叢集

新增的混合雲叢集中預設沒有計算節點,因此需要擴容計算節點。

  1. 節點與隊列頁面,單擊建立隊列

    為混合雲叢集節點建立新的隊列,以便區分節點所屬叢集。具體操作,請參見建立隊列

  2. 叢集頁面,選擇目的地組群,單擊擴容

  3. 建立節點頁簽下,配置節點資訊,然後單擊立即購買

    需要注意的參數如下:

    配置項

    說明

    樣本值

    可用性區域

    選擇節點所屬可用性區域,建議選擇混合雲叢集所屬的可用性區域。

    華東2 可用性區域L

    交換器

    選擇節點所屬的交換器,建議選擇混合雲叢集所屬的交換器,確保已有叢集已放開該交換器網段的訪問。

    vsw-uf60uwjzu2um4ip******

    隊列

    節點要加入的隊列,請選擇新建立的隊列,以便區分。

    new

    主機名稱首碼

    節點的主機名稱首碼,必須與已有叢集節點的主機名稱有所區分。

    new-compute

步驟四:配置自動調整

E-HPC叢集支援配置自動調整策略,實現根據即時負載自動增加或減少混合雲叢集的計算節點。具體操作,請參見配置自動調整策略

混合雲最佳實務4

重要

如果使用了叢集的使用者管理功能,請在使用者頁面單擊同步叢集使用者,檢查使用者是否更新成功。

步驟五:提交作業進行測試

分別提交作業至混合雲叢集計算節點所在隊列,以及原先已有叢集計算節點所在隊列進行測試。測試指令碼qsub.sge的內容樣本如下:

#!/bin/bash

#$ -cwd              #當前路徑執行
#$ -N test1          #作業名稱
#$ -q hybridcloudq   #指定雲上隊列
#$ -pe smp 2         #指定cpu核心數
#$ -l vf=1g          #指定記憶體
#$ -o /home/xiaofan  #指定輸出日誌
#$ -e /home/xiaofan  #指定錯誤記錄檔

sleep 10
ping -c 10 localhost
echo "demo complete."