混合雲代理模式叢集的管理節點為已有叢集的管理節點,計算節點由已有叢集計算節點和雲上新增計算節點組成。已有叢集可以是線下叢集,也可以是雲上叢集。本文介紹混合雲代理模式叢集(SGE調度器)的部署方案。
背景資訊
在HPC生命科學領域,大部分企業均已經部署了線下的IDC資料中心,但可能會存在基礎設施陳舊、算力不足的問題。隨著業務的快速增長,企業希望在雲上搭建新的算力叢集,但同時需要利用上原有IDC內的資源。為滿足上述情境的需求,阿里雲E-HPC提供了混合雲的解決方案,可以統一、高效地管控雲上和線下的計算資源,並支援靈活運用雲上資源的彈性優勢,實現自動調整。
混合雲解決方案分為主控模式和代理模式。
主控模式:管理節點屬於雲上新增叢集。
代理模式:管理節點屬於原先已有叢集。
說明代理模式下,已有叢集可以是線下叢集,也可以是雲上其他地區的叢集。
情境說明
假設已有叢集為線下叢集,配置為:
管理節點:規格為4 vCPU、8 GiB記憶體(混合雲方案的最小配置),作業系統使用CentOS7.6
調度器:OpenGridScheduler(SGE)
域帳號服務:NIS使用者管理
操作流程
本實踐包含的操作如下:
操作 | 操作內容 |
打通已有叢集和新增混合雲叢集之間的網路並配置安全性群組規則。 | |
建立代理模式的混合雲叢集。 | |
新增叢集內預設沒有雲上計算節點,需要擴容。 | |
為混合雲叢集配置自動調整,實現根據業務需求自動增加或減少雲上計算節點。 | |
分別在已有叢集隊列和新增混合雲叢集隊列中提交作業進行測試,測試叢集能否正常工作。 |
步驟一:配置網路
打通已有叢集和新增混合雲叢集之間的網路。
請根據自身情境選擇網路打通方案:
如果已有叢集是線下叢集,則需要打通線下和雲上網路,可使用Express Connect(專線)、Smart Access Gateway或者VPN網關。相關參考如下:
Express Connect:通過物理專線實現本地IDC與雲上VPC互連
Smart Access Gateway:SAG APP快速入門
VPN網關:IPsec-VPN入門概述、SSL-VPN入門概述
如果已有叢集是雲上其他地區的叢集,則需要打通跨地區網路,可使用雲企業網CEN。具體操作,請參見使用雲企業網實現跨地區跨帳號VPC互連(企業版)。
為已有叢集的安全性群組添加入方向規則。具體操作,請參見添加安全性群組規則。
需要添加以下入方向規則:
授權策略
協議類型
連接埠範圍
授權對象
說明
允許
自訂TCP
6444
計算節點所屬網段
SGE連接埠
允許
自訂TCP
自訂UDP
834、835、905、111
計算節點所屬網段
NIS連接埠
允許
自訂TCP
22
0.0.0.0/0
E-HPC預設開啟連接埠
允許
全部ICMP(IPv4)
-1/-1
0.0.0.0/0
E-HPC預設開啟連接埠
步驟二:建立E-HPC混合雲叢集
本節僅說明本最佳實務情境下建立混合雲叢集需要注意的配置項。更多配置項說明,請參見建立混合雲叢集。
登入彈性高效能運算控制台。
在叢集頁面的右上方,單擊建立混合雲叢集。
在硬體設定頁,完成節點、儲存、網路等配置,然後單擊下一步。
配置
說明
樣本值
可用性區域
選擇叢集所屬可用性區域。
華東2 可用性區域L
使用代理模式
開啟代理模式,表示該混合雲叢集由已有叢集(雲上或線下)的管理節點代為管理。
開啟
VPC、交換器
選擇叢集所屬的VPC和交換器。請請確保交換器下的IP地址空間足夠(可用IP數大於叢集節點的數量)。
vpc-uf62yvldgikwaf2******
vsw-uf60uwjzu2um4ip******
安全性群組
關閉建立安全性群組,選擇步驟一建立的安全性群組。
sg-test
檔案儲存體位置
選擇叢集節點要掛載的檔案儲存體。支援掛載雲上儲存、本機存放區或者不掛載。
使用雲上檔案儲存體
檔案系統ID
檔案儲存體位置選擇使用雲上檔案儲存體時,需選擇NAS檔案系統。
3ba2b4a***(容量型 NFS)
掛載點
檔案儲存體位置選擇使用雲上檔案儲存體時,需選擇NAS檔案系統的掛載點。
3ba2b4a***-ni**.cn-shanghai.nas.aliyuncs.com
在軟體配置頁,完成鏡像、調度節點、帳號節點等配置,然後單擊下一步。
配置
說明
樣本值
鏡像類型
鏡像類型支援公用鏡像、自訂鏡像等。
說明可以選擇的鏡像類型由選擇的地區可用性區域、所登入帳號本身是否有相關鏡像資源決定,以介面顯示為準。
公用鏡像
鏡像
鏡像提供節點所需的資訊,包含了作業系統、預裝軟體,以及部署的業務或應用資料。
CentOS_7.6_64
調度器
作業調度軟體,請選擇sge。
sge
調度節點IP
代理管理本叢集的已有叢集的管理節點IP。
10.0.XX.XX
調度節點主機名稱
代理管理本叢集的已有叢集的管理節點主機名稱。
manager
帳號系統
代理管理本叢集的已有叢集的帳號系統。
nis
本地叢集網域名稱
代理管理本叢集的已有叢集的網域名稱。
ehpc-hz-Gpxqdh****
帳號節點IP
代理管理本叢集的已有叢集的管理節點IP。
10.0.XX.XX
帳號節點主機名稱
代理管理本叢集的已有叢集的管理節點主機名稱。
manager
在基礎配置頁,輸入集群名稱並配置登入密碼。
重要此處的登入密碼必須與已有叢集(線下或雲上其他地區叢集)的root密碼保持一致。
在右側確認配置資訊,選中服務條款,然後單擊確認。
建立後,請確保新建立的混合雲叢集已成功加入到已有叢集,
(可選)將已有叢集的指定目錄掛載到新建立的混合雲叢集。
命令參考樣本如下:
mkdir -p /home-remote mount -t nfs -o vers=3,nolock,proto=tcp,noresvport 000ae4****-vmp**.cn-hangzhou.nas.aliyuncs.com:/ehpc-hz-GpQt5X****/home /home-remote掛載目錄可以方便檔案拷貝,您也可以將新建立的混合雲叢集的指定目錄掛載到已有叢集。
如果想要更換混合雲叢集home目錄,需要將原home下的credit目錄拷貝至目前的目錄,並確認許可權為755。命令參考如下:
CLUSTER_ID=`cat /root/ehpc.conf |grep -i clusterid |awk -F '=' '{print $2}'` cp /ehpcdata/${CLUSTER_ID}/home/master_nis_ready /home (NIS) cp -rf /ehpcdata/${CLUSTER_ID}/home/ehpc_service /home (LDAP)
步驟三:擴容E-HPC混合雲叢集
新增的混合雲叢集中預設沒有計算節點,因此需要擴容計算節點。
在節點與隊列頁面,單擊建立隊列。
為混合雲叢集節點建立新的隊列,以便區分節點所屬叢集。具體操作,請參見建立隊列。
在叢集頁面,選擇目的地組群,單擊擴容。
在建立節點頁簽下,配置節點資訊,然後單擊立即購買。
需要注意的參數如下:
配置項
說明
樣本值
可用性區域
選擇節點所屬可用性區域,建議選擇混合雲叢集所屬的可用性區域。
華東2 可用性區域L
交換器
選擇節點所屬的交換器,建議選擇混合雲叢集所屬的交換器,確保已有叢集已放開該交換器網段的訪問。
vsw-uf60uwjzu2um4ip******
隊列
節點要加入的隊列,請選擇新建立的隊列,以便區分。
new
主機名稱首碼
節點的主機名稱首碼,必須與已有叢集節點的主機名稱有所區分。
new-compute
步驟四:配置自動調整
E-HPC叢集支援配置自動調整策略,實現根據即時負載自動增加或減少混合雲叢集的計算節點。具體操作,請參見配置自動調整策略。

如果使用了叢集的使用者管理功能,請在使用者頁面單擊同步叢集使用者,檢查使用者是否更新成功。
步驟五:提交作業進行測試
分別提交作業至混合雲叢集計算節點所在隊列,以及原先已有叢集計算節點所在隊列進行測試。測試指令碼qsub.sge的內容樣本如下:
#!/bin/bash
#$ -cwd #當前路徑執行
#$ -N test1 #作業名稱
#$ -q hybridcloudq #指定雲上隊列
#$ -pe smp 2 #指定cpu核心數
#$ -l vf=1g #指定記憶體
#$ -o /home/xiaofan #指定輸出日誌
#$ -e /home/xiaofan #指定錯誤記錄檔
sleep 10
ping -c 10 localhost
echo "demo complete."