Super Computing ClusterSCC具有無虛擬化損耗、高頻寬低延遲網路的優點,可以保證高效能運算和人工智慧、機器學習等應用的高度並行需求。本文為您介紹如何建立SCC叢集,並測試SCC叢集的相關效能。
背景資訊
Super Computing ClusterSCC(Super Computing Cluster)在ECS Bare Metal Instance基礎上,加入高速RDMA(Remote Direct Memory Access)互聯支援,大幅提升網路效能,提高大規模叢集加速比。因此SCC在提供高頻寬、低延遲優質網路的同時,還具備ECS Bare Metal Instance的所有優點。更多資訊,請參見Super Computing Cluster概述。
針對E-HPC多機並行計算需求,SCC可以提供低延時RDMA網路互聯,同時提供VPC網路隔離能力;SCC執行個體無虛擬化損耗,您可以直接存取硬體資源。因此,SCC適合模擬製造、生命科學、機器學習、大規模分子動力學和氣象預報等應用情境。
SCC執行個體與普通ECS執行個體相比,配備了高頻寬低延遲的RDMA網路,所以網路通訊能力與普通ECS執行個體相比有明顯差異。正常的SCC執行個體會顯示如下網口資訊,其中eth0為RDMA網口,lo為VPC網口。

使用限制
目前僅部分地區可用性區域支援SCC規格,具體請參見ECS執行個體規格可購買地區總覽。
建立SCC叢集
登入彈性高效能運算控制台。
建立一個E-HPC叢集。具體操作,請參見使用嚮導建立叢集。
配置叢集時,軟硬體參數配置如下:
參數
說明
硬體參數
部署方式為精簡,包含1個管控節點和0個計算節點,其中計算節點規格選擇SCC規格。
重要計算節點選擇SCC規格時,該節點無法在建立叢集時加入。您需要在叢集建立完成後通過擴容方式添加SCC規格的計算節點。
軟體參數
鏡像選擇CentOS 7.6公用鏡像,調度器選擇pbs。

擴容叢集,增加使用SCC規格的計算節點。具體操作,請參見擴容叢集。
本文使用的SCC規格樣本為ecs.scch5s.16xlarge,數量為2個。

建立一個叢集使用者。具體操作,請參見建立使用者。
叢集使用者用於登入叢集,進行編譯軟體、提交作業等操作,配置使用者權限時,許可權組請選擇sudo許可權組。
安裝軟體。具體操作,請參見安裝軟體。
需安裝的軟體如下:
linpack,版本為2018。
intel-mpi,版本為2018。
測試SCC叢集的網路效能
測試RDMA網路的峰值頻寬
分別登入compute000節點和compute001節點。
測試讀頻寬的峰值。
在compute000節點執行以下命令。
ib_read_bw -a -q 20 --report_gbits ##服務端compute000執行在compute001節點執行以下命令。
ib_read_bw -a -q 20 --report_gbits compute000 ##使用者端compute001執行預期返回如下:

測試寫頻寬的峰值。
在compute000節點執行以下命令。
ib_write_bw -a -q 20 --report_gbits ##服務端compute000執行在compute001節點執行以下命令。
ib_write_bw -a -q 20 --report_gbits compute000 ##使用者端compute001執行預期返回如下:

測試RDMA網路的延遲
串連叢集。具體操作,請參見登入叢集。
測試RDMA網路的讀延遲。
在compute000節點執行以下命令。
ib_read_lat -a ##服務端compute000執行在compute001節點執行以下命令。
ib_read_lat -F -a compute000 ##使用者端compute001執行預期返回如下:

測試RDMA網路的寫延遲。
在compute000節點執行以下命令。
ib_write_lat -a ##服務端compute000執行在compute001節點執行以下命令。
ib_write_lat -F -a compute000 ##使用者端compute001執行預期返回如下:

監測RDMA網路的實際頻寬利用情況
使用root使用者登入計算節點(如compute000節點)。
執行以下命令監測RDMA網路的實際頻寬利用情況。
rdma_monitor -s返回樣本如下:

查看SCC叢集節點的效能
在彈性高效能運算控制台的左側導覽列,選擇作業與效能管理>E-HPC最佳化器。
在效能大盤頁面,選擇目的地組群,在操作列單擊節點。
在節點效能頁簽,選擇對應的節點、時間段和指標,即可查看叢集節點的相關效能。
