全部產品
Search
文件中心

Elastic High Performance Computing:測試SCC叢集效能

更新時間:Jul 06, 2024

Super Computing ClusterSCC具有無虛擬化損耗、高頻寬低延遲網路的優點,可以保證高效能運算和人工智慧、機器學習等應用的高度並行需求。本文為您介紹如何建立SCC叢集,並測試SCC叢集的相關效能。

背景資訊

Super Computing ClusterSCC(Super Computing Cluster)在ECS Bare Metal Instance基礎上,加入高速RDMA(Remote Direct Memory Access)互聯支援,大幅提升網路效能,提高大規模叢集加速比。因此SCC在提供高頻寬、低延遲優質網路的同時,還具備ECS Bare Metal Instance的所有優點。更多資訊,請參見Super Computing Cluster概述

針對E-HPC多機並行計算需求,SCC可以提供低延時RDMA網路互聯,同時提供VPC網路隔離能力;SCC執行個體無虛擬化損耗,您可以直接存取硬體資源。因此,SCC適合模擬製造、生命科學、機器學習、大規模分子動力學和氣象預報等應用情境。

SCC執行個體與普通ECS執行個體相比,配備了高頻寬低延遲的RDMA網路,所以網路通訊能力與普通ECS執行個體相比有明顯差異。正常的SCC執行個體會顯示如下網口資訊,其中eth0為RDMA網口,lo為VPC網口。

SCC..png

使用限制

目前僅部分地區可用性區域支援SCC規格,具體請參見ECS執行個體規格可購買地區總覽

建立SCC叢集

  1. 登入彈性高效能運算控制台

  2. 建立一個E-HPC叢集。具體操作,請參見使用嚮導建立叢集

    配置叢集時,軟硬體參數配置如下:

    參數

    說明

    硬體參數

    部署方式為精簡,包含1個管控節點和0個計算節點,其中計算節點規格選擇SCC規格。

    重要

    計算節點選擇SCC規格時,該節點無法在建立叢集時加入。您需要在叢集建立完成後通過擴容方式添加SCC規格的計算節點。

    軟體參數

    鏡像選擇CentOS 7.6公用鏡像,調度器選擇pbs。

    SCC-建立叢集..png

  3. 擴容叢集,增加使用SCC規格的計算節點。具體操作,請參見擴容叢集

    本文使用的SCC規格樣本為ecs.scch5s.16xlarge,數量為2個。

    SCC-擴容叢集..png

  4. 建立一個叢集使用者。具體操作,請參見建立使用者

    叢集使用者用於登入叢集,進行編譯軟體、提交作業等操作,配置使用者權限時,許可權組請選擇sudo許可權組

  5. 安裝軟體。具體操作,請參見安裝軟體

    需安裝的軟體如下:

    • linpack,版本為2018。

    • intel-mpi,版本為2018。

測試SCC叢集的網路效能

測試RDMA網路的峰值頻寬

  1. 分別登入compute000節點和compute001節點。

  2. 測試讀頻寬的峰值。

    1. 在compute000節點執行以下命令。

      ib_read_bw -a -q 20 --report_gbits   ##服務端compute000執行
    2. 在compute001節點執行以下命令。

      ib_read_bw -a -q 20 --report_gbits compute000  ##使用者端compute001執行

      預期返回如下:

      讀頻寬測試峰值

  3. 測試寫頻寬的峰值。

    1. 在compute000節點執行以下命令。

      ib_write_bw -a -q 20 --report_gbits  ##服務端compute000執行
    2. 在compute001節點執行以下命令。

      ib_write_bw -a -q 20 --report_gbits compute000  ##使用者端compute001執行

      預期返回如下:

      寫頻寬測試峰值

測試RDMA網路的延遲

  1. 串連叢集。具體操作,請參見登入叢集

  2. 測試RDMA網路的讀延遲。

    1. 在compute000節點執行以下命令。

      ib_read_lat -a   ##服務端compute000執行
    2. 在compute001節點執行以下命令。

      ib_read_lat -F -a compute000  ##使用者端compute001執行

      預期返回如下:

      SCC-讀延遲..png

  3. 測試RDMA網路的寫延遲。

    1. 在compute000節點執行以下命令。

      ib_write_lat -a  ##服務端compute000執行
    2. 在compute001節點執行以下命令。

      ib_write_lat -F -a compute000  ##使用者端compute001執行

      預期返回如下:

      RoCE網路的寫延遲

監測RDMA網路的實際頻寬利用情況

  1. 使用root使用者登入計算節點(如compute000節點)。

  2. 執行以下命令監測RDMA網路的實際頻寬利用情況。

    rdma_monitor -s

    返回樣本如下:

    SCC-網路監測..png

查看SCC叢集節點的效能

  1. 彈性高效能運算控制台的左側導覽列,選擇作業與效能管理>E-HPC最佳化器

  2. 效能大盤頁面,選擇目的地組群,在操作列單擊節點

  3. 節點效能頁簽,選擇對應的節點、時間段和指標,即可查看叢集節點的相關效能。

    SCC-叢集效能..png