全部產品
Search
文件中心

Elastic High Performance Computing:查看效能剖析

更新時間:Apr 25, 2025

通過查看效能剖析,您能夠深入瞭解叢集資源使用方式,識別並解決資源不均衡問題,最佳化作業調度,快速定位效能瓶頸,實現作業效能調優,以及進行成本效益分析等,為資源規劃和系統最佳化提供決策支援。本文介紹如何在E-HPC Portal中查看已提交作業的效能剖析。

前提條件

查看MPI類型效能剖析前,您需滿足以下條件:

  • 僅支援調度器為SLURM的叢集。

  • 已通過submitter應用模板提交過開啟MPI效能剖析的作業任務。具體操作,請參見通過submitter提交作業

  • 任務狀態處於已完成

操作步驟

  1. 開啟並登入E-HPC Portal。

    具體操作,請參見登入E-HPC Portal

  2. 在頂部導覽列,選擇效能管理,進入效能管理頁面。

    image

  3. (可選)在效能剖析篩選地區,您可以設定以下參數篩選效能剖析任務。

    參數

    說明

    狀態

    支援選擇剖析狀態為準備中運行中已完成異常

    類型

    支援選擇MPI類型。

  4. 找到目標任務後,在左側單擊image按鈕,以查看效能剖析詳情資訊。

    MPI類型

    您可以查詢該次作業效能剖析的基礎資訊,包括使用者、狀態、開始時間、執行命令等,以及系統統計的進階參數資訊。具體參數說明如下:

    參數項

    說明

    MPI Time

    表示每個進程中多線程時間(mtime)與使用者態時間(utime)的佔比。若佔比超過30%,則應用程式可能屬於MPI通訊密集型,這可能是由於MPI通訊不均衡、程式通訊模式或MPI通訊庫引起的。若佔比低於或等於30%,則表明MPI通訊佔比較低,若存在效能瓶頸,建議考慮I/O或訪存分析。

    MPI Imbalance

    反映在多個並行進程中工作負載分配情況的指標。若實際每次rank中MPI_Wait與同步函數耗時佔比超過10%,則表明應用負載在MPI Rank之間分配不均衡。若佔比低於或等於10%,則表明應用負載分配較為均衡。

    Communication Balance Task

    通訊負載平衡指標,通過展示每個rank中各種MPI函數時間數值的堆疊圖來評估。

    MPI Communication Time

    表示MPI通訊耗時的總和,通過各MPI函數時間總和數值的餅狀圖來展示。

    Memory usage by Node

    展示在MPI作業中,多節點環境下各節點的記憶體使用量情況。

    Time by rank

    展示每個rank中的時間分配,包括任務實際已耗用時間(wtime)、使用者態時間(utime)、系統態時間(stime)以及MPI時間(mtime)的具體值。

    樣本如下:

    image