通過查看效能剖析,您能夠深入瞭解叢集資源使用方式,識別並解決資源不均衡問題,最佳化作業調度,快速定位效能瓶頸,實現作業效能調優,以及進行成本效益分析等,為資源規劃和系統最佳化提供決策支援。本文介紹如何在E-HPC Portal中查看已提交作業的效能剖析。
前提條件
查看MPI類型效能剖析前,您需滿足以下條件:
僅支援調度器為SLURM的叢集。
已通過submitter應用模板提交過開啟MPI效能剖析的作業任務。具體操作,請參見通過submitter提交作業。
任務狀態處於已完成。
操作步驟
開啟並登入E-HPC Portal。
具體操作,請參見登入E-HPC Portal。
在頂部導覽列,選擇效能管理,進入效能管理頁面。

(可選)在效能剖析篩選地區,您可以設定以下參數篩選效能剖析任務。
參數
說明
狀態
支援選擇剖析狀態為準備中、運行中、已完成、異常。
類型
支援選擇MPI類型。
找到目標任務後,在左側單擊
按鈕,以查看效能剖析詳情資訊。MPI類型
您可以查詢該次作業效能剖析的基礎資訊,包括使用者、狀態、開始時間、執行命令等,以及系統統計的進階參數資訊。具體參數說明如下:
參數項
說明
MPI Time
表示每個進程中多線程時間(mtime)與使用者態時間(utime)的佔比。若佔比超過30%,則應用程式可能屬於MPI通訊密集型,這可能是由於MPI通訊不均衡、程式通訊模式或MPI通訊庫引起的。若佔比低於或等於30%,則表明MPI通訊佔比較低,若存在效能瓶頸,建議考慮I/O或訪存分析。
MPI Imbalance
反映在多個並行進程中工作負載分配情況的指標。若實際每次rank中MPI_Wait與同步函數耗時佔比超過10%,則表明應用負載在MPI Rank之間分配不均衡。若佔比低於或等於10%,則表明應用負載分配較為均衡。
Communication Balance Task
通訊負載平衡指標,通過展示每個rank中各種MPI函數時間數值的堆疊圖來評估。
MPI Communication Time
表示MPI通訊耗時的總和,通過各MPI函數時間總和數值的餅狀圖來展示。
Memory usage by Node
展示在MPI作業中,多節點環境下各節點的記憶體使用量情況。
Time by rank
展示每個rank中的時間分配,包括任務實際已耗用時間(wtime)、使用者態時間(utime)、系統態時間(stime)以及MPI時間(mtime)的具體值。
樣本如下:
