全部產品
Search
文件中心

Elastic High Performance Computing:查看E-HPC的監控資訊

更新時間:Apr 25, 2025

通過查看叢集監控資訊,您可即時掌握節點、儲存和作業資源的使用方式,精確最佳化資源配置和任務調度。同時,允許您自訂監控時間範圍,並提供便捷的歷史資料查詢功能,助您做出明智的調整和管理決策,確保叢集持續高效運行。本文介紹如何查看E-HPC的監控資訊。

前提條件

  • 叢集需滿足以下條件:

    • 狀態為運行中

    • 叢集部署模式為公用雲叢集

    • 調度器為SLURM和PBS。

    • 叢集監控組件已正常安裝。

  • 如果使用RAM使用者操作,請確保RAM使用者具有通過控制台查看監控資訊的許可權。具體操作,請參見為RAM使用者授權

操作步驟

  1. 進入叢集詳情頁面。

    1. 登入彈性高效能運算控制台

    2. 在頂部功能表列左上方處,選擇地區。

    3. 在左側導覽列,單擊叢集

    4. 叢集列表頁面,單擊目標叢集名稱

  2. 在左側導覽列,選擇營運管理 > 監控

  3. 根據需要,單擊對應頁簽,以查看E-HPC的監控資訊。

    說明

    當您查看節點監控、儲存監控或作業監控資訊時,您可以指定查詢的時間範圍。

    • 快速選擇:可選擇查看近1小時、4小時、12小時或1天的監控資訊。

    • 自訂:精確選擇要查詢監控資訊的時間範圍,時間範圍的起止時間點間隔最長為1個月。

    有關各頁簽及對應監控指標詳細說明,請參見監控指標說明

    image

監控指標說明

頁簽

說明

概覽

包含計算節點總數共用儲存空間作業總數平均負載四個統計資訊,並可以查看所有計算節點狀態及資源使用方式。

計算節點調度狀態說明如下所示:

  • 空閑:節點內所有核均未被佔用,表明節點的運算能力處於最大可用狀態。此時,節點可以接受新的任務或作業,以充分發揮其計算能力。

  • 工作中:節點內部分核被佔用,但部分核心仍然處於可用狀態,能夠接受新的作業。

  • 忙碌:節點內所有核被佔用,無法接受新的作業。若需提交新的作業,可能會進行排隊等待,直至有核心不被佔用為止。

  • 離線:節點不再參與計算或任務處理,且完全不接收新的作業。

節點監控

您可以通過叢集、隊列兩個維度進行篩選,查看以下六個可視化統計資訊:

  • CPU利用率

    CPU利用率是指叢集中計算節點的CPU在特定時間段內被程式佔用的比例。高利用率(超過80%-90%)一般意味著資源高效使用,但長期如此可能導致叢集效能下降和響應變慢。低利用率(0%-30%)則可能表明資源未被充分利用,或存在效能瓶頸或任務調度問題。

  • 記憶體利用率

    用於反映叢集中計算節點的記憶體使用量情況。為確保叢集作業的順利執行,應定期監控記憶體使用量率,以防止因記憶體溢出而導致作業失敗。如有必要,可通過增加記憶體容量或最佳化記憶體使用量策略來解決相關問題。

  • 系統負載

    用於反映計算節點的工作負載情況,有助於評估叢集的作業承載能力。需監控負載與節點數量的比率,當負載過高時,表明資源配置不足。可通過增加節點(擴容)或最佳化作業流程來改善此情況。

  • 磁碟利用率

    該指標反映磁碟儲存空間的使用狀況,旨在確保磁碟的可用性,避免出現過高的佔用率(例如,當佔用率達到100%時,無法進行寫入操作)。通過清理冗餘資料或擴充儲存容量,可以有效應對儲存壓力。這一分析有助於您全面瞭解磁碟的使用方式,並判斷是否需要進行空間清理或儲存擴充。

  • 磁碟讀寫

    磁碟讀寫速率表示單位時間內資料的讀取和寫入位元組數,以KB/s為單位。通過監控磁碟讀寫指標,可以有效評估叢集效能,確保其高效處理計算任務。

  • 網路流量

    反映節點內通過私網進行的資料轉送情況。您需要特別關注高流量時間段,以便及時發現異常情況。例如網路頻寬不足,這將直接影響資料的傳輸效率。

儲存監控

您可以查看該叢集內不同檔案系統下的儲存監控資訊,包括以下六個可視化統計資訊:

  • 儲存空間

    反映叢集用於儲存計算任務產出、臨時檔案和應用程式資料的Apsara File Storage NAS使用方式。為防範儲存空間不足、效能衰退及資料丟失等異常情況,建議通過監控警示、定期資料清理及儲存擴充等措施進行有效應對。

  • 檔案數

    Apsara File Storage NAS中的檔案總數,作為評估儲存管理效率的關鍵計量,它間接反映系統健康情況和維護需求;需注意檔案數量過多會增加管理複雜性並影響檢索效率與效能,若超過預設閾值則需高度關注,建議定期整理儲存內容,清除無用或冗餘檔案,以提升管理效率與系統效能。

  • IOPS

    表示該檔案系統在周期內每秒平均讀/寫IOPS次數。單位為次/秒。

  • 延遲

    表示該檔案系統在周期內每毫秒平均延遲,包括讀延遲和寫延遲。單位為毫秒(ms)。

  • 吞吐

    表示該檔案系統在周期內每秒平均吞吐位元組數,包括讀吞吐和寫吞吐。單位為KiB。

  • 中繼資料QPS

    表示該檔案系統在周期內每秒平均請求中繼資料次數。單位為次/秒。

更多關於檔案系統的儲存監控指標資訊,請參見效能監控效能說明FAQ

作業監控

您可以通過叢集、隊列、專案和使用者四個維度進行篩選,查看以下六個可視化統計資訊:

  • 作業數

    叢集中啟動並執行作業數量是評估叢集負載的重要指標,需與可用資源相匹配,以避免因作業數量異常增高而導致的資源競爭。為此,建議最佳化作業調度,並剔除不必要的作業,以提升整體資源利用效率。

  • 排隊作業需求總核心數

    排隊作業需求總核心數表示完成特定任務所需的計算核心總量。在實際應用中,需將其與可用核心數進行比較,若需求高於可用核心,可能導致長時間的等待。為解決此類情況,您可以為叢集增加計算核心數量或調整作業的優先順序,以最佳化資源配置和提高效率。

  • 作業等待時間長度

    作業等待時間長度是指在叢集內作業排隊狀態下的平均等待時間,反映了資源競爭的情況。較長的等待時間會影響整體效率,特別是在異常情況下,等待時間長度顯著增加時,應優先調度高優先順序作業以最佳化資源利用。

  • 運行作業使用總核心數

    運行作業使用總核心數指當前運行作業實際所佔用的核心數量,該指標有助於監測資源的使用方式。需確保核心使用的有效性,以避免出現資源利用過高或過低的異常情況。針對這些問題,建議調整作業配置併合理分配資源,以提升整體運行效率。

  • 作業CPU利用率

    作業CPU利用率是指作業實際使用的核心數除以作業申請的核心數的比例。對於作業CPU利用率較低的情況,這可能表示系統存在異常,例如CPU利用率低於預期閾值。這種現象可能影響系統的整體效能,導致資源的浪費。因此,建議及時對相關作業及其計算負載進行深入分析,從而實現有效調整與最佳化。

  • 作業記憶體利用率

    作業記憶體利用率是指作業實際使用的記憶體量除以作業申請的記憶體量的比例。因此您需關注作業記憶體的合理使用,避免出現過高的記憶體佔用,導致記憶體溢出或不足等異常情況。為維護系統穩定性,您可通過最佳化記憶體配置或升配節點規格來處理相關問題。