頁簽 | 說明 |
概覽 | 包含計算節點總數、共用儲存空間、作業總數、平均負載四個統計資訊,並可以查看所有計算節點狀態及資源使用方式。 計算節點調度狀態說明如下所示: 空閑:節點內所有核均未被佔用,表明節點的運算能力處於最大可用狀態。此時,節點可以接受新的任務或作業,以充分發揮其計算能力。 工作中:節點內部分核被佔用,但部分核心仍然處於可用狀態,能夠接受新的作業。 忙碌:節點內所有核被佔用,無法接受新的作業。若需提交新的作業,可能會進行排隊等待,直至有核心不被佔用為止。 離線:節點不再參與計算或任務處理,且完全不接收新的作業。
|
節點監控 | 您可以通過叢集、隊列兩個維度進行篩選,查看以下六個可視化統計資訊: CPU利用率 CPU利用率是指叢集中計算節點的CPU在特定時間段內被程式佔用的比例。高利用率(超過80%-90%)一般意味著資源高效使用,但長期如此可能導致叢集效能下降和響應變慢。低利用率(0%-30%)則可能表明資源未被充分利用,或存在效能瓶頸或任務調度問題。 記憶體利用率 用於反映叢集中計算節點的記憶體使用量情況。為確保叢集作業的順利執行,應定期監控記憶體使用量率,以防止因記憶體溢出而導致作業失敗。如有必要,可通過增加記憶體容量或最佳化記憶體使用量策略來解決相關問題。 系統負載 用於反映計算節點的工作負載情況,有助於評估叢集的作業承載能力。需監控負載與節點數量的比率,當負載過高時,表明資源配置不足。可通過增加節點(擴容)或最佳化作業流程來改善此情況。 磁碟利用率 該指標反映磁碟儲存空間的使用狀況,旨在確保磁碟的可用性,避免出現過高的佔用率(例如,當佔用率達到100%時,無法進行寫入操作)。通過清理冗餘資料或擴充儲存容量,可以有效應對儲存壓力。這一分析有助於您全面瞭解磁碟的使用方式,並判斷是否需要進行空間清理或儲存擴充。 磁碟讀寫 磁碟讀寫速率表示單位時間內資料的讀取和寫入位元組數,以KB/s為單位。通過監控磁碟讀寫指標,可以有效評估叢集效能,確保其高效處理計算任務。 網路流量 反映節點內通過私網進行的資料轉送情況。您需要特別關注高流量時間段,以便及時發現異常情況。例如網路頻寬不足,這將直接影響資料的傳輸效率。
|
儲存監控 | 您可以查看該叢集內不同檔案系統下的儲存監控資訊,包括以下六個可視化統計資訊: 儲存空間 反映叢集用於儲存計算任務產出、臨時檔案和應用程式資料的Apsara File Storage NAS使用方式。為防範儲存空間不足、效能衰退及資料丟失等異常情況,建議通過監控警示、定期資料清理及儲存擴充等措施進行有效應對。 檔案數 Apsara File Storage NAS中的檔案總數,作為評估儲存管理效率的關鍵計量,它間接反映系統健康情況和維護需求;需注意檔案數量過多會增加管理複雜性並影響檢索效率與效能,若超過預設閾值則需高度關注,建議定期整理儲存內容,清除無用或冗餘檔案,以提升管理效率與系統效能。 IOPS 表示該檔案系統在周期內每秒平均讀/寫IOPS次數。單位為次/秒。 延遲 表示該檔案系統在周期內每毫秒平均延遲,包括讀延遲和寫延遲。單位為毫秒(ms)。 吞吐 表示該檔案系統在周期內每秒平均吞吐位元組數,包括讀吞吐和寫吞吐。單位為KiB。 中繼資料QPS 表示該檔案系統在周期內每秒平均請求中繼資料次數。單位為次/秒。
更多關於檔案系統的儲存監控指標資訊,請參見效能監控和效能說明FAQ。 |
作業監控 | 您可以通過叢集、隊列、專案和使用者四個維度進行篩選,查看以下六個可視化統計資訊: 作業數 叢集中啟動並執行作業數量是評估叢集負載的重要指標,需與可用資源相匹配,以避免因作業數量異常增高而導致的資源競爭。為此,建議最佳化作業調度,並剔除不必要的作業,以提升整體資源利用效率。 排隊作業需求總核心數 排隊作業需求總核心數表示完成特定任務所需的計算核心總量。在實際應用中,需將其與可用核心數進行比較,若需求高於可用核心,可能導致長時間的等待。為解決此類情況,您可以為叢集增加計算核心數量或調整作業的優先順序,以最佳化資源配置和提高效率。 作業等待時間長度 作業等待時間長度是指在叢集內作業排隊狀態下的平均等待時間,反映了資源競爭的情況。較長的等待時間會影響整體效率,特別是在異常情況下,等待時間長度顯著增加時,應優先調度高優先順序作業以最佳化資源利用。 運行作業使用總核心數 運行作業使用總核心數指當前運行作業實際所佔用的核心數量,該指標有助於監測資源的使用方式。需確保核心使用的有效性,以避免出現資源利用過高或過低的異常情況。針對這些問題,建議調整作業配置併合理分配資源,以提升整體運行效率。 作業CPU利用率 作業CPU利用率是指作業實際使用的核心數除以作業申請的核心數的比例。對於作業CPU利用率較低的情況,這可能表示系統存在異常,例如CPU利用率低於預期閾值。這種現象可能影響系統的整體效能,導致資源的浪費。因此,建議及時對相關作業及其計算負載進行深入分析,從而實現有效調整與最佳化。 作業記憶體利用率 作業記憶體利用率是指作業實際使用的記憶體量除以作業申請的記憶體量的比例。因此您需關注作業記憶體的合理使用,避免出現過高的記憶體佔用,導致記憶體溢出或不足等異常情況。為維護系統穩定性,您可通過最佳化記憶體配置或升配節點規格來處理相關問題。
|