合理的監控設定能減輕雲上業務的營運成本和壓力。設定合理的監控可以讓您即時瞭解系統業務的運行情況,並能協助您提前發現問題,避免可能會出現的業務故障。同時,警示機制能讓您在故障發生後第一時間發現問題,縮短故障處理時間,以便儘快恢複業務。
前提條件
在開始設定CloudMonitor前,您需要完成以下操作:
檢查ECS監控外掛程式運行情況,確保監控資訊能夠正常採集。如果安裝失敗則需要手動安裝外掛程式,具體操作,請參見CloudMonitor外掛程式安裝指南。
提前添加警示連絡人和聯絡組,建議設定至少2人以上的連絡人,互為主備,以便及時響應監控警示。監控選項的設定說明,請參見警示服務和雲端服務資源使用概覽和警示概覽。
背景資訊
利用CloudMonitor的Dashboard功能為業務系統的雲資源設定監控總覽,方便隨時檢查整個業務系統資源的健康狀態。為了更好地展示監控資訊,本文中將ECS執行個體的CPU、記憶體和磁碟的使用率單獨分組展示,將RDS執行個體的四項指標分兩組展示。
本文中以一個網站為樣本,介紹如何配置使用CloudMonitor。本樣本中,使用的雲產品包括ECS、RDS、OSS和負載平衡。
設定警示閾值和警示規則
建議您根據實際業務情況設定各項監控指標的警示閾值。閾值太低會頻繁觸發警示,影響監控服務體驗。閾值太高,在觸發閾值後沒有足夠的預留時間來響應和處理警示。
以CPU使用率為例,需要給伺服器預留部分處理效能保障伺服器正常運行,建議根據實際業務情況為您需要監控的ECS執行個體設定警示規則,例如CPU警示閾值為70%,連續三次超過閾值後開始警示。
如果您還需要設定其他資源的警示規則,單擊添加警示規則,繼續設定記憶體、磁碟的警示規則和警示通知人。樣本如下:
設定RDS監控
建議根據實際情況為需要監控的RDS執行個體設定警示規則,例如將RDS的CPU使用率警示閾值設定為70%,連續三次超過閾值後開始警示。您可以根據實際情況設定硬碟使用率、IOPS使用率、串連數等其他監控項。查看更多監控項資訊的方法,請參見雲產品監控。
設定負載平衡監控
為了更好使用負載平衡的CloudMonitor服務,您需要先開啟負載平衡的健全狀態檢查,並根據實際情況設定警示規則,例如將負載平衡頻寬值的警示閾值設定為7 Mbit/s。
設定進程監控
對於常見的Web應用,設定進程監控,不僅可以即時監控應用進程的運行情況,還有助於排查處理故障。具體操作,請參見添加進程監控。
佈建網站監控
在雲端服務器外層的監控服務,網站監控主要用於類比真實使用者訪問情況,即時測試業務可用性,有助於排查處理故障。
如果以上監控選項不能滿足您的實際業務監控需求,您可以使用自訂監控。更多資訊,請參見概覽。