阿里雲團隊努力不懈,讓最新技術內容能以更快方式以您最熟悉的語言呈現給您。本文內容由機器自動翻譯簡體中文,過程無人工干預。轉碼所造成任何內容錯誤及相關損失,阿里雲概不負責。敬請見諒。若任何內容問題涉及信息準確性,請以英文版為準。
全部產品
Search
文件中心

使用Cloud Monitor監控ECS執行個體

更新時間: Aug 23, 2018

越來越多的業務部署在雲上,減輕了運維成本和壓力,其中合理的監控設定功不可沒。設定合理的監控不僅可以讓您即時瞭解系統業務的運行情況,還能幫助您提前發現問題,避免可能會出現的業務故障。同時,有效警示機制能讓您在故障發生後第一時間發現問題,縮短故障處理時間,以便儘快恢複業務。

本文以一個樣本網站為例(網站架構如下圖所示)說明您應如何配置使用Cloud Monitor。樣本網站架構使用了阿里雲產品ECS、RDS、OSS和負載平衡。

樣本網站架構

前提條件

在開始設定Cloud Monitor前,您需要完成以下操作:

  • 檢查ECS監控外掛程式運行情況,確保監控資訊能夠正常採集。如果安裝失敗需要手動安裝,請參考 Cloud Monitor外掛程式安裝指南

  • 提前 添加報警連絡人和聯繫組,建議設定至少2人以上的連絡人,互為主備,以便及時響應監控警示。監控選項的設定,具體可參見 雲端服務資源使用概覽和報警概覽

  • 利用Cloud Monitor的Dashboard功能,給您業務系統的雲資源設定一個全域監控總覽,可隨時檢查整個業務系統資源的健康狀態。下圖根據ECS分組選擇添加監控的資源,依次添加記憶體使用量率、CPU使用率等監控項。監控的執行個體數較少可以選擇執行個體維度作為展示,如果執行個體較多建議以分組或者使用者為維度展示;監控資料取平均值。

    監控項分組
    為了更好地監控大屏展示效果,這裡將ECS的CPU、記憶體、磁碟的使用率單獨分組展示;將RDS的四項指標分兩組展示。
    監控項分組_ECS_RDS

設定報警閾值

建議您根據實際業務情況設定各項監控指標的報警閾值。閾值太低會頻繁觸發報警,影響監控服務體驗。閾值太高,在觸發閾值後沒有足夠的預留時間來響應和處理警示。

設定報警規則

以CPU使用率為例,因為需要給伺服器預留部分處理效能保障伺服器正常運行,所以建議您將CPU警示閾值設定為70%,連續三次超過閾值後開始報警,如下圖所示。

設定報警規則

如果您還需要設定其他資源的報警規則,單擊 添加報警規則,繼續設定記憶體或磁碟的報警規則和報警通知人。

設定進程監控

對於常見的web應用,設定 進程監控,不僅可以即時監控應用進程的運行情況,還有助於排查處理故障,下圖是Java進程的相關監控樣本。具體操作請參見 添加進程監控

設定進程監控

佈建網站監控

在雲端服務器外層的監控服務,網站監控主要用於模擬真實使用者訪問情況,即時測試業務可用性,有助於排查處理故障。

設定RDS監控

建議將RDS的CPU使用率報警閾值設定為70%,連續三次超過閾值後開始報警。您可以根據實際情況設定硬碟使用率、IOPS使用率、連接數等其他 監控項

RDS報警

設定負載平衡監控

為了更好使用負載平衡的Cloud Monitor服務,您需要先開啟負載平衡的健康檢查,詳情請參考 健康檢查機制和配置說明,將負載平衡頻寬值的70%作為警示閾值,如下圖所示。

負載平衡健康檢查

如果以上監控選項不能滿足您的實際業務監控需求,您可以 使用自訂監控項