本文通過具體案例為您介紹如何通過CloudMonitor實現內網監控。
背景資訊
隨著越來越多的使用者從傳統網路遷移到更安全、更可靠的VPC網路環境,如何監控VPC內部服務是否正常響應就成為需要關注的問題。本文將通過具體案例說明如何監控VPC內ECS上的服務是否可用、VPC內ECS到RDS、Redis的連通性如何、VPC內SLB是否正常響應。
準備工作
內網監控的原理如下圖所示。
首先需要您在主機上安裝CloudMonitor外掛程式,然後通過控制台建立監控任務,選擇已安裝外掛程式的主機作為探測源,並配置需要探測的目標URL或連接埠。建立監控任務成功後,作為探測源的主機會通過CloudMonitor外掛程式每分鐘發送一個HTTP請求或Telnet請求到目標URL或連接埠,並將回應時間和狀態代碼收集到CloudMonitor進行警示和圖表展示。
操作步驟
作為探測源的伺服器需要安裝CloudMonitor外掛程式。
需要建立應用分組,並將作為探測源的伺服器加入到分組中。
在左側導覽列,選擇
。在應用分組頁簽,單擊目標應用分組名稱連結。
在目標應用分組的左側導覽列,單擊可用性監控。
單擊添加可用性監控。
在建立/修改可用性監控面板,設定任務相關參數。
參數
描述
任務名稱
可用性監控的任務名稱。
探測源
待探測的執行個體ID。
探測目標
待探測目標。取值:
URL或者IP:僅用於Elastic Compute Service。
雲資料庫RDS版:僅用於雲資料庫RDS版。
ApsaraDB for Redis:僅用於ApsaraDB for Redis。
探測類型
待探測類型。
當探測目標為URL或者IP時,支援如下探測類型:
HTTP(S):需要輸入待探測目標的URL地址。
TELNET:需要輸入待探測目標的IP地址。
PING:需要輸入待探測目標的IP地址。
當探測目標為雲資料庫RDS版或ApsaraDB for Redis時,支援如下探測類型:
TELNET:需要選擇執行個體ID和探測串連地址。
PING:需要選擇執行個體ID和探測串連地址。
要求方法
探測類型的要求方法。要求方法包括HEAD、GET和POST。
說明當探測目標為URL或者IP,且探測類型為HTTP(S)時,需要設定該參數。
監控頻率
探測周期。
取值:15秒、30秒、1分鐘、2分鐘、5分鐘、15分鐘、30分鐘和60分鐘。例如:選擇1分鐘頻率,CloudMonitor將以1分鐘/次的頻率監控目標執行個體。
說明當探測目標為URL或者IP,且探測類型為HTTP(S)時,需要設定該參數。
Headers
網站探測時HTTP或HTTPS的Headers。
Header格式:
parameter1:value1
。多個Header之間用半形逗號(,)分隔。
說明當探測目標為URL或者IP,且探測類型為HTTP(S)時,需要設定該參數。
提交內容
網站探測時POST的請求內容。
提交內容格式:
parameter1=value1¶meter2=value2
,僅支援英文。說明當探測目標為URL或者IP、探測類型為HTTP(S)和要求方法為POST時,需要設定該參數。
匹配響應內容
網站探測的匹配回應程式式和匹配響應資訊。
當匹配響應資訊非空時,網站探測讀取HTTP伺服器回應Body的前64KB,從中尋找匹配響應資訊。匹配回應程式式取值:
包含匹配內容則警示
不包含匹配內容則警示
說明當探測目標為URL或者IP,且探測類型為HTTP(S)時,需要設定該參數。
說明需要監控VPC內ECS本地進程是否響應正常時,可在探測源中選中所有需要監控的ECS,在探測目標中填寫
localhost:port/path
格式的地址,進行本地探測。當您需要監控VPC內SLB是否正常響應時,可選擇與SLB在同一VPC網路內的ECS執行個體作為探測源,在探測目標中填寫SLB的地址進行探測。
當您需要監控VPC內ECS執行個體中使用的RDS或Redis是否正常響應時,可將與ECS在同一VPC網路內的RDS或Redis添加到應用分組,並在探測源中選擇相應的ECS執行個體,探測目標中選擇RDS或Redis執行個體。
單擊下一步。
在警示設定頁面,設定警示相關參數。
參數
描述
狀態代碼
當探測的狀態代碼滿足警示設定時,觸發警示。
狀態代碼和回應時間其中之一達到閾值後都會觸發警示,警示會發送給應用分組的警示連絡人群組。
回應時間
當探測的回應時間滿足警示設定時,觸發警示。
狀態代碼和回應時間其中之一達到閾值後都會觸發警示,警示會發送給應用分組的警示連絡人群組。
警示層級
警示層級和警示通知方式。取值:
Info(郵件+DingTalk機器人)
警示回調
公網可訪問的URL,用於接收CloudMonitor通過POST請求推送的警示資訊。目前僅支援HTTP協議。關於如何設定警示回調,請參見使用閾值警示回調。
通道沉默周期
警示發生後未恢複正常,間隔多久重複發送一次警示通知。取值:5分鐘、15分鐘、30分鐘、60分鐘、3小時、6小時、12小時和24小時。
某監控指標達到警示閾值時發送警示,如果監控指標在通道沉默周期內持續超過警示閾值,在通道沉默周期內不會重複發送警示通知;如果監控指標在通道沉默周期後仍未恢複正常,則CloudMonitor再次發送警示通知。
生效時間
警示規則的生效時間。警示規則只在生效時間內發送警示通知,非生效時間內產生的警示只記錄警示歷史。
Log Service
如果您開啟Log Service開關,當警示發生時,會將警示資訊發送至Log Service的日誌庫。您需要設定Log Service的地區、ProjectName和Logstore。
關於如何建立Project和Logstore,請參見快速入門。
單擊確定。
單擊目標任務對應操作列的。
您可以在監控圖表中查看監控詳情。