全部產品
Search
文件中心

Cloud Monitor:主機可觀測

更新時間:Sep 30, 2025

Managed Service for Prometheus支援通過node-exporter採集ECS Linux或Windows主機作業系統相關指標,也支援process-exporter採集進程相關監控資料,另外基於textfile的方式也支援採集使用者寫到檔案中自訂監控指標。開箱即用且全面的 ECS 觀測大盤和警示規則,雲端式監控無代理指標、開源Exporter代理指標、主機審計日誌、主機事件等資料。

前提條件

主機監控優勢

阿里雲Prometheus主機監控針對阿里雲ECS伺服器提供了一個高效且易於管理的監控方案,這一方案的特點是順應了現代雲端運算環境中對於可觀測性和自動化管理的需求。

阿里雲Prometheus提供的主機監控,具備阿里雲ECS伺服器、自建IDC內伺服器、雲廠商伺服器全類型主機接入能力。針對阿里雲ECS伺服器可根據配置自動安裝各類開源Exporter,各類Exporter採集配置自動產生。託管Prometheus Agent實現自動採集,採集資料統一儲存、統一展示、統一警示。非阿里雲主機不具備自動服務發現的能力,所以需要依賴使用者在接入時手動安裝阿里雲採集探針,主動將監控資料上報到阿里雲Prometheus儲存。

優勢

說明

主機秒級發現

  • 適應性:自動服務發現機制允許監控系統快速適應雲資源的動態變化,確保所有運行中的執行個體都被及時監控。

  • 多樣性:支援多種服務發現類型,滿足不同情境下的監控需求,例如支援Kubernetes叢集內服務的自動探索,以及其他類型雲端服務的整合。

探針秒級安裝

  • 隨插即用:自動化安裝Exporter,使得新啟動的計算節點可以立即被監控系統識別並收集其度量,無需人為幹預。

  • 全面監控:提供多種Exporter,包括Node-exporter、Process-exporter、GPU-exporter和中介軟體Exporter,進行全方位的效能追蹤。

指標秒級採集

  • 配置簡化:自動化配置產生減輕了營運人員手動設定的負擔,確保所有節點和服務的指標都能被準確無誤地採集。

  • 靈活性:配置可根據現有的監控需求作出相應調整,帶來靈活性和可擴充性,應對複雜多變的監控環境。

主機從建立到納入監控系統,整體可以在30 ~ 60s以內完成。主機所有指標資料可以支援1 ~ 60s時間間隔的靈活調整。整體實現主機全方位秒級監控能力。

探針Serverless化

  • 集中管理:通過託管的Prometheus Agent統一管理資料擷取,簡化監控架構,提高營運效率,且使用者對資料擷取鏈路無感知。

  • 高效能:因為抽象了監控演算法的複雜性,使用Agent可以減少誤配的可能性,提高監控資料的準確性和時效性。

智能指標標籤

  • 自動摘取阿里雲ECS主機的標籤、資源群組、地區等資訊,並自動注入到整個指標體系中,方便快捷。

  • 可自訂添加額外標籤,進一步提升標籤體系的靈活性,例如自訂業務標識、環境標識、資料來源標識等。

超大規模資料擷取與儲存

  • 支援超大規模主機接入,採用獨享與共用並存託管模式,依據主機接入規模動態調整託管資源,保證接入的時效性和準確性。

  • 儲存可支援超大規模指標儲存,並具備高效能的查詢和展示能力。

提供完善的上下遊監控資料

  • 為了實現一個系統級的、全面的可觀測性,單一實體監控是不夠的,需要整合不同維度監控資料並構建全鏈路觀測,確保監控系統能夠反映出整個應用和服務生態的健康和效能。

  • 涵蓋從底層硬體到應用程式層再到外部服務(例如RDMA網路、OSS儲存、Redis等)的綜合監控策略,不僅包括對主機和網路的監控,還包括對依賴服務的監控。

進程級監控

  • 進程級監控可以對作業系統啟動並執行進程進行跟蹤和分析,以瞭解進程的效能和資源利用情況。這是實現系統級監控的關鍵區段,旨在提供運行在伺服器上的應用程式的健康和表現的透視圖。

  • 進程級監控除了會捕獲進程的CPU使用率、進程的記憶體使用量量、進程的磁碟讀寫情況等關鍵效能指標,還會收集進程的啟動時間、開啟的檔案的控制代碼數、進程下調起的線程數量等。提供接近於即時的監控能力,做到即時反饋,讓系統管理員能夠及時識別和解決問題。

  • 進程級監控為管理員提供更加豐富的故障診斷手段,協助識別導致系統效能下降或故障的進程,例如可能是某些進程記憶體泄露、高CPU使用率或其他資源爭用等。

預設提供Grafana專家級大盤

  • 預設整合經過阿里雲專家經驗沉澱的Grafana大盤,包括ECS Overview總覽大盤、ECS Detail詳細大盤、GPU Overview總覽大盤、GPU Detail詳細大盤、Node Process進程級大盤。

  • 真正做到一鍵接入主機可觀測,開箱即用。

步驟一:接入阿里雲伺服器 ECS

  1. 登入CloudMonitor2.0控制台,選擇目標工作空間,在左側導覽列單擊接入中心

  2. 在接入中心頁面,單擊阿里雲伺服器 ECS,參考下表完成配置,然後單擊確定

    配置項

    說明

    地區

    當前Workspace的地區,不支援修改。

    策略名稱稱

    • 預設:系統自動產生的策略名稱稱。

    • 自訂:單擊自訂,您也可以自訂策略名稱稱。

    範圍

    • 全部實體:批量接入目前範圍下的所有實體,包括現有的和未來新增的實體。

    • 按資源群組:批量接入該資源群組中的所有實體。

    • 按標籤:通過標籤篩選需要接入的實體。

    • 手動選擇:手動選擇需要接入的實體。

    說明
    • 由於Prometheus依賴阿里雲資源中心擷取雲產品當前登入賬戶的VPC、ECS等資料進行服務發現,如果沒有開通資源中心,接入流程會引導您先開通資源中心,具體操作請參見開通資源中心

    • 開通資源中心是非同步作業,重新檢測後如果仍然是未開通狀態,可以等待10~20秒左右再單擊重新檢測

  3. 參考下表進行接入配置,然後單擊確定

    • 阿里雲 ECS 監控

      配置項

      說明

      標籤鍵(Tag Key)

      指定ECS標籤的Key(o11y.aliyun.dev/*的標籤key會預設自動提取),會自動將標籤的索引值對注入到Prometheus指標中。

      採集雲端服務指標

      啟用後將採集CloudMonitor的 ECS 指標(無代理指標)。

      採集節點指標(Linux)

      針對 Linux 主機安裝 Node-exporter 採集節點指標(代理指標)。

      Node-Exporter 服務連接埠

      Node-Exporter 的服務連接埠。

      採集 TextFile

      採集指定檔案中的Prometheus指標。

      採集進程指標(Linux)

      針對 Linux 主機安裝 Process-exporter 採集進程指標(代理指標)。

      Process-Exporter 服務連接埠

      Process-Exporter 的服務連接埠。

      採集 Windows 指標(Windows)

      針對 Windows 主機安裝 Windows-exporter 採集節點指標(代理指標)。

      Windows 服務連接埠

      Windows 的服務連接埠。

      自動設定安全性群組

      為了確保接入成功,針對目標 ECS 主機會進行安全性群組檢查。開啟該功能後,如果檢查不通過會自動添加安全性群組規則。

      Metric 採集間隔(單位/秒)

      採集資料的時間間隔,預設為15秒。

    • 阿里雲 ECS 審計日誌

      配置項

      說明

      開啟採集系統日誌

      是否採集主機系統日誌。

      系統日誌LogStore名稱

      Project預設自動建立,名稱為:workspace-<WorkspaceName>-<RegionId>。

      資料儲存時間

      資料的儲存時間,單位為天。取值範圍為1~3650。如果配置為3650,表示永久儲存。當日誌儲存時間達到您所設定的儲存時間後,日誌將被刪除。

      Shard數量

      每個Shard支援5 MB/s的資料寫入和10 MB/s的資料讀取,當資料流量超過Shard服務能力時,建議您分裂Shard,當資料流量達不到Shard的最大讀寫能力時,建議您合并Shard以節省費用。

    • 阿里雲 ECS 事件

      配置項

      說明

      開啟ECS系統事件

      開啟ECS系統事件後,在ECS洞察頁面可以看到ECS的系統事件,否則資料為空白。

    說明

    接入成功後,如果監控大盤沒有資料,需要確認ECS的安全性群組在入方向需要允許100.64.0.0/10和192.168.0.0/18網段對9100和9256的存取權限,查看ECS的安全性群組詳情,請參見查詢安全性群組。9100是node-exporter的預設連接埠,9256是process-exporter的預設連接埠,具體連接埠需要根據您自身配置進行調整。

步驟二:查看監控大盤

  1. 登入CloudMonitor2.0控制台,選擇目標工作空間,在左側導覽列選擇應用中心 > 營運監控 > Prometheus服務

  2. 單擊目標執行個體,然後在開啟頁面的左側單擊大盤列表,即可查看大盤列表。