全部產品
Search
文件中心

Cloud Monitor:版本說明

更新時間:Dec 18, 2025

本文為您介紹CloudMonitor外掛程式的版本發布資訊。

4.0.0.1

分類

說明

發布時間

2025-10-17

新特性

  1. GPU:

    • 適配:nvidia在580+時,power_draw改為了instant_power_draw,導致該指標無資料。

  2. Plugable上線。允許任務在獨立的進程中運行,以提升外掛程式整體穩定性,以及對資源進行精細化分配。

  3. 3.5.11+ 訪問https時,都支援sni。

最佳化

  1. Windows下啟動即佔用150M+記憶體,目前已最佳化至啟動時記憶體10M-。(最佳化stacktrace,該庫會導致應用記憶體佔用增加1M)。

  2. PowerShell安裝指令碼最佳化,修複非阿里雲ECS安裝時,恢複agent.properties時產生的Warning。

修複問題

  1. 修複PdhOpenQuerywin32失敗時,agent無法啟動的問題。

  2. alinux4上沒有/var/run,此時需替換為/var。

4.0.0

分類

說明

發布時間

2025-09-23

新特性

  1. GPU:

    • 新增Amd GPU。使用amd-smi採集指標。由於amd驅動包中並未內建該工具,需使用者自行安裝。

    • 新增支援 瀚博GPU 。

    • Nvidia GPU當驅動版本>=535時,不再調用-pm 1參數(此時調用,GPU可能會有非預期的行為)。

  2. 支援NVME硬碟序號擷取。

  3. 增加SPL結構化日誌支援。

  4. 新增指標:

    • sys_fs (only for linux),位於namespace acs/host下。

  5. 新增支援4個Region:

    • 墨西哥(na-south-1)

    • 美國亞特蘭大(us-southeast-1)

    • 烏蘭察布專屬雲HDG(cn-wulanchabu-acdr-1)

    • 烏蘭察布通用行業雲(cn-wulanchabu-gic-1)

  6. 安裝指令碼升級到1.16:

    • 安裝時保留以前的配置(agent.properties、agent.json和accesskey.properties),避免重裝或升級後配置丟失。

    • 無需升級(版本號碼相同)時,退出安裝前,刪除下載的安裝包。

    • 無影雲手機預設不安裝Argus。除非攜帶ENABLE_WUYING=True變數。

    • 支援主權雲。

    • 支援僅加固模式。

最佳化

  1. argusagent_service中增加製造商資訊,以方便使用者側進行白名單管控。

  2. Linux檔案系統監控,當不存在/etc/mtab時,嘗試讀取/proc/mounts。

  3. 安全強化,支援ECS MetaServer的僅加固模式。

  4. 提升ping的穩定性。

  5. ping目標如果是網域名稱,則每次ping任務發起時,重新擷取一下IP地址,以防『舊』地址到期,從而導致ping結果失准。

  6. Windows自監控,開啟檔案數預設置為999,999。該指標在Windows下波動範圍太寬,很難給出一個合理閾值。

  7. 訪問MetaServer時,啟用NoProxy模式。

  8. acs_host/system.process.agent資料中增加兩個欄位:main_ip和host_name。用於在instanceId衝突(meta server出錯)的情況下,將二者區別開來,以方便使用者快速定位到異常的機器。

修複問題

  1. nvidia GPU版本號碼>=535時,需要去掉-pm 1調用。

  2. 啟動時停留在starting...,被docker ps命令阻塞。解決:使用Lazy模式,繞開啟動時對Pouch、Docker環境的探測,改為需要時再探測。這樣一來雖然仍有可能被阻塞(如日誌採集),但不會影響基礎指標的採集。

  3. 組進程監控上報的keyword全部轉成了小寫。

  4. 修複一處Windows下記憶體訪問違例的問題。

  5. 昇騰GPU支援新的輸出格式 。

  6. telnet支援源連接埠和雙向探測 。

  7. 個別Linux發行版下使用std::ifstream讀取不存在的檔案時,會產生SIGABRT,導致agent異常終止。

重要

從本版本4.0.0開始不再支援Linux 32。

3.5.12

分類

說明

發布時間

2024-10-09

新特性

  • 新增region支援:

    • 杭州專屬雲KS01。

    • 成都螞蟻雲(cn-chengdu-ant)。

  • 刪除region: 孟買(ap-south-1)。

  • 任務調度由系統時鐘改為單調時鐘,避免系統時間調整造成計時的混亂。

  • 命令列增加:tool curl,對目標地址進行探測,並列印出互動過程。方便問題『就地』定位。

    /usr/local/cloudmonitor/bin/argusagent tool curl --help
    
    Usage: argusagent tool curl [options] url
    Allowed options:
      -h [ --help ]               Print this help message
      -X [ --request ] arg (=GET) Specifies a custom request method to use.
      --url arg                   Target url.
      -d [ --data ] arg           Only for POST, http bod.y
      -H [ --header ] arg         Extra header to use.
      -m [ --max-time ] arg (=30) Maximum time in seconds that you allow the whole operation to take.
      -x [ --proxy ] arg          Use the specified proxy, format: [protocol://]host[:port].
      --proxy-user arg            Specify the user name to use for proxy authentication.
      --proxy-pass arg            Specify the password to use for proxy authentication.
      --proxy-http2               Negotiate HTTP version 2 with an HTTPS proxy. The proxy might still only offer HTTP/1 and
                                  then curl sticks to using that version. This has no effect for any other kinds of
                                  proxies.
      --json arg                  Json object config, this will ignore all other options.
      --json-file arg             Json object config file, this will ignore all other options.
      --task-id arg               Detect once of http task with taskId
  • 命令列增加新參數(-e GetTopTasks),支援運行時動態查看Top20的任務的時間消耗。

    Linux

    # CoreOS下的路徑為/opt/cloudmonitor/bin/argusagent
    /usr/local/cloudmonitor/bin/argusagent -e GetTopTasks

    Windows

    "C:\Program Files\Alibaba\cloudmonitor\bin\argusagent.exe -e GetTopTasks
  • 心跳、上報指標時,日誌中增加代理資訊,避免使用者認為agent使用的公網。

  • 進程監控支援打標功能。

  • 自監控指標增加一項:連續2分鐘無基礎指標採集時,則自動重啟。

  • GPU: 支援昇騰(Ascend)、海光(Hygon)。(Only For Linux) 。

  • Agent安裝指令碼升級到1.13。

    • 對bash的依賴下探到sh,進一步提升了指令碼的適應能力,支援更大範圍的安裝運行(如Android)。

    • 手動安裝時支援使用者自訂代理。以前只支援通過自訂代理下載安裝指令碼。

    • 下載後自檢,當安裝包合法時,再卸載舊版本。避免wget包下載成功,實際下載失敗(空包)的情況。

    • 最佳化安裝過程中的日誌,使日誌更具可讀性、可定位性。

    • Windows下支援基於本地安裝包(-packageFile)的安裝(跳過下載安裝包的過程)。

    • 修複非阿里雲安裝時,使用代理時的一處bug。該bug表現為下載安裝包成功後,會再使用『非代理』重新下載一遍。

    • 支援無影雲手機(僅面向無影產品,非面向使用者)。

修複問題

  • 安裝時未以服務的方式呼起argusagent service。

  • 可用性監控不支援Multi Headers。

  • 修複Linux下『hostname -i』返回多個IP的問題。

  • Telnet通過API建立時,相容支援host和uri混用問題。

  • 修複非ECS模式下,位於bin目錄下的accesskey.properties無法被識別的問題。

  • Linux下當磁碟沒有序號時會不斷重複調用udevadm。

  • 修複使用https2做代理時不生效的問題。

  • ping任務在丟包率過大時,任務調度不均。三定時器演算法的時序假設不合理所致,已重構為事件(收到回包+逾時雙事件)觸發。

  • 可用性監控更新任務時,舊任務存在偶發的無法被清除的現象。

  • 解決可用性監控任務更新時偶發的SIGSEGV的問題。

  • 修複Windows下Perf資料異常或缺失時,擷取記憶體指標失敗。

  • 修複一處Windows下記憶體流失的bug。 CommandLineToArgvW返回的值使用GlobalFree進行記憶體釋放,應使用LocalFree。

3.5.11

分類

說明

發布時間

2024-03-25

新特性

  • Windows正式支援x64。

  • 支援IPv6。

  • 支援HTTP2。

  • 支援macOS和FreeBSD(基於sigar庫)。

  • 代理擴充為支援七種代理協議:HTTP、HTTPS、HTTPS/2、Socks4、Socks4A、Socks5和Socks5H。

  • 新增對GPU以下內容的支援:

    • 支援C:\Windows\System32\nvidia-smi.exe

    • 支援在外掛程式運行期間安裝GPU,即允許GPU後於外掛程式安裝。

    • 支援基於動態庫(libnvml)的GPU採集,使資料擷取更安全、更快速。

      說明

      需手動開啟動態庫(即nvidia.nvml.enabled=true),解決基於命令方式在某些系統下卡死的隱患。

  • 可用性探測的生效時間支援cron運算式。

  • Prometheus採集支援通過HTTP Header進行鑒權。

  • 新增對如下地區的支援:

    • cn-wuhan-lr:武漢本地區。

    • cn-qingdao-acdr-ut-1:青島海爾專屬雲。

  • 移除以下4個監控指標:

    • system.udp

    • system.task:系統進程數或線程數。

    • memory.swap:僅Linux的swap分區。

    • system.cpuCore:CPU各核指標。

修複問題

  • 解決Windows下進程監控Top5和進程記憶體超4GB時,只上報4GB監控資料的問題。

  • 解決網域名稱解析卡死的問題(某些系統下網域名稱解析超過20秒)。

  • 解決部分Prometheus指標解析失敗的問題。

  • 解決日誌採集佔用大量CPU的問題。

  • 解決可用性監控如果Ping失敗,下次不再繼續探測的問題。

  • 解決擷取主機序號時,可能含有分行符號的問題。

  • 解決Telnet同一任務多次探測,可能導致ArgusAgent崩潰的問題。

  • 解決Socks5支援不規範的問題。

  • 解決Windows下找不到wmic的問題。

  • 解決不支援std::locale(""),導致外掛程式啟動失敗的問題。

  • 修複了大量記憶體流失隱患。

  • 修複main函數退出時,由localTimeCache失效造成的SIGSEGV問題。

    說明

    正常退出時會產生core dump檔案。

效能最佳化

  • 穩定性最佳化。系統進程數超過5000個(可配置)時,不再繼續監控進程,避免佔用多地區的客戶資源。

  • 升級安裝外掛程式時,先自動下載安裝包,然後在安裝成功後自動刪除安裝包。

  • 提升JSON設定檔的相容性,支援:C風格的注釋、允許尾部逗號、允許非標UTF-8編碼。

  • 公用雲端日誌採集。解析JSON時,支援非JSON的前尾碼。

  • 磁碟採集計時由系統時鐘改為硬體時鐘,以防系統時鐘調整,造成計時錯誤。

  • 磁碟採集mount_point/dir_name是由dir_name所有掛載磁碟的目錄拼接起來的字串最長不超過2048位元組。

    說明

    可通過參數agent.resource.dirName.limit進行調整,預設為2048位元組。如小於1024位元組,則按1024位元組設定。

3.5.10

分類

說明

發布時間

2023-09-08

新特性

  • moduleTask.json支援禁用功能,避免您通過刪除來禁用某個功能。

  • 增加argusagent tool top工具,允許您從開啟檔案數-by fd、記憶體-by mem和CPU-by cpu三個維度進行topN-n N的排序並輸出。

  • 支援禁用GPU採集。

  • 支援外掛程式運行時動態GPU採集。

  • 支援外掛程式運行時動態改變CPU核心數。

  • 支援雲助手託管的非阿里雲主機。

說明

當外掛程式異常退出時,外掛程式會產生一個minidump。當進程下次啟動時,將minidump主動上報到CloudMonitor,供後台進行分析和錯誤修複,以提升外掛程式穩定性。

修複問題

  • 修複特定時區上報資料失敗問題。

  • 修複進程Top5開啟檔案數異常問題。

  • 修複進程ID值超過100萬時上報資料存在的精度損失問題。

  • 修複Windows下部分存量使用者的主機上安裝外掛程式後,無法啟動argusagent或缺失指定動態庫的問題。

  • 修複Windows下讀取設定檔CRLF的問題。

  • 修複採集進程數時,第一次會跳過導致進程數為0的問題。

效能最佳化

  • 進程監控效能最佳化,降低外掛程式自殺頻率。

  • 提升外掛程式在Windows作業系統下的安裝成功率。

  • 資源超限時,收集佔用(例如:CPU)Top10的資源,同時枚舉所有線程的調用棧,以便於對外掛程式的資源佔用進行分析。

3.5.8

分類

說明

發布時間

2022-06-30

新特性

  • 檔案下發並儲存功能。

  • 新增網路丟包、錯誤率和僵死進程個數。

  • 新增裝置使用率和Swap使用率。

修複問題

  • dir_name拼接長度縮減為512 Byte。

  • 在windows作業系統中,調用system模組冗餘調用GetUptime問題。

  • IphlpapiGetTcpTable記憶體流失問題。

  • 監控指標cpu.totalcpuPercent.combined修改為1-cpu.idle問題。

  • ping探測檢測資料發送時目標IP地址和接收時源IP地址是否相等問題,同時解決icmp序號碰撞問題。

  • 在windows作業系統中,argusagent服務路徑(註冊表中imagePath)有空格導致服務啟動失敗問題。

3.5.7

分類

說明

發布時間

2022-04-30

新特性

支援TCP指標。

修複問題

  • 磁碟目錄拼接過程中,導致的上報資料過大的問題。

  • 國際站代理不輪詢的問題。

  • win32更改.py檔案名稱關聯的問題。

3.5.5

分類

說明

發布時間

2021-12-30

新特性

支援日誌採集。

修複問題

3.5.4

分類

說明

發布時間

2021-12-16

新特性

  • Windows系統的進程採集支援中文進程名。

  • Windows系統支援中文使用者名稱。

修複問題

  • Container Service內偶現CPU核心數採集不準確問題。

  • Windows系統IP位址解析錯誤問題。

  • 當進程採集線程數時,偶現CloudMonitor外掛程式退出問題。

  • 可用性探測中ping未正確生效問題。

  • 可用性探測的調度間隔偶現大於配置的時間間隔問題。

3.5.3

分類

說明

發布時間

2021-09-10

新特性

  • 支援Exporter採集資料。

  • HTTP可用性探測任務支援對HTTPS協議的重新導向請求。

  • HTTP可用性探測任務支援更多SSL Cipher。

  • HTTP可用性探測任務預設與curl工具的表現相同,且在header中增加了user_agent等。

修複問題

  • 解決TCP串連數相關指標有IPv6串連的主機上偶發的計算錯誤問題。

  • 實現磁碟使用率精度由整數位到小數位。

  • 解決進程採集cred指標時,偶現的外掛程式停用問題。

3.5.2

分類

說明

發布時間

2021-06-30

新特性

  • 可用性監控任務可調整監控頻率。

  • 可用性監控易用性最佳化,例如:本地日誌更加全面和規範。

  • 增加Uptime指標,用於查看系統從上次啟動到當前的已耗用時間。

修複問題

解決CloudMonitor外掛程式Windows版本無動態連結程式庫等問題。

3.4.10

分類

說明

發布時間

2021-03-11

新特性

修複問題

解決CloudMonitor中非阿里雲主機接入後讀取AccessKey路徑錯誤的問題。

3.4.9

分類

說明

發布時間

2021-01-05

新特性

支援Socks5代理。

修複問題

解決非阿里雲主機的作業系統Windows Server 2012及以下版本缺少某些動態連結程式庫的問題。

3.4.8

分類

說明

發布時間

2020-11-17

新特性

修複問題

解決可用性監控無法正確解析URL的問題。

3.4.7

分類

說明

發布時間

2020-07-27

新特性

  • 支援指標:磁碟I/O、CPU單核。

  • 資源佔用更少:重構CloudMonitor外掛程式的實現方式,監控指標的採集對硬體資源的佔用更少,對系統的負載影響更小。

  • 引入保護機制:自我保護機制。當系統負載較重或其他原因導致CloudMonitor外掛程式的系統資源佔用超過限制時,外掛程式會自動結束。

修複問題

解決Go版本的CloudMonitor外掛程式自動修改系統時間等問題。

早期版本

CloudMonitor外掛程式的早期版本說明,請參見早期版本說明