全部產品
Search
文件中心

Application Real-Time Monitoring Service:使用容器監控 Pro 版

更新時間:Jun 19, 2025

可觀測監控 Prometheus 版提供了 Prometheus 託管服務和容器監控服務。容器監控服務產生容器監控費用,容器監控費用包括監控叢集規模費用和 Prometheus 執行個體費用。容器監控服務分為2個版本,容器監控基礎版和容器監控 Pro 版。本文介紹了容器監控 Pro 版使用操作、計費說明、功能說明、支援大盤、預設警示規則等。

支援開啟容器監控 Pro 版的叢集類型

  • ACK託管叢集Pro版

  • ACK靈駿叢集

  • ACK專有版叢集

前提條件

容器監控 Pro 版服務依賴可觀測監控 Prometheus 版,需要先開通可觀測監控 Prometheus 版(按寫入量計費開通連結,按上報量計費開通串連),再開通容器監控 Pro 版

容器監控 Pro 版計費說明

計費項目

計費說明

計費方式

計費周期

監控叢集規模費用

根據容器叢集節點(Node)規模換算 OCU 用量,每10個叢集節點換算為1個 OCU。

說明

OCU:可觀測資源額度(Observability Capacity Unit)是阿里雲雲原生可觀測推出的新版計費單位,可根據每小時資源使用方式自動統計 OCU 用量,OCU的定價為0.023美元/個

隨用隨付:日容器叢集規模費用=每小時 OCU 個數累加求和 * OCU 單價

說明

每小時 OCU 個數 = 當前計費周期內節點最大值除以10 後向上取整

計費周期為每小時,可觀測監控 Prometheus 版會在00:00後統計前一天每小時的叢集節點數最大值,然後按計費規則計算每小時 OCU 個數,通過累計每小時 OCU 個數計算前一天的總 OCU 量,乘以 OCU 單價,按天出容器叢集規模監控費用。

Prometheus 執行個體費用

請參見Prometheus 執行個體計費

如何使用容器監控 Pro 版

方式一:接入時選擇容器監控 Pro 版

  1. 接入中心頁面,選擇容器叢集監控

  2. 容器叢集監控面板,選擇需要接入的Container Service叢集,然後選擇版本為容器監控Pro版,然後單擊確定63

方式二:基礎版升級為容器監控 Pro 版

重要

升級為容器監控 Pro 版後不支援降級至容器監控基礎版。

  1. 接入管理頁面,選擇已接入環境 > 容器環境

  2. 單擊待升級的容器監控操作列下的升級。在對話方塊中,單擊確認62e

基礎版與 Pro 版區別

類別

基礎版

Pro 版

容器叢集基礎指標儲存周期

7天

90天

Prometheus採集器

使用者叢集內部署 Agent(預設單副本佔用叢集資源3 Core,4 GB),需自行管理。

提供託管採集 Agent,使用者不再承擔 Agent 的資源成本,提供生產級SLA 99.95%。

監控大盤

內建基礎的監控大盤。

內建豐富的監控大盤。

容器監控Pro版支援大盤

類型

大盤名稱

監控概覽

叢集監控概覽

叢集 Namespace 大盤

叢集核心組件

ACK Pro API server

ACK Pro ETCD

ACK Pro Scheduler

ACK Pro Cloud Controller Manager

ACK Pro Kube Controller Manager

節點監控

節點池概覽

叢集節點監控詳情

應用監控

無狀態應用監控

有狀態應用監控

守護進程集應用監控

叢集 Pod 監控

網路監控

CoreDNS 組件監控

叢集 Ingress 流量監控

儲存監控

CSI 儲存群組件監控-叢集維度

CSI 儲存群組件監控-節點維度

Pod IO Monitoring (Pod Level)

Frontend Storage IO Monitoring (Cluster Level)

GPU 監控

叢集 GPU 監控-叢集維度

叢集 GPU 監控-節點維度

叢集 GPU 監控-應用 Pod 維度

成本分析/資源最佳化

資源畫像

其他

Backend Storage IO Monitoring (Cluster Level)

k8s-reclaimed-resource

叢集 Prometheus 自身監控

Virtual Node(ECI) Overview

預設警示規則

警示規則名稱/ID

警示分組

模板

節點 CPU 使用率大於75%

節點

節點 {{ $labels.instance }} CPU 使用率大於 75%,當前 CPU 使用率 {{ printf "%.2f" $value }}%

節點 CPU 使用率大於85%

節點

節點 {{ $labels.instance }} CPU 使用率大於 85%,當前 CPU 使用率 {{ printf "%.2f" $value }}%

節點記憶體使用量率大於75%

節點

節點 {{ $labels.instance }} 記憶體使用量率大於 75%,當前記憶體使用量率 {{ printf "%.2f" $value }}%

節點記憶體使用量率大於85%

節點

節點 {{ $labels.instance }} 記憶體使用量率大於 85%,當前記憶體使用量率 {{ printf "%.2f" $value }}%

節點狀態異常

節點

節點 {{$labels.node}} 處於不可用狀態超過 10 分鐘

磁碟使用率大於95%

節點

節點 {{ $labels.instance }} 磁碟 {{ $labels.device }} 使用率超過 95%,當前磁碟使用率 {{ printf "%.2f" $value }}%

Deployment Pod 可用率小於50%

工作負載

命名空間: {{$labels.namespace}} / Deployment: {{$labels.deployment}} Pod 可用率小於 50%, 當前不可用 Pod 數 {{ $value }}

Job 執行失敗

工作負載

命名空間: {{$labels.namespace}}/Job: {{$labels.job_name}} 執行失敗

Pod 啟動逾時失敗

工作負載

命名空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}}超過15分鐘未啟動成功,等待原因 {{$labels.reason}}

Pod 狀態異常

工作負載

命名空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}} 處於{{$labels.phase}}狀態持續超過10分鐘

Pod 頻繁重啟

工作負載

命名空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}} {{$labels.metrics_params_time}}分鐘內重啟超過{{ $labels.metrics_params_value}}次,當前重啟 {{ $value }}次

容器 CPU 使用率超過85%

工作負載

命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU 使用率大於 85%, 當前值{{ printf "%.2f" $value }}%

容器 CPU 使用率超過75%

工作負載

命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU使用率大於 75%, 當前值{{ printf "%.2f" $value }}%

容器記憶體使用量率超過75%

工作負載

命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 記憶體使用量率大於 75%, 當前值{{ printf "%.2f" $value }}%

容器記憶體使用量率超過85%

工作負載

命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 記憶體使用量率大於 85%, 當前值{{ printf "%.2f" $value }}%