容器監控Pro版功能計費與使用說明-應用即時監控服務-阿里雲

可觀測監控 Prometheus 版提供了 Prometheus 託管服務和容器監控服務。容器監控服務產生容器監控費用，容器監控費用包括監控叢集規模費用和 Prometheus 執行個體費用。容器監控服務分為2個版本，容器監控基礎版和容器監控 Pro 版。本文介紹了容器監控 Pro 版使用操作、計費說明、功能說明、支援大盤、預設警示規則等。

支援開啟容器監控 Pro 版的叢集類型

ACK託管叢集Pro版
ACK靈駿叢集
ACK專有版叢集

前提條件

容器監控 Pro 版服務依賴可觀測監控 Prometheus 版，需要先開通可觀測監控 Prometheus 版（按寫入量計費開通連結，按上報量計費開通串連），再開通容器監控 Pro 版。

容器監控 Pro 版計費說明

計費項目

計費說明

計費方式

計費周期

監控叢集規模費用

根據容器叢集節點（Node）規模換算 OCU 用量，每10個叢集節點換算為1個 OCU。

說明

OCU：可觀測資源額度（Observability Capacity Unit）是阿里雲雲原生可觀測推出的新版計費單位，可根據每小時資源使用方式自動統計 OCU 用量，OCU的定價為0.023美元/個。

隨用隨付：日容器叢集規模費用=每小時 OCU 個數累加求和 * OCU 單價

說明

每小時 OCU 個數 = 當前計費周期內節點最大值除以10 後向上取整

計費周期為每小時，可觀測監控 Prometheus 版會在00:00後統計前一天每小時的叢集節點數最大值，然後按計費規則計算每小時 OCU 個數，通過累計每小時 OCU 個數計算前一天的總 OCU 量，乘以 OCU 單價，按天出容器叢集規模監控費用。

Prometheus 執行個體費用

請參見Prometheus 執行個體計費。

如何使用容器監控 Pro 版

方式一：接入時選擇容器監控 Pro 版

在接入中心頁面，選擇容器叢集監控。
在容器叢集監控面板，選擇需要接入的Container Service叢集，然後選擇版本為容器監控Pro版，然後單擊確定。

方式二：基礎版升級為容器監控 Pro 版

重要

升級為容器監控 Pro 版後不支援降級至容器監控基礎版。

在接入管理頁面，選擇已接入環境 > 容器環境。
單擊待升級的容器監控操作列下的升級。在對話方塊中，單擊確認。

基礎版與 Pro 版區別

類別	基礎版	Pro 版
容器叢集基礎指標儲存周期	7天	90天
Prometheus採集器	使用者叢集內部署 Agent（預設單副本佔用叢集資源3 Core，4 GB），需自行管理。	提供託管採集 Agent，使用者不再承擔 Agent 的資源成本，提供生產級SLA 99.95%。
監控大盤	內建基礎的監控大盤。	內建豐富的監控大盤。

容器監控Pro版支援大盤

類型	大盤名稱
監控概覽	叢集監控概覽
監控概覽	叢集 Namespace 大盤
叢集核心組件	ACK Pro API server
	ACK Pro ETCD
	ACK Pro Scheduler
	ACK Pro Cloud Controller Manager
	ACK Pro Kube Controller Manager
節點監控	節點池概覽
節點監控	叢集節點監控詳情
應用監控	無狀態應用監控
	有狀態應用監控
	守護進程集應用監控
	叢集 Pod 監控
網路監控	CoreDNS 組件監控
網路監控	叢集 Ingress 流量監控
儲存監控	CSI 儲存群組件監控-叢集維度
	CSI 儲存群組件監控-節點維度
	Pod IO Monitoring (Pod Level)
	Frontend Storage IO Monitoring (Cluster Level)
GPU 監控	叢集 GPU 監控-叢集維度
	叢集 GPU 監控-節點維度
	叢集 GPU 監控-應用 Pod 維度
成本分析/資源最佳化	資源畫像
其他	Backend Storage IO Monitoring (Cluster Level)
	k8s-reclaimed-resource
	叢集 Prometheus 自身監控
	Virtual Node(ECI) Overview

預設警示規則

警示規則名稱/ID	警示分組	模板
節點 CPU 使用率大於75%	節點	節點 {{ $labels.instance }} CPU 使用率大於 75%，當前 CPU 使用率 {{ printf "%.2f" $value }}%
節點 CPU 使用率大於85%	節點	節點 {{ $labels.instance }} CPU 使用率大於 85%，當前 CPU 使用率 {{ printf "%.2f" $value }}%
節點記憶體使用量率大於75%	節點	節點 {{ $labels.instance }} 記憶體使用量率大於 75%，當前記憶體使用量率 {{ printf "%.2f" $value }}%
節點記憶體使用量率大於85%	節點	節點 {{ $labels.instance }} 記憶體使用量率大於 85%，當前記憶體使用量率 {{ printf "%.2f" $value }}%
節點狀態異常	節點	節點 {{$labels.node}} 處於不可用狀態超過 10 分鐘
磁碟使用率大於95%	節點	節點 {{ $labels.instance }} 磁碟 {{ $labels.device }} 使用率超過 95%，當前磁碟使用率 {{ printf "%.2f" $value }}%
Deployment Pod 可用率小於50%	工作負載	命名空間: {{$labels.namespace}} / Deployment: {{$labels.deployment}} Pod 可用率小於 50%, 當前不可用 Pod 數 {{ $value }}
Job 執行失敗	工作負載	命名空間: {{$labels.namespace}}/Job: {{$labels.job_name}} 執行失敗
Pod 啟動逾時失敗	工作負載	命名空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}}超過15分鐘未啟動成功，等待原因 {{$labels.reason}}
Pod 狀態異常	工作負載	命名空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}} 處於{{$labels.phase}}狀態持續超過10分鐘
Pod 頻繁重啟	工作負載	命名空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}} {{$labels.metrics_params_time}}分鐘內重啟超過{{ $labels.metrics_params_value}}次，當前重啟 {{ $value }}次
容器 CPU 使用率超過85%	工作負載	命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU 使用率大於 85%, 當前值{{ printf "%.2f" $value }}%
容器 CPU 使用率超過75%	工作負載	命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU使用率大於 75%, 當前值{{ printf "%.2f" $value }}%
容器記憶體使用量率超過75%	工作負載	命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 記憶體使用量率大於 75%, 當前值{{ printf "%.2f" $value }}%
容器記憶體使用量率超過85%	工作負載	命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 記憶體使用量率大於 85%, 當前值{{ printf "%.2f" $value }}%