kube-controller-manager のメトリックとダッシュボード - Container Service for Kubernetes

モニタリングダッシュボードを使用して、kube-controller-manager のワークキュー、リソース、および Kube API のメトリックを確認します。

基本概念

ワークキュー

ワークキュー関連用語

kube-controller-manager によって管理されるコントローラー（たとえば、Node Controller、StatefulSet Controller、および Deployment Controller）は、リソースの更新を処理するために Workqueue を使用します。Pod の作成、更新、または削除などのイベントが発生すると、コントローラーはリソース識別子（たとえば、Pod 名と名前空間）を Workqueue に格納します。ワークループがこれらの識別子を取得して処理します。

事前準備

ダッシュボードへのアクセス

詳細については、「クラスターのコントロールプレーンコンポーネント向けモニタリングダッシュボードの表示」をご参照ください。

メトリックリスト

次の表は、kube-controller-manager のメトリックを示しています。

メトリクス	タイプ	説明
workqueue_adds_total	Counter	Workqueue に追加されたイベントの総数。
workqueue_depth	Gauge	現在の Workqueue の深さです。この値が長時間にわたり高い状態が続く場合、コントローラーがタスクを十分な速度で処理できず、バックログが発生していることを示します。
workqueue_queue_duration_seconds_bucket	ヒストグラム	アイテムが Workqueue 内で待機する時間。バケットのしきい値：{10^-8、10^-7、10^-6、10^-5、10^-4、10^-3、10^-2、10^-1、1、10}。単位：秒。
memory_utilization_byte	Gauge	メモリ使用量。単位：バイト。
cpu_utilization_core	Gauge	CPU 使用率。単位：コア。
resource_utilization_level	Gauge	リソース使用率レベル。 resource：リソースタイプ。有効な値は `cpu` および `memory` です。 utilization_level：使用率レベル。有効な値は `high`（使用率 ≥ 80%）および `normal`（使用率 < 80%）です。 container：対象コンテナ。有効な値は `kube-apiserver`、`kube-scheduler`、`kube-controller-manager`、`cloud-controller-manager`、および `etcd` です。
rest_client_requests_total	Counter	状態コード、メソッド、ホスト別に集計した HTTP リクエストの総数です。
rest_client_request_duration_seconds_bucket	Histogram	動詞および URL 別に集計した HTTP リクエストの遅延時間です。

説明

以下のリソース使用率メトリックは、すでに使用されていません。これらのメトリックに依存するアラートやモニタリングルールを削除してください。

cpu_utilization_ratio：CPU 使用率。
memory_utilization_ratio：メモリ使用率。

ダッシュボードの使用方法

ダッシュボード上でリクエストの分位数および PromQL サンプリング間隔を設定します。以下のセクションでは、各チャートとその PromQL クエリについて説明します。

ワークキュー

ダッシュボードビュー

チャート

名前	PromQL	説明
ワークキュー追加レート	sum(rate(workqueue_adds_total{job="ack-kube-controller-manager"}[$interval])) by (name)	Workqueue に追加されたイベントのレート。
ワークキューの深さ	sum(rate(workqueue_depth{job="ack-kube-controller-manager"}[$interval])) by (name)	Workqueue の深さの平均変化レート。
ワークキュー処理遅延	histogram_quantile($quantile, sum(rate(workqueue_queue_duration_seconds_bucket{job="ack-kube-controller-manager"}[5m])) by (name, le))	アイテムが Workqueue で待機する時間。

リソース

ダッシュボードビュー

イメージ

チャート

チャート名	PromQL	説明
メモリ使用率	memory_utilization_byte{container="kube-controller-manager"}	メモリ使用量。単位：バイト。
CPU 使用率	cpu_utilization_core{container="kube-controller-manager"}*1000	CPU 使用量。単位：ミリコア。
メモリリソース使用率レベル	resource_utilization_level{resource="memory",container="kube-controller-manager",utilization_level="high"} resource_utilization_level{resource="memory",container="kube-controller-manager",utilization_level="normal"}	`resource_utilization_level{utilization_level="high",...}` が 1 の場合、コンテナのリソース使用率は ≥ 80% です。 `resource_utilization_level{utilization_level="normal",...}` が 1 の場合、コンテナのリソース使用率は < 80% です。
CPU リソース使用率レベル	resource_utilization_level{resource="cpu",container="kube-controller-manager",utilization_level="high"} resource_utilization_level{resource="cpu",container="kube-controller-manager",utilization_level="normal"}

Kube API

ダッシュボードビュー

チャート

チャート名	PromQL	説明
Kube API リクエスト QPS	sum(rate(rest_client_requests_total{job="ack-kube-controller-manager",code=~"2.."}[$interval])) by (method,code) sum(rate(rest_client_requests_total{job="ack-kube-controller-manager",code=~"3.."}[$interval])) by (method,code) sum(rate(rest_client_requests_total{job="ack-kube-controller-manager",code=~"4.."}[$interval])) by (method,code) sum(rate(rest_client_requests_total{job="ack-kube-controller-manager",code=~"5.."}[$interval])) by (method,code)	kube-controller-manager から kube-apiserver への HTTP リクエストの QPS（メソッドおよび状態コード別）です。
Kube API リクエスト遅延	histogram_quantile($quantile, sum(rate(rest_client_request_duration_seconds_bucket{job="ack-kube-controller-manager"}[$interval])) by (verb,url,le))	kube-controller-manager から kube-apiserver への HTTP リクエストの遅延時間（動詞および URL 別）です。

参照

他のコントロールプレーンコンポーネントのメトリックおよびダッシュボードについては、「kube-apiserver コンポーネントのモニタリングメトリック」、「etcd コンポーネントのモニタリングメトリック」、「kube-scheduler コンポーネントのモニタリングメトリック」、および「cloud-controller-manager コンポーネントのモニタリングメトリック」をご参照ください。