metrik komponen etcd dan dasbor - Container Service for Kubernetes

Gunakan metrik etcd dan panel Dasbor untuk mendeteksi serta mendiagnosis masalah pada lapisan kontrol kluster ACK.

Sebelum memulai

Akses

Lihat Tampilan dasbor pemantauan untuk komponen lapisan kontrol.

Daftar metrik

Tabel berikut mencantumkan metrik komponen etcd.

Metric	Type	Description
cpu_utilization_core	Gauge	Penggunaan CPU, dalam satuan core.
etcd_server_has_leader	Gauge	Dalam algoritma konsensus Raft, satu anggota etcd dipilih sebagai leader. Leader mengirim heartbeat berkala untuk menjaga stabilitas kluster. Menunjukkan apakah terdapat leader di antara anggota etcd. 1: Terdapat leader. 0: Tidak ada leader.
etcd_server_is_leader	Gauge	Menunjukkan apakah anggota etcd ini merupakan leader. 1: Ya. 0: Tidak.
etcd_server_leader_changes_seen_total	Counter	Total perubahan leader yang diamati oleh anggota etcd ini.
etcd_mvcc_db_total_size_in_bytes	Gauge	Ukuran total database anggota etcd.
etcd_mvcc_db_total_size_in_use_in_bytes	Gauge	Ukuran yang digunakan dari database anggota etcd.
etcd_disk_backend_commit_duration_seconds_bucket	Histogram	Waktu yang dibutuhkan untuk menulis perubahan data ke penyimpanan backend dan melakukan commit. Batas bucket adalah `[0.001, 0.002, 0.004, 0.008, 0.016, 0.032, 0.064, 0.128, 0.256, 0.512, 1.024, 2.048, 4.096, 8.192]`.
etcd_debugging_mvcc_keys_total	Gauge	Jumlah total kunci yang disimpan di etcd.
etcd_server_proposals_committed_total	Gauge	Dalam Raft, perubahan state diajukan sebagai proposal. Total proposal yang telah dikomit ke log Raft.
etcd_server_proposals_applied_total	Gauge	Total proposal yang telah diterapkan.
etcd_server_proposals_pending	Gauge	Jumlah proposal yang tertunda.
etcd_server_proposals_failed_total	Counter	Jumlah proposal yang gagal.
memory_utilization_byte	Gauge	Penggunaan memori, dalam satuan byte.
resource_utilization_level	Gauge	Tingkat pemanfaatan sumber daya. resource: Jenis sumber daya. Nilai yang valid: `cpu` dan `memory`. utilization_level: Tingkat pemanfaatan. Nilai yang valid: `high` (pemanfaatan ≥ 80%) dan `normal` (pemanfaatan < 80%). container: Kontainer target. Nilai yang valid: `kube-apiserver`, `kube-scheduler`, `kube-controller-manager`, `cloud-controller-manager`, dan `etcd`.

Catatan

Metrik pemanfaatan sumber daya berikut tidak lagi digunakan. Hapus semua alert atau aturan pemantauan yang bergantung pada metrik ini:

cpu_utilization_ratio: Pemanfaatan CPU.
memory_utilization_ratio: Pemanfaatan memori.

Panduan dasbor

Dasbor menggunakan kueri PromQL untuk memvisualisasikan metrik etcd.

Ikhtisar dasbor

Deskripsi panel

Parameter	PromQL	Description
etcd liveness status	etcd_server_has_leader `etcd_server_is_leader == 1`	Menunjukkan apakah anggota etcd aktif. Nilai 3 bersifat normal. Menunjukkan anggota mana yang menjadi leader. Kluster yang sehat harus memiliki satu leader.
Leader changes in the last day	`changes(etcd_server_leader_changes_seen_total{job="etcd"}[1d])`	Jumlah perubahan leader etcd selama sehari terakhir.
Memory usage	`memory_utilization_byte{container="etcd"}`	Penggunaan memori, dalam satuan byte.
CPU usage	`cpu_utilization_core{container="etcd"}*1000`	Penggunaan CPU, dalam satuan millicore.
Memory usage level	`resource_utilization_level{resource="memory",container="etcd",utilization_level="high"}` `resource_utilization_level{resource="memory",container="etcd",utilization_level="normal"}`	Jika `resource_utilization_level{utilization_level="high",...}` bernilai 1, tingkat pemanfaatan sumber daya kontainer ≥ 80%. Jika `resource_utilization_level{utilization_level="normal",...}` bernilai 1, tingkat pemanfaatan sumber daya kontainer < 80%.
CPU usage level	`resource_utilization_level{resource="cpu",container="etcd",utilization_level="high"}` `resource_utilization_level{resource="cpu",container="etcd",utilization_level="normal"}`
Disk size	etcd_mvcc_db_total_size_in_bytes	Ukuran total database backend etcd.
Disk size	etcd_mvcc_db_total_size_in_use_in_bytes	Ukuran yang digunakan dari database backend etcd.
Total key-value pairs	etcd_debugging_mvcc_keys_total	Jumlah total pasangan kunci-nilai dalam kluster etcd.
Backend commit latency	`histogram_quantile(0.99, sum(rate(etcd_disk_backend_commit_duration_seconds_bucket{job="etcd"}[5m])) by (instance, le))`	Waktu yang dibutuhkan untuk menyimpan proposal secara persisten di database etcd.
Raft proposal status	`rate(etcd_server_proposals_failed_total{job="etcd"}[1m])`	Laju proposal Raft yang gagal per menit.
	`etcd_server_proposals_pending{job="etcd"}`	Jumlah total proposal Raft yang tertunda.
	`etcd_server_proposals_committed_total{job="etcd"} - etcd_server_proposals_applied_total{job="etcd"}`	Jumlah proposal yang telah dikomit tetapi belum diterapkan.

Anomali metrik umum

etcd liveness status

Kasus normal

Kasus abnormal

Description

Ketiga anggota etcd memiliki leader, dan salah satunya harus menjadi leader: sum(etcd_server_has_leader)=3, dan hanya satu anggota yang memenuhi member etcd_server_is_leader == 1.

Satu anggota mengalami anomali.

member etcd_server_has_leader!=1 yang bersangkutan tidak memengaruhi layanan etcd secara keseluruhan.

Lebih dari satu anggota mengalami anomali.

Beberapa anggota melaporkan member etcd_server_has_leader!=1, sehingga kluster etcd tidak dapat memberikan layanan.

Periksa juga apakah ada anggota yang memiliki etcd_server_is_leader == 1. Jika tidak ada, etcd tidak memiliki leader dan tidak dapat memberikan layanan.

Backend commit latency

Kasus normal	Kasus abnormal	Description
Latensi biasanya berkisar antara beberapa hingga puluhan milidetik.	Latensi berkelanjutan mencapai ratusan milidetik atau lebih.	Menunjukkan adanya masalah I/O disk.

Anomali proposal Raft

Kasus normal	Kasus abnormal	Description
Laju proposal Raft yang gagal adalah 0.	Laju proposal Raft yang gagal lebih besar dari 0.	Beberapa proposal gagal dikomit. Selidiki jika laju kegagalannya tinggi.
Jumlah total proposal Raft yang tertunda adalah 0.	Jumlah proposal Raft yang tertunda tidak nol dan bertahan lama.	Adanya antrian proposal Raft, sering kali disebabkan oleh kecepatan penerapan (apply) yang lambat. Korelasikan dengan latensi commit backend.
Selisih antara proposal Raft yang dikomit dan yang diterapkan adalah 0.	Selisih antara proposal yang dikomit dan yang diterapkan lebih besar dari 0.	Dapat mengindikasikan volume permintaan klien yang berlebihan pada etcd. Jika nilai ini melebihi 5000, etcd akan menolak permintaan dengan respons `too many requests` hingga proposal yang tertunda diproses.

Referensi

Lihat Metrik pemantauan untuk kube-apiserver, Metrik pemantauan untuk kube-scheduler, Metrik pemantauan untuk kube-controller-manager, dan Metrik pemantauan untuk cloud-controller-manager.