Aktifkan dan gunakan ack-sysom-monitor untuk monitoring kontainer tingkat kernel-Container Service for Kubernetes-Alibaba Cloud

System Observer Monitoring (SysOM) adalah metode pemantauan kontainer pada tingkat kernel sistem operasi. Container Service for Kubernetes (ACK) memungkinkan Anda memantau kontainer pada tingkat kernel OS berdasarkan SysOM. Kemampuan ini membantu Anda men-deploy dan memigrasikan aplikasi berbasis kontainer serta memantau kontainer dengan lebih baik.

Prasyarat

Sebelum memulai, pastikan Anda telah:

Membuat kluster ACK yang dikelola atau kluster ACK Serverless yang dibuat setelah Oktober 2021 dengan versi Kubernetes 1.18.8 atau lebih baru. Untuk informasi selengkapnya, lihat Create an ACK managed cluster dan Create an ACK Serverless cluster. Untuk memperbarui kluster yang sudah ada, lihat Manually update ACK clusters.
Mengaktifkan Managed Service for Prometheus. Untuk informasi selengkapnya, lihat Enable Managed Service for Prometheus.

Data yang dikumpulkan oleh ack-sysom-monitor

ack-sysom-monitor adalah komponen SysOM yang menggunakan teknologi extended Berkeley Packet Filter (eBPF) untuk mengumpulkan metrik node dan kontainer serta meningkatkan metrik pada tingkat kernel. Selain metrik sistem standar, komponen ini menyediakan metrik tambahan yang mendukung pemantauan tingkat kernel untuk pod dan node, membantu Anda mengidentifikasi masalah umum seperti jitter sistem, penundaan, kebocoran resource, dan anomali memori pod.

Penagihan

Setelah ack-sysom-monitor diaktifkan, komponen terkait secara otomatis mengirim metrik pemantauan ke Managed Service for Prometheus. Metrik ini ditagih sebagai custom metrics.

Sebelum mengaktifkan fitur ini, baca Billing overview untuk memahami cara penagihan custom metrics. Biaya bervariasi berdasarkan ukuran kluster dan jumlah aplikasi yang berjalan. Untuk memantau dan mengontrol penggunaan resource, lihat View resource usage.

Aktifkan ack-sysom-monitor

Login ke ARMS console.
Pada panel navigasi kiri, klik Integration Center.
Pada bagian Infrastructure di halaman Integration Center, temukan dan klik SysOM System Observation.
Pada langkah Start Integration di panel SysOM System Observation, pilih kluster ACK yang akan diintegrasikan, lalu klik OK.

Lihat data pemantauan

Login ke ACK console. Pada panel navigasi kiri, klik Clusters.
Pada halaman Clusters, temukan kluster Anda dan klik namanya. Pada panel kiri, pilih Operations > Prometheus Monitoring.
Pada halaman Prometheus Monitoring, klik tab SysOM. ack-sysom-monitor mendukung dua tampilan pemantauan:
- Node kernel-level monitoring — Pada tab SysOM - Nodes, lihat metrik CPU, memori, penjadwalan, penyimpanan, dan jaringan untuk setiap node.
- Pod kernel-level monitoring — Pada tab SysOM - Pods, lihat metrik memori, CPU, jaringan, dan I/O untuk setiap pod secara real time.

Langkah berikutnya

Untuk menghentikan biaya yang timbul, uninstal komponen ack-sysom-monitor. Untuk informasi selengkapnya, lihat Manage components.

Metrik

Semua metrik yang disediakan oleh ack-sysom-monitor mengikuti Prometheus data model.

Semua jenis metrik yang tercantum di bawah ini adalah gauge.

Skenario diagnosis

Gunakan tabel berikut untuk menelusuri dari gejala ke metrik terkait.

Gejala	Metrik terkait
Throttling CPU atau penundaan penjadwalan	`sysom_proc_schedstat`, `sysom_cpu_dist`, `sysom_container_cpu_stat`, `sysom_container_cpu_cfsquota`
Beban tinggi atau terlalu banyak proses dalam status D	`sysom_proc_stat_counters`, `sysom_proc_loadavg`
Tekanan memori atau event OOM	`sysom_proc_vmstat`, `sysom_container_memory_gdrcm_latency`, `sysom_container_memory_cdrcm_latency`, `sysom_container_memory_cpt_latency`
Page cache menyebabkan jitter memori	`sysom_container_memory_filecache`
Kebocoran cgroup	`sysom_cgroups`
Latensi I/O disk atau masalah throughput	`sysom_proc_disks`, `sysom_container_blkio_stat`
Kehilangan paket jaringan atau retransmission	`sysom_proc_pkt_status`, `sysom_net_retrans_count`
RTT TCP tinggi atau anomali koneksi	`sysom_net_health_hist`, `sysom_net_health_count`, `sysom_net_tcp_count`
Kehabisan socket atau buffer	`sysom_sock_stat`

Metrik node

Metrik node mencakup CPU dan penjadwalan, memori, penyimpanan, jaringan, serta metrik sistem lainnya.

CPU dan penjadwalan

Metric	Type	Unit	Description
sysom_proc_cpu_total	gauge	%	Rincian uptime CPU untuk seluruh node berdasarkan status: mode user, mode kernel, softirq, hardirq, idle, dan iowait. Gunakan metrik ini untuk mengidentifikasi status mana yang mengonsumsi waktu CPU.
sysom_proc_cpus	gauge	%	Rincian uptime CPU per inti CPU individual berdasarkan status: mode user, mode kernel, softirq, hardirq, idle, dan iowait. Gunakan metrik ini untuk mendeteksi ketidakseimbangan per inti.
sysom_proc_sirq	gauge	%	Jumlah kejadian untuk setiap jenis softirq: HI, TIMER, NET_TX, NET_RX, BLOCK, IRQ_POLL, TASKLET, SCHED, HRTIMER, dan RCU. Lonjakan pada NET_RX atau NET_TX dapat mengindikasikan saturasi jaringan.
sysom_proc_stat_counters	gauge	-	Jumlah proses dalam status Running atau D, waktu startup sistem, dan jumlah context switch. Jumlah proses dalam status D yang tinggi mengindikasikan kontensi I/O atau lock.
sysom_proc_loadavg	gauge	-	Rata-rata beban pada interval 1 menit, 5 menit, dan 15 menit, serta panjang run-queue dan jumlah total proses. Gunakan metrik ini untuk menilai tren beban berkelanjutan.
sysom_proc_schedstat	gauge	ns (nanodetik)	Latensi penjadwalan CPU: waktu yang dihabiskan proses menunggu dalam run queue, dan panjang time slice CPU. Waktu tunggu yang tinggi mengindikasikan tekanan penjadwalan.
sysom_cpu_dist	gauge	-	Distribusi interval penjadwalan CPU—berapa lama proses menunggu sejak melepas CPU hingga dijadwalkan kembali. Hitungan dikelompokkan dalam bucket 1 µs, 10 µs, 100 µs, 1 ms, 10 ms, 100 ms, dan 1 s. Latensi ekor panjang mengindikasikan jitter penjadwalan.

Memori

Metric	Type	Unit	Description
sysom_proc_meminfo	gauge	KiB	Penggunaan memori tingkat node berdasarkan kategori: Total, Free, Available, Cache, Buffers, SReclaimable, dan SUnreclaim. Gunakan metrik ini untuk memahami tekanan memori secara keseluruhan.
sysom_proc_vmstat	gauge	-	Statistik dan event halaman memori terperinci: halaman bebas, halaman kotor, halaman yang dibaca/ditulis, halaman yang direklaim dari daftar tidak aktif, dan aktivasi OOM killer. Aktivitas OOM killer menandakan kehabisan memori kritis.
sysom_proc_buddyinfo	gauge	-	Status alokator buddy system kernel: blok tersedia pada berbagai ukuran di setiap zona memori dan node. Gunakan metrik ini untuk mendeteksi fragmentasi memori yang dapat menyebabkan kegagalan alokasi.

Penyimpanan

Metric	Type	Unit	Description
sysom_proc_disks	gauge	-	Statistik I/O per disk dan per partisi: jumlah permintaan baca/tulis dan byte, jumlah penggabungan, permintaan sedang berlangsung, dan total waktu penyelesaian permintaan. Gunakan metrik ini untuk mendiagnosis masalah throughput dan latensi disk.
sysom_fs_stat	gauge	-	Penggunaan sistem file untuk setiap sistem file yang dimount: ukuran blok, blok yang digunakan dan tersedia, serta inode yang digunakan dan tersedia. Gunakan metrik ini untuk mendeteksi kehabisan disk atau inode sebelum menyebabkan kegagalan.

Jaringan

Metric	Type	Unit	Description
sysom_proc_networks	gauge	-	Statistik transfer data per NIC: paket dan byte yang diterima dan dikirim, discard tingkat driver, serta error pengiriman/penerimaan. Gunakan metrik ini untuk mendeteksi kehilangan paket tingkat NIC.
sysom_proc_pkt_status	gauge	-	Event tumpukan protokol jaringan: drop paket, luapan buffer, dan kegagalan asersi. Gunakan metrik ini untuk mengidentifikasi lokasi kehilangan paket dalam stack.
sysom_sock_stat	gauge	-	Penggunaan socket dan buffer: jumlah total socket raw, TCP, dan UDP, jumlah socket TCP dalam status TIME_WAIT atau orphan, serta penggunaan memori socket TCP/UDP. Jumlah TIME_WAIT atau orphan yang tinggi dapat mengindikasikan masalah penanganan koneksi akibat logika aplikasi atau parameter sistem.
sysom_softnets	gauge	-	Statistik softirq NIC per CPU: paket yang diterima dan dikirim per softirq, serta jumlah pemanggilan `net_rx_action` untuk menangani softirq penerimaan.
sysom_net_health_hist	gauge	-	Distribusi round-trip time (RTT) di seluruh koneksi TCP pada node, dikelompokkan dalam bucket 10 ms, 100 ms, dan 1 s. Gunakan metrik ini untuk mendeteksi degradasi latensi TCP.
sysom_net_health_count	gauge	-	RTT rata-rata koneksi TCP pada node. Mirip dengan `sysom_net_health_hist`.
sysom_net_retrans_count	gauge	-	Statistik retransmisi TCP: jumlah paket yang diretransmisi berdasarkan jenis (SYN, SYN-ACK, RESET), termasuk retransmisi akibat timeout. Peningkatan jumlah mengindikasikan ketidakstabilan atau kemacetan jaringan.
sysom_net_tcp_count	gauge	-	Statistik koneksi TCP: jumlah koneksi aktif, segmen yang diterima dan dikirim, segmen yang diretransmisi, dan kegagalan penerimaan.
sysom_net_udp_count	gauge	-	Statistik UDP: paket yang diterima dan dikirim, error buffer pengiriman/penerimaan, serta paket yang dibuang karena tidak tersedia port.
sysom_net_ip_count	gauge	-	Statistik lapisan IP: paket yang diforward, diterima, dan dikirim.
sysom_net_icmp_count	gauge	-	Statistik ICMP: paket yang diterima dan dikirim, serta kegagalan pengiriman/penerimaan.

Metrik sistem lainnya

Metric	Type	Unit	Description
sysom_cgroups	gauge	-	Jumlah cgroup yang digunakan di berbagai subsistem: CPU, Cpuacct, Memory, Pids, Blkio, dan Devices. Jumlah yang terus meningkat tanpa penurunan dapat mengindikasikan kebocoran cgroup.
sysom_uptime	gauge	s (detik)	Waktu uptime sistem sejak boot terakhir, dan waktu idle sistem.

Metrik kontainer

Metrik kontainer mencakup CPU dan penjadwalan, memori, I/O, serta metrik jaringan.

CPU dan penjadwalan

Metric	Type	Unit	Description
sysom_container_cpu_stat	gauge	-	Statistik throttling CPU per cgroup: jumlah kali batas CPU diberlakukan, total jumlah pemberlakuan, dan total durasi pemberlakuan. Gunakan metrik ini untuk menentukan apakah kuota resource perlu disesuaikan.
sysom_container_cpu_acctstat	gauge	%	Pemanfaatan CPU untuk tugas kontainer, dirinci berdasarkan mode: user, kernel, dan total. Gunakan metrik ini untuk memahami cara kontainer mengonsumsi CPU di ruang kernel dan user.
sysom_container_cpu_cfsquota	gauge	-	Konfigurasi Completely Fair Scheduler (CFS) untuk cgroup kontainer: `cfs_period_us` (panjang setiap jendela waktu CFS) dan `cfs_quota_us` (waktu CPU maksimum yang tersedia untuk cgroup dalam setiap jendela). Gunakan metrik ini untuk memverifikasi bahwa batas CPU telah diatur dengan benar.

Memori

Metric	Type	Unit	Description
sysom_container_memory_stat	gauge	KiB	Penggunaan memori kontainer berdasarkan kategori: Total, Free, Available, Cache, Buffers, SReclaimable, dan SUnreclaim. Gunakan metrik ini untuk menilai konsumsi memori secara keseluruhan per kontainer.
sysom_container_memory_filecache	gauge	KiB	Penggunaan page cache per kontainer: 10 file teratas yang paling banyak mengonsumsi page cache, ukuran file, dan total page cache yang ditempati. Gunakan metrik ini untuk mengidentifikasi kontainer di mana penggunaan berlebihan page cache menyebabkan tekanan memori, latensi, atau jitter.
sysom_container_memory_gdrcm_latency	gauge	Kali	Penundaan akibat reklamasi memori karena sumber daya memori tidak mencukupi. Menghitung penundaan dalam enam rentang: 1–5 ms, 5–10 ms, 10–100 ms, 100–500 ms, 500–1.000 ms, dan lebih dari 1.000 ms. Gunakan metrik ini untuk mendeteksi tekanan memori tingkat node yang memengaruhi kinerja kontainer.
sysom_container_memory_cdrcm_latency	gauge	Times	Penundaan akibat reklamasi memori karena cgroup memori tidak mencukupi. Menghitung penundaan dalam rentang yang sama seperti `sysom_container_memory_gdrcm_latency`. Note Metrik ini hanya berlaku jika cgroup memori saat ini bukan root cgroup atau batas memori telah dikonfigurasi untuk cgroup memori saat ini.
sysom_container_memory_cpt_latency	gauge	Kali	Penundaan akibat penyesuaian memori kernel, dipicu ketika proses dalam kontainer meminta memori tetapi node kekurangan memori atau terdapat jumlah fragmen memori yang berlebihan. Menghitung penundaan dalam rentang yang sama. Gunakan metrik ini untuk mendeteksi fragmentasi memori yang memengaruhi alokasi kontainer.

IO

Metric	Type	Unit	Description
sysom_container_blkio_stat	gauge	-	Statistik I/O blok untuk disk kontainer: jumlah permintaan baca/tulis dan byte, jumlah permintaan dan byte dalam antrian, serta waktu tunggu permintaan. Gunakan metrik ini untuk mendiagnosis bottleneck I/O tingkat kontainer.

Jaringan

Metric	Type	Unit	Description
sysom_container_network_stat	gauge	-	Statistik transfer data NIC virtual per kontainer: paket dan byte yang diterima dan dikirim, serta discard tingkat perangkat. Paket yang dibuang oleh tumpukan protokol jaringan tidak termasuk.