All Products
Search
Document Center

Container Service for Kubernetes:Aktifkan dan gunakan ack-sysom-monitor

Last Updated:Mar 26, 2026

System Observer Monitoring (SysOM) adalah metode pemantauan kontainer pada tingkat kernel sistem operasi. Container Service for Kubernetes (ACK) memungkinkan Anda memantau kontainer pada tingkat kernel OS berdasarkan SysOM. Kemampuan ini membantu Anda men-deploy dan memigrasikan aplikasi berbasis kontainer serta memantau kontainer dengan lebih baik.

Prasyarat

Sebelum memulai, pastikan Anda telah:

Data yang dikumpulkan oleh ack-sysom-monitor

ack-sysom-monitor adalah komponen SysOM yang menggunakan teknologi extended Berkeley Packet Filter (eBPF) untuk mengumpulkan metrik node dan kontainer serta meningkatkan metrik pada tingkat kernel. Selain metrik sistem standar, komponen ini menyediakan metrik tambahan yang mendukung pemantauan tingkat kernel untuk pod dan node, membantu Anda mengidentifikasi masalah umum seperti jitter sistem, penundaan, kebocoran resource, dan anomali memori pod.

Penagihan

Setelah ack-sysom-monitor diaktifkan, komponen terkait secara otomatis mengirim metrik pemantauan ke Managed Service for Prometheus. Metrik ini ditagih sebagai custom metrics.

Sebelum mengaktifkan fitur ini, baca Billing overview untuk memahami cara penagihan custom metrics. Biaya bervariasi berdasarkan ukuran kluster dan jumlah aplikasi yang berjalan. Untuk memantau dan mengontrol penggunaan resource, lihat View resource usage.

Aktifkan ack-sysom-monitor

  1. Login ke ARMS console.

  2. Pada panel navigasi kiri, klik Integration Center.

  3. Pada bagian Infrastructure di halaman Integration Center, temukan dan klik SysOM System Observation.

  4. Pada langkah Start Integration di panel SysOM System Observation, pilih kluster ACK yang akan diintegrasikan, lalu klik OK.

Lihat data pemantauan

  1. Login ke ACK console. Pada panel navigasi kiri, klik Clusters.

  2. Pada halaman Clusters, temukan kluster Anda dan klik namanya. Pada panel kiri, pilih Operations > Prometheus Monitoring.

  3. Pada halaman Prometheus Monitoring, klik tab SysOM. ack-sysom-monitor mendukung dua tampilan pemantauan:

    • Node kernel-level monitoring — Pada tab SysOM - Nodes, lihat metrik CPU, memori, penjadwalan, penyimpanan, dan jaringan untuk setiap node. image.png

    • Pod kernel-level monitoring — Pada tab SysOM - Pods, lihat metrik memori, CPU, jaringan, dan I/O untuk setiap pod secara real time. image.png

Langkah berikutnya

Untuk menghentikan biaya yang timbul, uninstal komponen ack-sysom-monitor. Untuk informasi selengkapnya, lihat Manage components.

Metrik

Semua metrik yang disediakan oleh ack-sysom-monitor mengikuti Prometheus data model.

Semua jenis metrik yang tercantum di bawah ini adalah gauge.

Skenario diagnosis

Gunakan tabel berikut untuk menelusuri dari gejala ke metrik terkait.

GejalaMetrik terkait
Throttling CPU atau penundaan penjadwalansysom_proc_schedstat, sysom_cpu_dist, sysom_container_cpu_stat, sysom_container_cpu_cfsquota
Beban tinggi atau terlalu banyak proses dalam status Dsysom_proc_stat_counters, sysom_proc_loadavg
Tekanan memori atau event OOMsysom_proc_vmstat, sysom_container_memory_gdrcm_latency, sysom_container_memory_cdrcm_latency, sysom_container_memory_cpt_latency
Page cache menyebabkan jitter memorisysom_container_memory_filecache
Kebocoran cgroupsysom_cgroups
Latensi I/O disk atau masalah throughputsysom_proc_disks, sysom_container_blkio_stat
Kehilangan paket jaringan atau retransmissionsysom_proc_pkt_status, sysom_net_retrans_count
RTT TCP tinggi atau anomali koneksisysom_net_health_hist, sysom_net_health_count, sysom_net_tcp_count
Kehabisan socket atau buffersysom_sock_stat

Metrik node

Metrik node mencakup CPU dan penjadwalan, memori, penyimpanan, jaringan, serta metrik sistem lainnya.

CPU dan penjadwalan

Metric

Type

Unit

Description

sysom_proc_cpu_total

gauge

%

Rincian uptime CPU untuk seluruh node berdasarkan status: mode user, mode kernel, softirq, hardirq, idle, dan iowait. Gunakan metrik ini untuk mengidentifikasi status mana yang mengonsumsi waktu CPU.

sysom_proc_cpus

gauge

%

Rincian uptime CPU per inti CPU individual berdasarkan status: mode user, mode kernel, softirq, hardirq, idle, dan iowait. Gunakan metrik ini untuk mendeteksi ketidakseimbangan per inti.

sysom_proc_sirq

gauge

%

Jumlah kejadian untuk setiap jenis softirq: HI, TIMER, NET_TX, NET_RX, BLOCK, IRQ_POLL, TASKLET, SCHED, HRTIMER, dan RCU. Lonjakan pada NET_RX atau NET_TX dapat mengindikasikan saturasi jaringan.

sysom_proc_stat_counters

gauge

-

Jumlah proses dalam status Running atau D, waktu startup sistem, dan jumlah context switch. Jumlah proses dalam status D yang tinggi mengindikasikan kontensi I/O atau lock.

sysom_proc_loadavg

gauge

-

Rata-rata beban pada interval 1 menit, 5 menit, dan 15 menit, serta panjang run-queue dan jumlah total proses. Gunakan metrik ini untuk menilai tren beban berkelanjutan.

sysom_proc_schedstat

gauge

ns (nanodetik)

Latensi penjadwalan CPU: waktu yang dihabiskan proses menunggu dalam run queue, dan panjang time slice CPU. Waktu tunggu yang tinggi mengindikasikan tekanan penjadwalan.

sysom_cpu_dist

gauge

-

Distribusi interval penjadwalan CPU—berapa lama proses menunggu sejak melepas CPU hingga dijadwalkan kembali. Hitungan dikelompokkan dalam bucket 1 µs, 10 µs, 100 µs, 1 ms, 10 ms, 100 ms, dan 1 s. Latensi ekor panjang mengindikasikan jitter penjadwalan.

Memori

Metric

Type

Unit

Description

sysom_proc_meminfo

gauge

KiB

Penggunaan memori tingkat node berdasarkan kategori: Total, Free, Available, Cache, Buffers, SReclaimable, dan SUnreclaim. Gunakan metrik ini untuk memahami tekanan memori secara keseluruhan.

sysom_proc_vmstat

gauge

-

Statistik dan event halaman memori terperinci: halaman bebas, halaman kotor, halaman yang dibaca/ditulis, halaman yang direklaim dari daftar tidak aktif, dan aktivasi OOM killer. Aktivitas OOM killer menandakan kehabisan memori kritis.

sysom_proc_buddyinfo

gauge

-

Status alokator buddy system kernel: blok tersedia pada berbagai ukuran di setiap zona memori dan node. Gunakan metrik ini untuk mendeteksi fragmentasi memori yang dapat menyebabkan kegagalan alokasi.

Penyimpanan

Metric

Type

Unit

Description

sysom_proc_disks

gauge

-

Statistik I/O per disk dan per partisi: jumlah permintaan baca/tulis dan byte, jumlah penggabungan, permintaan sedang berlangsung, dan total waktu penyelesaian permintaan. Gunakan metrik ini untuk mendiagnosis masalah throughput dan latensi disk.

sysom_fs_stat

gauge

-

Penggunaan sistem file untuk setiap sistem file yang dimount: ukuran blok, blok yang digunakan dan tersedia, serta inode yang digunakan dan tersedia. Gunakan metrik ini untuk mendeteksi kehabisan disk atau inode sebelum menyebabkan kegagalan.

Jaringan

Metric

Type

Unit

Description

sysom_proc_networks

gauge

-

Statistik transfer data per NIC: paket dan byte yang diterima dan dikirim, discard tingkat driver, serta error pengiriman/penerimaan. Gunakan metrik ini untuk mendeteksi kehilangan paket tingkat NIC.

sysom_proc_pkt_status

gauge

-

Event tumpukan protokol jaringan: drop paket, luapan buffer, dan kegagalan asersi. Gunakan metrik ini untuk mengidentifikasi lokasi kehilangan paket dalam stack.

sysom_sock_stat

gauge

-

Penggunaan socket dan buffer: jumlah total socket raw, TCP, dan UDP, jumlah socket TCP dalam status TIME_WAIT atau orphan, serta penggunaan memori socket TCP/UDP. Jumlah TIME_WAIT atau orphan yang tinggi dapat mengindikasikan masalah penanganan koneksi akibat logika aplikasi atau parameter sistem.

sysom_softnets

gauge

-

Statistik softirq NIC per CPU: paket yang diterima dan dikirim per softirq, serta jumlah pemanggilan net_rx_action untuk menangani softirq penerimaan.

sysom_net_health_hist

gauge

-

Distribusi round-trip time (RTT) di seluruh koneksi TCP pada node, dikelompokkan dalam bucket 10 ms, 100 ms, dan 1 s. Gunakan metrik ini untuk mendeteksi degradasi latensi TCP.

sysom_net_health_count

gauge

-

RTT rata-rata koneksi TCP pada node. Mirip dengan sysom_net_health_hist.

sysom_net_retrans_count

gauge

-

Statistik retransmisi TCP: jumlah paket yang diretransmisi berdasarkan jenis (SYN, SYN-ACK, RESET), termasuk retransmisi akibat timeout. Peningkatan jumlah mengindikasikan ketidakstabilan atau kemacetan jaringan.

sysom_net_tcp_count

gauge

-

Statistik koneksi TCP: jumlah koneksi aktif, segmen yang diterima dan dikirim, segmen yang diretransmisi, dan kegagalan penerimaan.

sysom_net_udp_count

gauge

-

Statistik UDP: paket yang diterima dan dikirim, error buffer pengiriman/penerimaan, serta paket yang dibuang karena tidak tersedia port.

sysom_net_ip_count

gauge

-

Statistik lapisan IP: paket yang diforward, diterima, dan dikirim.

sysom_net_icmp_count

gauge

-

Statistik ICMP: paket yang diterima dan dikirim, serta kegagalan pengiriman/penerimaan.

Metrik sistem lainnya

Metric

Type

Unit

Description

sysom_cgroups

gauge

-

Jumlah cgroup yang digunakan di berbagai subsistem: CPU, Cpuacct, Memory, Pids, Blkio, dan Devices. Jumlah yang terus meningkat tanpa penurunan dapat mengindikasikan kebocoran cgroup.

sysom_uptime

gauge

s (detik)

Waktu uptime sistem sejak boot terakhir, dan waktu idle sistem.

Metrik kontainer

Metrik kontainer mencakup CPU dan penjadwalan, memori, I/O, serta metrik jaringan.

CPU dan penjadwalan

Metric

Type

Unit

Description

sysom_container_cpu_stat

gauge

-

Statistik throttling CPU per cgroup: jumlah kali batas CPU diberlakukan, total jumlah pemberlakuan, dan total durasi pemberlakuan. Gunakan metrik ini untuk menentukan apakah kuota resource perlu disesuaikan.

sysom_container_cpu_acctstat

gauge

%

Pemanfaatan CPU untuk tugas kontainer, dirinci berdasarkan mode: user, kernel, dan total. Gunakan metrik ini untuk memahami cara kontainer mengonsumsi CPU di ruang kernel dan user.

sysom_container_cpu_cfsquota

gauge

-

Konfigurasi Completely Fair Scheduler (CFS) untuk cgroup kontainer: cfs_period_us (panjang setiap jendela waktu CFS) dan cfs_quota_us (waktu CPU maksimum yang tersedia untuk cgroup dalam setiap jendela). Gunakan metrik ini untuk memverifikasi bahwa batas CPU telah diatur dengan benar.

Memori

Metric

Type

Unit

Description

sysom_container_memory_stat

gauge

KiB

Penggunaan memori kontainer berdasarkan kategori: Total, Free, Available, Cache, Buffers, SReclaimable, dan SUnreclaim. Gunakan metrik ini untuk menilai konsumsi memori secara keseluruhan per kontainer.

sysom_container_memory_filecache

gauge

KiB

Penggunaan page cache per kontainer: 10 file teratas yang paling banyak mengonsumsi page cache, ukuran file, dan total page cache yang ditempati. Gunakan metrik ini untuk mengidentifikasi kontainer di mana penggunaan berlebihan page cache menyebabkan tekanan memori, latensi, atau jitter.

sysom_container_memory_gdrcm_latency

gauge

Kali

Penundaan akibat reklamasi memori karena sumber daya memori tidak mencukupi. Menghitung penundaan dalam enam rentang: 1–5 ms, 5–10 ms, 10–100 ms, 100–500 ms, 500–1.000 ms, dan lebih dari 1.000 ms. Gunakan metrik ini untuk mendeteksi tekanan memori tingkat node yang memengaruhi kinerja kontainer.

sysom_container_memory_cdrcm_latency

gauge

Times

Penundaan akibat reklamasi memori karena cgroup memori tidak mencukupi. Menghitung penundaan dalam rentang yang sama seperti sysom_container_memory_gdrcm_latency.

Note

Metrik ini hanya berlaku jika cgroup memori saat ini bukan root cgroup atau batas memori telah dikonfigurasi untuk cgroup memori saat ini.

sysom_container_memory_cpt_latency

gauge

Kali

Penundaan akibat penyesuaian memori kernel, dipicu ketika proses dalam kontainer meminta memori tetapi node kekurangan memori atau terdapat jumlah fragmen memori yang berlebihan. Menghitung penundaan dalam rentang yang sama. Gunakan metrik ini untuk mendeteksi fragmentasi memori yang memengaruhi alokasi kontainer.

IO

Metric

Type

Unit

Description

sysom_container_blkio_stat

gauge

-

Statistik I/O blok untuk disk kontainer: jumlah permintaan baca/tulis dan byte, jumlah permintaan dan byte dalam antrian, serta waktu tunggu permintaan. Gunakan metrik ini untuk mendiagnosis bottleneck I/O tingkat kontainer.

Jaringan

Metric

Type

Unit

Description

sysom_container_network_stat

gauge

-

Statistik transfer data NIC virtual per kontainer: paket dan byte yang diterima dan dikirim, serta discard tingkat perangkat. Paket yang dibuang oleh tumpukan protokol jaringan tidak termasuk.