System Observer Monitoring (SysOM) adalah metode pemantauan kontainer pada tingkat kernel sistem operasi. Container Service for Kubernetes (ACK) memungkinkan Anda memantau kontainer pada tingkat kernel OS berdasarkan SysOM. Kemampuan ini membantu Anda men-deploy dan memigrasikan aplikasi berbasis kontainer serta memantau kontainer dengan lebih baik.
Prasyarat
Sebelum memulai, pastikan Anda telah:
Membuat kluster ACK yang dikelola atau kluster ACK Serverless yang dibuat setelah Oktober 2021 dengan versi Kubernetes 1.18.8 atau lebih baru. Untuk informasi selengkapnya, lihat Create an ACK managed cluster dan Create an ACK Serverless cluster. Untuk memperbarui kluster yang sudah ada, lihat Manually update ACK clusters.
Mengaktifkan Managed Service for Prometheus. Untuk informasi selengkapnya, lihat Enable Managed Service for Prometheus.
Data yang dikumpulkan oleh ack-sysom-monitor
ack-sysom-monitor adalah komponen SysOM yang menggunakan teknologi extended Berkeley Packet Filter (eBPF) untuk mengumpulkan metrik node dan kontainer serta meningkatkan metrik pada tingkat kernel. Selain metrik sistem standar, komponen ini menyediakan metrik tambahan yang mendukung pemantauan tingkat kernel untuk pod dan node, membantu Anda mengidentifikasi masalah umum seperti jitter sistem, penundaan, kebocoran resource, dan anomali memori pod.
Penagihan
Setelah ack-sysom-monitor diaktifkan, komponen terkait secara otomatis mengirim metrik pemantauan ke Managed Service for Prometheus. Metrik ini ditagih sebagai custom metrics.
Sebelum mengaktifkan fitur ini, baca Billing overview untuk memahami cara penagihan custom metrics. Biaya bervariasi berdasarkan ukuran kluster dan jumlah aplikasi yang berjalan. Untuk memantau dan mengontrol penggunaan resource, lihat View resource usage.
Aktifkan ack-sysom-monitor
Login ke ARMS console.
Pada panel navigasi kiri, klik Integration Center.
Pada bagian Infrastructure di halaman Integration Center, temukan dan klik SysOM System Observation.
Pada langkah Start Integration di panel SysOM System Observation, pilih kluster ACK yang akan diintegrasikan, lalu klik OK.
Lihat data pemantauan
Login ke ACK console. Pada panel navigasi kiri, klik Clusters.
Pada halaman Clusters, temukan kluster Anda dan klik namanya. Pada panel kiri, pilih Operations > Prometheus Monitoring.
Pada halaman Prometheus Monitoring, klik tab SysOM.
ack-sysom-monitormendukung dua tampilan pemantauan:Node kernel-level monitoring — Pada tab SysOM - Nodes, lihat metrik CPU, memori, penjadwalan, penyimpanan, dan jaringan untuk setiap node.

Pod kernel-level monitoring — Pada tab SysOM - Pods, lihat metrik memori, CPU, jaringan, dan I/O untuk setiap pod secara real time.

Langkah berikutnya
Untuk menghentikan biaya yang timbul, uninstal komponen ack-sysom-monitor. Untuk informasi selengkapnya, lihat Manage components.
Metrik
Semua metrik yang disediakan oleh ack-sysom-monitor mengikuti Prometheus data model.
Semua jenis metrik yang tercantum di bawah ini adalah gauge.Skenario diagnosis
Gunakan tabel berikut untuk menelusuri dari gejala ke metrik terkait.
| Gejala | Metrik terkait |
|---|---|
| Throttling CPU atau penundaan penjadwalan | sysom_proc_schedstat, sysom_cpu_dist, sysom_container_cpu_stat, sysom_container_cpu_cfsquota |
| Beban tinggi atau terlalu banyak proses dalam status D | sysom_proc_stat_counters, sysom_proc_loadavg |
| Tekanan memori atau event OOM | sysom_proc_vmstat, sysom_container_memory_gdrcm_latency, sysom_container_memory_cdrcm_latency, sysom_container_memory_cpt_latency |
| Page cache menyebabkan jitter memori | sysom_container_memory_filecache |
| Kebocoran cgroup | sysom_cgroups |
| Latensi I/O disk atau masalah throughput | sysom_proc_disks, sysom_container_blkio_stat |
| Kehilangan paket jaringan atau retransmission | sysom_proc_pkt_status, sysom_net_retrans_count |
| RTT TCP tinggi atau anomali koneksi | sysom_net_health_hist, sysom_net_health_count, sysom_net_tcp_count |
| Kehabisan socket atau buffer | sysom_sock_stat |
Metrik node
Metrik node mencakup CPU dan penjadwalan, memori, penyimpanan, jaringan, serta metrik sistem lainnya.
CPU dan penjadwalan
Metric | Type | Unit | Description |
sysom_proc_cpu_total | gauge | % | Rincian uptime CPU untuk seluruh node berdasarkan status: mode user, mode kernel, softirq, hardirq, idle, dan iowait. Gunakan metrik ini untuk mengidentifikasi status mana yang mengonsumsi waktu CPU. |
sysom_proc_cpus | gauge | % | Rincian uptime CPU per inti CPU individual berdasarkan status: mode user, mode kernel, softirq, hardirq, idle, dan iowait. Gunakan metrik ini untuk mendeteksi ketidakseimbangan per inti. |
sysom_proc_sirq | gauge | % | Jumlah kejadian untuk setiap jenis softirq: HI, TIMER, NET_TX, NET_RX, BLOCK, IRQ_POLL, TASKLET, SCHED, HRTIMER, dan RCU. Lonjakan pada NET_RX atau NET_TX dapat mengindikasikan saturasi jaringan. |
sysom_proc_stat_counters | gauge | - | Jumlah proses dalam status Running atau D, waktu startup sistem, dan jumlah context switch. Jumlah proses dalam status D yang tinggi mengindikasikan kontensi I/O atau lock. |
sysom_proc_loadavg | gauge | - | Rata-rata beban pada interval 1 menit, 5 menit, dan 15 menit, serta panjang run-queue dan jumlah total proses. Gunakan metrik ini untuk menilai tren beban berkelanjutan. |
sysom_proc_schedstat | gauge | ns (nanodetik) | Latensi penjadwalan CPU: waktu yang dihabiskan proses menunggu dalam run queue, dan panjang time slice CPU. Waktu tunggu yang tinggi mengindikasikan tekanan penjadwalan. |
sysom_cpu_dist | gauge | - | Distribusi interval penjadwalan CPU—berapa lama proses menunggu sejak melepas CPU hingga dijadwalkan kembali. Hitungan dikelompokkan dalam bucket 1 µs, 10 µs, 100 µs, 1 ms, 10 ms, 100 ms, dan 1 s. Latensi ekor panjang mengindikasikan jitter penjadwalan. |
Memori
Metric | Type | Unit | Description |
sysom_proc_meminfo | gauge | KiB | Penggunaan memori tingkat node berdasarkan kategori: Total, Free, Available, Cache, Buffers, SReclaimable, dan SUnreclaim. Gunakan metrik ini untuk memahami tekanan memori secara keseluruhan. |
sysom_proc_vmstat | gauge | - | Statistik dan event halaman memori terperinci: halaman bebas, halaman kotor, halaman yang dibaca/ditulis, halaman yang direklaim dari daftar tidak aktif, dan aktivasi OOM killer. Aktivitas OOM killer menandakan kehabisan memori kritis. |
sysom_proc_buddyinfo | gauge | - | Status alokator buddy system kernel: blok tersedia pada berbagai ukuran di setiap zona memori dan node. Gunakan metrik ini untuk mendeteksi fragmentasi memori yang dapat menyebabkan kegagalan alokasi. |
Penyimpanan
Metric | Type | Unit | Description |
sysom_proc_disks | gauge | - | Statistik I/O per disk dan per partisi: jumlah permintaan baca/tulis dan byte, jumlah penggabungan, permintaan sedang berlangsung, dan total waktu penyelesaian permintaan. Gunakan metrik ini untuk mendiagnosis masalah throughput dan latensi disk. |
sysom_fs_stat | gauge | - | Penggunaan sistem file untuk setiap sistem file yang dimount: ukuran blok, blok yang digunakan dan tersedia, serta inode yang digunakan dan tersedia. Gunakan metrik ini untuk mendeteksi kehabisan disk atau inode sebelum menyebabkan kegagalan. |
Jaringan
Metric | Type | Unit | Description |
sysom_proc_networks | gauge | - | Statistik transfer data per NIC: paket dan byte yang diterima dan dikirim, discard tingkat driver, serta error pengiriman/penerimaan. Gunakan metrik ini untuk mendeteksi kehilangan paket tingkat NIC. |
sysom_proc_pkt_status | gauge | - | Event tumpukan protokol jaringan: drop paket, luapan buffer, dan kegagalan asersi. Gunakan metrik ini untuk mengidentifikasi lokasi kehilangan paket dalam stack. |
sysom_sock_stat | gauge | - | Penggunaan socket dan buffer: jumlah total socket raw, TCP, dan UDP, jumlah socket TCP dalam status TIME_WAIT atau orphan, serta penggunaan memori socket TCP/UDP. Jumlah TIME_WAIT atau orphan yang tinggi dapat mengindikasikan masalah penanganan koneksi akibat logika aplikasi atau parameter sistem. |
sysom_softnets | gauge | - | Statistik softirq NIC per CPU: paket yang diterima dan dikirim per softirq, serta jumlah pemanggilan |
sysom_net_health_hist | gauge | - | Distribusi round-trip time (RTT) di seluruh koneksi TCP pada node, dikelompokkan dalam bucket 10 ms, 100 ms, dan 1 s. Gunakan metrik ini untuk mendeteksi degradasi latensi TCP. |
sysom_net_health_count | gauge | - | RTT rata-rata koneksi TCP pada node. Mirip dengan |
sysom_net_retrans_count | gauge | - | Statistik retransmisi TCP: jumlah paket yang diretransmisi berdasarkan jenis (SYN, SYN-ACK, RESET), termasuk retransmisi akibat timeout. Peningkatan jumlah mengindikasikan ketidakstabilan atau kemacetan jaringan. |
sysom_net_tcp_count | gauge | - | Statistik koneksi TCP: jumlah koneksi aktif, segmen yang diterima dan dikirim, segmen yang diretransmisi, dan kegagalan penerimaan. |
sysom_net_udp_count | gauge | - | Statistik UDP: paket yang diterima dan dikirim, error buffer pengiriman/penerimaan, serta paket yang dibuang karena tidak tersedia port. |
sysom_net_ip_count | gauge | - | Statistik lapisan IP: paket yang diforward, diterima, dan dikirim. |
sysom_net_icmp_count | gauge | - | Statistik ICMP: paket yang diterima dan dikirim, serta kegagalan pengiriman/penerimaan. |
Metrik sistem lainnya
Metric | Type | Unit | Description |
sysom_cgroups | gauge | - | Jumlah cgroup yang digunakan di berbagai subsistem: CPU, Cpuacct, Memory, Pids, Blkio, dan Devices. Jumlah yang terus meningkat tanpa penurunan dapat mengindikasikan kebocoran cgroup. |
sysom_uptime | gauge | s (detik) | Waktu uptime sistem sejak boot terakhir, dan waktu idle sistem. |
Metrik kontainer
Metrik kontainer mencakup CPU dan penjadwalan, memori, I/O, serta metrik jaringan.
CPU dan penjadwalan
Metric | Type | Unit | Description |
sysom_container_cpu_stat | gauge | - | Statistik throttling CPU per cgroup: jumlah kali batas CPU diberlakukan, total jumlah pemberlakuan, dan total durasi pemberlakuan. Gunakan metrik ini untuk menentukan apakah kuota resource perlu disesuaikan. |
sysom_container_cpu_acctstat | gauge | % | Pemanfaatan CPU untuk tugas kontainer, dirinci berdasarkan mode: user, kernel, dan total. Gunakan metrik ini untuk memahami cara kontainer mengonsumsi CPU di ruang kernel dan user. |
sysom_container_cpu_cfsquota | gauge | - | Konfigurasi Completely Fair Scheduler (CFS) untuk cgroup kontainer: |
Memori
Metric | Type | Unit | Description |
sysom_container_memory_stat | gauge | KiB | Penggunaan memori kontainer berdasarkan kategori: Total, Free, Available, Cache, Buffers, SReclaimable, dan SUnreclaim. Gunakan metrik ini untuk menilai konsumsi memori secara keseluruhan per kontainer. |
sysom_container_memory_filecache | gauge | KiB | Penggunaan page cache per kontainer: 10 file teratas yang paling banyak mengonsumsi page cache, ukuran file, dan total page cache yang ditempati. Gunakan metrik ini untuk mengidentifikasi kontainer di mana penggunaan berlebihan page cache menyebabkan tekanan memori, latensi, atau jitter. |
sysom_container_memory_gdrcm_latency | gauge | Kali | Penundaan akibat reklamasi memori karena sumber daya memori tidak mencukupi. Menghitung penundaan dalam enam rentang: 1–5 ms, 5–10 ms, 10–100 ms, 100–500 ms, 500–1.000 ms, dan lebih dari 1.000 ms. Gunakan metrik ini untuk mendeteksi tekanan memori tingkat node yang memengaruhi kinerja kontainer. |
sysom_container_memory_cdrcm_latency | gauge | Times | Penundaan akibat reklamasi memori karena cgroup memori tidak mencukupi. Menghitung penundaan dalam rentang yang sama seperti Note Metrik ini hanya berlaku jika cgroup memori saat ini bukan root cgroup atau batas memori telah dikonfigurasi untuk cgroup memori saat ini. |
sysom_container_memory_cpt_latency | gauge | Kali | Penundaan akibat penyesuaian memori kernel, dipicu ketika proses dalam kontainer meminta memori tetapi node kekurangan memori atau terdapat jumlah fragmen memori yang berlebihan. Menghitung penundaan dalam rentang yang sama. Gunakan metrik ini untuk mendeteksi fragmentasi memori yang memengaruhi alokasi kontainer. |
IO
Metric | Type | Unit | Description |
sysom_container_blkio_stat | gauge | - | Statistik I/O blok untuk disk kontainer: jumlah permintaan baca/tulis dan byte, jumlah permintaan dan byte dalam antrian, serta waktu tunggu permintaan. Gunakan metrik ini untuk mendiagnosis bottleneck I/O tingkat kontainer. |
Jaringan
Metric | Type | Unit | Description |
sysom_container_network_stat | gauge | - | Statistik transfer data NIC virtual per kontainer: paket dan byte yang diterima dan dikirim, serta discard tingkat perangkat. Paket yang dibuang oleh tumpukan protokol jaringan tidak termasuk. |