System Observer Monitoring (SysOM) adalah metode pemantauan kontainer tingkat kernel OS. Container Service for Kubernetes (ACK) memungkinkan Anda memantau kontainer pada tingkat kernel OS berdasarkan SysOM. Kemampuan ini membantu dalam menerapkan dan memigrasi aplikasi yang dikontainerisasi serta memantau kontainer secara lebih efektif. Topik ini menjelaskan cara mengaktifkan dan menggunakan ack-sysom-monitor serta metrik SysOM untuk pemantauan kontainer.
Prasyarat
Sebuah ACK managed cluster telah dibuat atau sebuah ACK Serverless cluster telah dibuat setelah Oktober 2021, dengan versi Kubernetes 1.18.8 atau lebih baru. Untuk informasi lebih lanjut tentang pembuatan klaster, lihat Buat ACK Managed Cluster dan Buat ACK Serverless Cluster. Untuk informasi lebih lanjut tentang pembaruan klaster, lihat Tingkatkan ACK Clusters Secara Manual.
Managed Service for Prometheus harus diaktifkan. Untuk informasi lebih lanjut, lihat Aktifkan Managed Service for Prometheus.
Pengenalan ack-sysom-monitor
ack-sysom-monitor adalah komponen SysOM yang menggunakan teknologi extended Berkeley Packet Filter (eBPF) untuk mengumpulkan metrik node dan kontainer serta meningkatkan metrik pada tingkat kernel. Selain metrik sistem, ack-sysom-monitor juga menyediakan metrik yang ditingkatkan dan mendukung pemantauan pod tingkat kernel serta pemantauan node tingkat kernel untuk membantu mengidentifikasi masalah umum seperti jitter sistem, penundaan, kebocoran sumber daya, dan pengecualian memori pod.
Penagihan ack-sysom-monitor
Setelah komponen ack-sysom-monitor diaktifkan, metrik pemantauan secara otomatis dikirim ke Managed Service for Prometheus sebagai metrik kustom. Biaya akan dikenakan untuk metrik kustom tersebut.
Sebelum mengaktifkan fitur ini, disarankan untuk membaca Ikhtisar Penagihan untuk memahami aturan penagihan metrik kustom. Biaya dapat bervariasi berdasarkan ukuran klaster dan jumlah aplikasi. Anda dapat mengikuti langkah-langkah dalam Lihat Penggunaan Sumber Daya untuk memantau dan mengelola penggunaan sumber daya.
Aktifkan ack-sysom-monitor
Masuk ke Konsol ARMS.
Di panel navigasi sebelah kiri, klik Integration Center.
Di bagian Infrastructure halaman Integration Center, temukan dan klik SysOM System Observation.
Di langkah Start Integration panel SysOM System Observation, pilih klaster ACK yang ingin diintegrasikan dan klik OK.
Gunakan ack-sysom-monitor
Prosedur
Masuk ke Konsol ACK. Di panel navigasi sebelah kiri, klik Clusters.
Di halaman Clusters, temukan klaster yang diinginkan dan klik namanya. Di panel sebelah kiri, pilih .
Di halaman Prometheus Monitoring, klik tab SysOM untuk melihat metrik yang disediakan oleh ack-sysom-monitor.
ack-sysom-monitor mendukung pemantauan node tingkat kernel dan pemantauan pod tingkat kernel.
Pemantauan Node Tingkat Kernel
Di tab SysOM - Nodes, Anda dapat melihat metrik CPU, memori, penjadwalan, penyimpanan, dan jaringan dari sebuah node.

Pemantauan Pod Tingkat Kernel
Di tab SysOM - Pods, Anda dapat melihat metrik memori, CPU, jaringan, dan I/O dari sebuah pod secara real-time.

Langkah selanjutnya
Jika Anda ingin menonaktifkan pemantauan kontainer tingkat kernel berbasis SysOM, Anda dapat menghapus komponen ack-sysom-monitor untuk menghindari biaya tambahan. Untuk informasi lebih lanjut, lihat Kelola Komponen.
Metrik
Metrik yang disediakan oleh ack-sysom-monitor didefinisikan berdasarkan model data yang digunakan oleh Prometheus.
Metrik node
Metrik node mencakup CPU, memori, penyimpanan, jaringan, dan metrik lainnya.
Metrik terkait CPU dan penjadwalan
Metrik | Tipe | Satuan | Deskripsi |
sysom_proc_cpu_total | gauge | % | Menampilkan informasi tentang waktu aktif CPU sebuah node. Metrik ini menunjukkan rasio waktu aktif CPU dalam suatu kondisi terhadap total waktu aktif CPU. Kondisi yang didukung meliputi mode pengguna, mode kernel, softirq, hardirq, idle, dan iowait. |
sysom_proc_cpus | gauge | % | Menampilkan informasi tentang waktu aktif CPU pada sebuah node. Metrik ini menunjukkan rasio waktu aktif CPU dalam suatu kondisi terhadap total waktu aktif CPU. Kondisi yang didukung meliputi mode pengguna, mode kernel, softirq, hardirq, idle, dan iowait. |
sysom_proc_sirq | gauge | % | Menampilkan informasi tentang softirq sebuah node. Metrik ini menunjukkan jumlah kali setiap jenis softirq terjadi. Jenis softirq yang didukung meliputi HI, TIMER, NET_TX, NET_RX, BLOCK, IRQ_POLL, TASKLET, SCHED, HRTIMER, dan RCU softirqs. |
sysom_proc_stat_counters | gauge | - | Menampilkan apakah node menjalankan sejumlah proses yang berlebihan dalam keadaan D dan informasi tentang beban sistem. Metrik ini menunjukkan jumlah proses dalam keadaan Running atau D. Selain itu, juga menunjukkan waktu startup sistem dan jumlah pergantian konteks. |
sysom_proc_loadavg | gauge | - | Menampilkan rata-rata beban sebuah node. Metrik ini menunjukkan rata-rata beban, termasuk panjang runq, rata-rata beban dalam 1 menit terakhir, rata-rata beban dalam 5 menit terakhir, rata-rata beban dalam 15 menit terakhir, dan jumlah total proses sistem. |
sysom_proc_schedstat | gauge | ns (nanodetik) | Menampilkan informasi tentang latensi penjadwalan sebuah node. Metrik ini menampilkan statistik terkait penjadwalan CPU, termasuk waktu tunggu proses dalam antrian CPU saat ini dan panjang timeslice yang berjalan di CPU saat ini. |
sysom_cpu_dist | gauge | - | Menampilkan informasi penjadwalan keseluruhan sebuah node. Metrik ini menunjukkan interval antara waktu ketika proses melepaskan CPU hingga waktu berikutnya ketika proses dijadwalkan kembali ke CPU. Metrik ini juga menghitung jumlah kali proses jatuh ke dalam interval berikut: 1us, 10us, 100us, 1ms, 10ms, 100ms, dan 1s. |
Metrik terkait memori
Metrik | Tipe | Satuan | Deskripsi |
sysom_proc_meminfo | gauge | KiB | Menampilkan penggunaan berbagai jenis sumber daya memori pada sebuah node. Metrik ini menunjukkan penggunaan memori, termasuk tetapi tidak terbatas pada total memori (Total), memori bebas (Free), memori tersedia (Available), cache (Cache), buffer (Buffers), memori yang dapat direklaim (SReclaimable), dan memori yang tidak dapat direklaim (SUnreclaim). |
sysom_proc_vmstat | gauge | - | Menampilkan penggunaan memori dan peristiwa memori sebuah node secara detail. Metrik ini menunjukkan statistik memori berbagai halaman dan peristiwa memori. Informasi memori dan peristiwa memori mencakup halaman gratis (Free Pages), halaman kotor (Dirty Pages), pembacaan dan penulisan halaman (Pages Read/Write), jumlah halaman yang direklaim dari Daftar Tidak Aktif (Pages Reclaimed from Inactive List), dan jumlah kali Out-of-Memory (OOM) killer membunuh aplikasi. |
sysom_proc_buddyinfo | gauge | - | Menampilkan informasi tentang bagaimana sistem buddy mengalokasikan dan melepaskan memori kernel. Metrik ini menunjukkan informasi detail tentang sistem buddy kernel, mencakup semua node memori dan zona serta jumlah blok dalam ukuran berbeda dalam daftar tertaut. |
Metrik terkait penyimpanan
Metrik | Tipe | Satuan | Deskripsi |
sysom_proc_disks | gauge | - | Menampilkan informasi tentang input, output, IOPS, dan latensi setiap disk pada sebuah node. Metrik ini menunjukkan statistik disk dan partisi, termasuk jumlah permintaan baca dan tulis yang diselesaikan oleh partisi, total waktu yang digunakan untuk menyelesaikan permintaan baca dan tulis, jumlah kali permintaan baca dan tulis digabungkan, dan jumlah permintaan baca dan tulis yang sedang berlangsung. |
sysom_fs_stat | gauge | - | Menampilkan penggunaan sistem file yang dipasang ke sebuah node. Metrik ini menunjukkan penggunaan sistem file, termasuk target pemasangan sistem file, ukuran blok, jumlah blok yang digunakan dan jumlah blok yang tersedia, serta jumlah inode yang digunakan dan jumlah inode yang tersedia. |
Metrik terkait jaringan
Metrik | Tipe | Satuan | Deskripsi |
sysom_proc_networks | gauge | - | Menampilkan informasi tentang transfer data kartu antarmuka jaringan (NIC) pada sebuah node. Metrik ini menunjukkan informasi transfer data NIC, termasuk jumlah total paket data yang diterima atau dikirim oleh NIC, jumlah total byte, jumlah total paket data yang dibuang oleh driver perangkat, dan jumlah total paket data yang gagal dikirim atau diterima. |
sysom_proc_pkt_status | gauge | - | Menampilkan informasi tentang paket data yang diproses oleh tumpukan protokol jaringan sebuah node. Metrik ini menunjukkan jumlah peristiwa yang terjadi ketika paket data melewati tumpukan protokol jaringan, termasuk jumlah kali kehilangan paket, jumlah overflow, dan jumlah asersi tidak valid. |
sysom_sock_stat | gauge | - | Metrik ini dapat membantu mengidentifikasi masalah socket atau buffer yang tidak cukup yang disebabkan oleh logika aplikasi atau parameter sistem. Metrik ini menampilkan statistik tentang penggunaan socket dan buffer, termasuk penggunaan total, raw, TCP, dan UDP socket, jumlah socket dalam keadaan TCP time wait atau orphan, dan penggunaan memori socket TCP dan UDP. |
sysom_softnets | gauge | - | Menampilkan informasi tentang paket data yang diterima oleh softirq NIC setiap CPU pada sebuah node. Metrik ini menunjukkan statistik tentang softirq NIC sebuah CPU, termasuk jumlah paket yang diterima atau dikirim oleh softirq dan jumlah kali fungsi net_rx_action dipanggil untuk menangani softirq penerimaan paket. |
sysom_net_health_hist | gauge | - | Menampilkan tren waktu perjalanan bolak-balik (RTT) semua koneksi TCP pada sebuah node. Metrik ini menunjukkan tren RTT semua koneksi TCP pada sebuah node. Metrik ini menghitung jumlah koneksi yang sesuai dengan setiap nilai RTT rata-rata, seperti 10 milidetik, 100 milidetik, dan 1 detik. |
sysom_net_health_count | gauge | - | Metrik ini mirip dengan metrik |
sysom_net_retrans_count | gauge | - | Menampilkan informasi retransmisi tentang semua koneksi TCP pada sebuah node. Metrik ini menunjukkan jenis paket data yang diretransmisikan melalui koneksi TCP dan jumlah paket data yang diretransmisikan dari setiap jenis (seperti paket SYN, SYN-ACK, dan RESET), termasuk jumlah paket yang diretransmisikan karena timeout retransmisi. |
sysom_net_tcp_count | gauge | - | Menampilkan informasi dasar tentang koneksi TCP pada sebuah node. Metrik ini menunjukkan statistik tentang koneksi TCP, termasuk jumlah koneksi TCP aktif, jumlah segmen TCP yang diterima atau dikirim, jumlah segmen TCP yang diretransmisikan, dan jumlah paket yang gagal diterima. |
sysom_net_udp_count | gauge | - | Menampilkan informasi dasar tentang koneksi UDP pada sebuah node. Metrik ini menunjukkan statistik tentang koneksi UDP, termasuk jumlah paket UDP yang diterima atau dikirim, jumlah kali buffer pengiriman atau penerimaan UDP mengalami kesalahan, dan jumlah paket data yang mengalami kesalahan karena tidak ada port yang tersedia. |
sysom_net_ip_count | gauge | - | Menampilkan informasi dasar tentang lapisan IP sebuah node. Metrik ini menunjukkan statistik tentang lapisan IP, termasuk jumlah paket data yang diteruskan, diterima, atau dikirim. |
sysom_net_icmp_count | gauge | - | Menampilkan informasi dasar tentang protokol ICMP sebuah node. Metrik ini menunjukkan statistik tentang protokol ICMP, termasuk jumlah paket data yang diterima atau dikirim oleh ICMP dan jumlah paket data yang gagal diterima atau dikirim. |
Metrik sistem lainnya
Metrik | Tipe | Satuan | Deskripsi |
sysom_cgroups | gauge | - | Menampilkan jumlah cgroups yang digunakan oleh berbagai subsistem cgroup untuk membantu Anda mengidentifikasi kebocoran cgroup. Metrik ini menunjukkan jumlah cgroups dalam berbagai subsistem cgroup, termasuk CPU, Cpuacct, Memory, Pids, Blkio, dan Devices subsistem. |
sysom_uptime | gauge | s (detik) | Menampilkan beban sistem. Metrik ini menunjukkan waktu aktif sistem dari saat sistem mulai hingga saat ini. Metrik ini juga menunjukkan waktu idle sistem. |
Metrik terkait kontainer
Metrik kontainer mencakup CPU, memori, IO, jaringan, dan metrik lainnya.
Metrik terkait CPU dan penjadwalan
Metrik | Tipe | Satuan | Deskripsi |
sysom_container_cpu_stat | gauge | - | Membantu Anda memantau dan menilai apakah kuota sumber daya perlu disesuaikan atau optimisasi lainnya diperlukan. Metrik ini menunjukkan statistik tentang batasan CPU untuk kontainer, termasuk jumlah kali batasan CPU diberlakukan di setiap cgroup, total jumlah kali batasan CPU diberlakukan, dan durasi pemberlakuan batasan CPU. |
sysom_container_cpu_acctstat | gauge | % | Menampilkan informasi penggunaan CPU kontainer. Metrik ini menunjukkan utilisasi CPU tugas dalam kontainer yang berjalan di setiap mode, termasuk utilisasi CPU dalam mode pengguna, utilisasi CPU dalam mode kernel, dan total utilisasi CPU. |
sysom_container_cpu_cfsquota | gauge | - | Menampilkan periode waktu selama mana sebuah kontainer dibatasi oleh Completely Fair Scheduler (CFS). Metrik ini menunjukkan jumlah waktu yang dapat dijalankan oleh sebuah kontainer dalam setiap jendela waktu CFS, termasuk parameter cfs_period_us dan cfs_quota_us.
|
Metrik terkait memori
Metrik | Tipe | Satuan | Deskripsi |
sysom_container_memory_stat | gauge | KiB | Menampilkan penggunaan berbagai jenis sumber daya memori dalam kontainer. Metrik ini menunjukkan statistik tentang penggunaan memori kontainer, termasuk total memori (Total), memori bebas (Free), memori tersedia (Available), cache (Cache), buffer (Buffers), memori yang dapat direklaim (SReclaimable), dan memori yang tidak dapat direklaim (SUnreclaim). |
sysom_container_memory_filecache | gauge | KiB | Metrik ini membantu Anda dengan cepat mempelajari penggunaan page caches dalam kontainer dan mengidentifikasi masalah seperti memori tidak cukup, latensi memori, dan jitter memori yang disebabkan oleh penggunaan berlebihan page caches. Metrik ini menunjukkan penggunaan page caches dalam kontainer, termasuk 10 file teratas yang paling banyak menggunakan page caches di setiap kontainer, ukuran setiap file, dan total ukuran page caches yang digunakan. |
sysom_container_memory_gdrcm_latency | gauge | Kali | Menampilkan jumlah penundaan yang disebabkan oleh pemulihan memori karena sumber daya memori tidak cukup dan durasi penundaan tersebut. Metrik ini menunjukkan jumlah penundaan yang disebabkan oleh pemulihan memori karena sumber daya memori tidak cukup dan durasi penundaan tersebut, termasuk jumlah penundaan yang berkisar antara 1 milidetik hingga 5 milidetik, jumlah penundaan yang berkisar antara 5 milidetik hingga 10 milidetik, jumlah penundaan yang berkisar antara 10 milidetik hingga 100 milidetik, jumlah penundaan yang berkisar antara 100 milidetik hingga 500 milidetik, jumlah penundaan yang berkisar antara 500 milidetik hingga 1.000 milidetik, dan jumlah penundaan yang melebihi 1.000 milidetik. |
sysom_container_memory_cdrcm_latency | gauge | Kali | Menampilkan jumlah penundaan yang disebabkan oleh pemulihan memori karena cgroups memori tidak cukup dan durasi penundaan tersebut. Catatan Metrik ini hanya valid jika cgroups memori saat ini adalah cgroups non-root atau batasan memori telah dikonfigurasi untuk cgroups memori saat ini. Metrik ini menunjukkan jumlah penundaan yang disebabkan oleh pemulihan memori karena cgroups memori tidak cukup dan durasi penundaan tersebut, termasuk jumlah penundaan yang berkisar antara 1 milidetik hingga 5 milidetik, jumlah penundaan yang berkisar antara 5 milidetik hingga 10 milidetik, jumlah penundaan yang berkisar antara 10 milidetik hingga 100 milidetik, jumlah penundaan yang berkisar antara 100 milidetik hingga 500 milidetik, jumlah penundaan yang berkisar antara 500 milidetik hingga 1.000 milidetik, dan jumlah penundaan yang melebihi 1.000 milidetik. |
sysom_container_memory_cpt_latency | gauge | Kali | Menampilkan jumlah penundaan yang disebabkan oleh penyesuaian memori kernel. Ketika sebuah proses dalam kontainer mengajukan permintaan sumber daya memori, penyesuaian memori dipicu jika node memiliki memori yang tidak cukup atau sejumlah besar fragmen memori. Metrik ini menunjukkan jumlah penundaan yang disebabkan oleh penyesuaian memori kernel dan durasi penundaan tersebut, termasuk jumlah penundaan yang berkisar antara 1 milidetik hingga 5 milidetik, jumlah penundaan yang berkisar antara 5 milidetik hingga 10 milidetik, jumlah penundaan yang berkisar antara 10 milidetik hingga 100 milidetik, jumlah penundaan yang berkisar antara 100 milidetik hingga 500 milidetik, jumlah penundaan yang berkisar antara 500 milidetik hingga 1.000 milidetik, dan jumlah penundaan yang melebihi 1.000 milidetik. |
Metrik terkait IO
Metrik | Tipe | Satuan | Deskripsi |
sysom_container_blkio_stat | gauge | - | Menampilkan informasi IO dasar tentang kontainer. Metrik ini menunjukkan statistik IO disk yang digunakan oleh sebuah kontainer, termasuk jumlah dan byte permintaan baca atau tulis ke disk, jumlah dan byte permintaan baca atau tulis yang dikirimkan ke antrian, dan waktu tunggu permintaan baca atau tulis. |
Metrik terkait jaringan
Metrik | Tipe | Satuan | Deskripsi |
sysom_container_network_stat | gauge | - | Menampilkan informasi transfer data dasar tentang kontainer. Metrik ini menunjukkan statistik transfer data NIC virtual, termasuk jumlah paket data atau byte yang diterima atau dikirim oleh NIC virtual dan jumlah paket data yang dibuang oleh perangkat NIC virtual. Paket data yang dibuang oleh tumpukan protokol jaringan tidak diperhitungkan. |