Elastic Compute Service (ECS) menyediakan dua jenis metrik untuk memantau sumber daya seperti penggunaan CPU dan disk: metrik pemantauan infrastruktur dan metrik pemantauan sistem operasi. Metrik pemantauan infrastruktur dikumpulkan oleh ECS dari host melalui metode tanpa agen, yang memberikan perspektif eksternal tanpa memerlukan instalasi probe. Sementara itu, metrik pemantauan sistem operasi dikumpulkan oleh Agen CloudMonitor yang diinstal pada instance ECS, menggunakan metode berbasis agen untuk memberikan perspektif internal dengan mengumpulkan metrik dari dalam sistem operasi. Topik ini menjelaskan metode pengumpulan, skenario penggunaan, serta definisi kedua jenis metrik tersebut.
Perbedaan antara pemantauan infrastruktur dan pemantauan sistem operasi
Perbandingan | Pemantauan infrastruktur | Pemantauan sistem operasi |
Lokasi pemantauan | Stack virtualisasi | Di dalam sistem operasi mesin virtual |
Frekuensi pengumpulan | Sekali per menit | Sekali per detik |
Output agregat | Tidak ada | Data diambil sampelnya sekali per detik dan diagregasikan menjadi satu titik data setiap 15 detik. Tiga metrik dihasilkan: minimum (min), rata-rata (avg), dan maksimum (max). |
Persyaratan instalasi | Tidak memerlukan probe. Siap digunakan langsung. | Memerlukan instalasi Agen CloudMonitor. |
Kelebihan |
|
|
Kekurangan |
|
|
Skenario khas | Pemantauan infrastruktur untuk suatu instans tidak terpengaruh oleh status berjalan VM. Cocok untuk troubleshooting kegagalan seperti hang atau breakdown instans. Namun, frekuensi sampling yang rendah membuatnya tidak cocok untuk skenario yang memerlukan penangkapan fluktuasi kinerja cepat. | Diagnostik kinerja aplikasi, pemantauan waktu nyata, dan peringatan. |
Pemantauan infrastruktur
ECS mengumpulkan data pemantauan instance dari host tanpa memerlukan instalasi plugin tingkat sistem operasi (OS). Fitur ini siap digunakan langsung.
Pengumpulan dan pelaporan
Probe pengumpulan pada host mengumpulkan satu titik data per menit untuk instance tersebut. Titik data ini merepresentasikan nilai penggunaan rata-rata selama interval satu menit tersebut.
Metrik
Data pemantauan infrastruktur untuk instance ECS dikumpulkan dengan granularitas satu menit. Tabel berikut menjelaskan metrik-metrik tersebut.
Jika grafik menampilkan titik data dengan granularitas satu menit, nilai Maksimum, Minimum, dan Rata-rata akan sama.
Nama Metrik | Deskripsi metrik | Unit | MetricName | Dimensi | Statistik |
(ECS) Penggunaan CPU | Penggunaan CPU | % | CPUUtilization | userId, instanceId | Maksimum, Minimum, Rata-rata |
(ECS) Bandwidth Internet inbound (jaringan klasik) | Laju rata-rata lalu lintas Internet inbound | bit/s | InternetInRate | userId, instanceId | Maksimum, Minimum, Rata-rata |
(ECS) Bandwidth jaringan privat inbound | Laju rata-rata lalu lintas jaringan privat inbound | bit/s | IntranetInRate | userId, instanceId | Maksimum, Minimum, Rata-rata |
(ECS) Bandwidth Internet outbound (jaringan klasik) | Laju rata-rata lalu lintas Internet outbound | bit/s | InternetOutRate | userId, instanceId | Maksimum, Minimum, Rata-rata |
(ECS) Bandwidth jaringan privat outbound | Laju rata-rata lalu lintas jaringan privat outbound | bit/s | IntranetOutRate | userId, instanceId | Maksimum, Minimum, Rata-rata |
(ECS) BPS baca untuk semua disk | Total byte yang dibaca dari disk sistem per detik | Byte/s | DiskReadBPS | userId, instanceId | Maksimum, Minimum, Rata-rata |
(ECS) BPS tulis untuk semua disk | Total byte yang ditulis ke disk sistem per detik | Byte/s | DiskWriteBPS | userId, instanceId | Maksimum, Minimum, Rata-rata |
(ECS) IOPS baca untuk semua disk | IOPS baca untuk semua disk | counts/s | DiskReadIOPS | userId, instanceId | Maksimum, Minimum, Rata-rata |
(ECS) IOPS tulis untuk semua disk | IOPS tulis untuk semua disk | counts/s | DiskWriteIOPS | userId, instanceId | Rata-rata, Minimum, Maksimum |
(ECS) Bandwidth Internet inbound berdasarkan alamat IP | Bandwidth Internet inbound | bit/s | VPC_PublicIP_InternetInRate | userId, instanceId, ip | Maksimum, Minimum, Rata-rata |
(ECS) Bandwidth Internet outbound berdasarkan alamat IP | Bandwidth Internet outbound | bit/s | VPC_PublicIP_InternetOutRate | userId, instanceId, ip | Maksimum, Minimum, Rata-rata |
(ECS) Utilisasi bandwidth Internet outbound berdasarkan alamat IP | Penggunaan bandwidth Internet outbound | % | VPC_PublicIP_InternetOutRate_Percent | userId, instanceId, ip | Rata-rata |
(ECS) Lalu lintas Internet inbound (jaringan klasik) | Lalu lintas Internet inbound | Byte | InternetIn | userId, instanceId | Rata-rata, Minimum, Maksimum, Jumlah |
(ECS) Lalu lintas Internet outbound (jaringan klasik) | Lalu lintas Internet outbound | Byte | InternetOut | userId, instanceId | Maksimum, Minimum, Rata-rata |
Lihat data pemantauan infrastruktur
Masuk ke Konsol Cloud Monitor.
Di panel navigasi sebelah kiri, pilih .
Pada halaman Host Monitoring, klik nama host atau klik Monitoring Charts di kolom Actions host tersebut.
Klik tab Infrastructure Monitoring.
Di tab Infrastructure Monitoring, Anda dapat melihat data pemantauan infrastruktur host target. Anda juga dapat mengatur aturan peringatan untuk metrik dan melihat peringatan. Untuk informasi selengkapnya, lihat Buat aturan peringatan untuk host dan Lihat peringatan.
Pemantauan sistem operasi
CloudMonitor mengumpulkan berbagai metrik tingkat OS menggunakan Agen CloudMonitor yang diinstal pada host Alibaba Cloud (instance ECS) maupun host non-Alibaba Cloud. Anda dapat mengatur aturan peringatan untuk metrik-metrik ini. Ketika suatu metrik memicu aturan peringatan, CloudMonitor akan mengirimkan notifikasi peringatan sehingga Anda dapat segera menangani masalah tersebut.
Prasyarat
Pastikan Anda telah menginstal Agen CloudMonitor pada host Alibaba Cloud (instance ECS) dan host non-Alibaba Cloud Anda.
Pengumpulan dan pelaporan
Probe host CloudMonitor mengambil sampel data sekali per detik. Data tersebut kemudian diagregasikan menjadi satu titik data setiap 15 detik sebelum dilaporkan ke server. Setiap laporan mencakup tiga nilai untuk interval 15 detik tersebut: min (nilai minimum), max (nilai maksimum), dan avg (nilai rata-rata).
Metrik
Metrik pemantauan sistem operasi dikumpulkan dengan frekuensi sekali setiap 15 detik dan dikategorikan sebagai berikut:
Metrik terkait CPU
Windows
Fungsi `NtQuerySystemInformation` dalam `ntdll` dipanggil untuk mendapatkan waktu yang dihabiskan oleh setiap bagian CPU. Dengan memanggil fungsi ini dua kali dengan interval tertentu, Anda dapat menghitung persentase waktu yang dihabiskan oleh setiap bagian CPU selama interval tersebut.
Linux
Untuk informasi selengkapnya tentang metrik dalam tabel berikut, lihat output perintah
top.
Nama Metrik
Deskripsi
Unit
MetricName
Dimensi
Statistik
Deskripsi (khusus Linux)
(Agent) cpu.idle
Persentase CPU idle.
%
cpu_idle
userId, instanceId
Maksimum, Minimum, Rata-rata
Persentase waktu CPU dalam keadaan idle.
(Agent) cpu.system
Persentase waktu CPU yang dihabiskan di kernel space.
%
cpu_system
userId, instanceId
Maksimum, Minimum, Rata-rata
Overhead dari context switch sistem. Nilai tinggi pada metrik ini menunjukkan terlalu banyak proses atau thread yang berjalan di server.
(Agent) cpu.user
Persentase waktu CPU yang dihabiskan di user space.
%
cpu_user
userId, instanceId
Maksimum, Minimum, Rata-rata
Konsumsi CPU oleh proses pengguna.
(Agent) cpu.wait
Persentase waktu CPU yang dihabiskan menunggu operasi I/O.
%
cpu_wait
userId, instanceId
Maksimum, Minimum, Rata-rata
Nilai tinggi pada metrik ini menunjukkan operasi I/O yang sering terjadi.
(Agent) cpu.other
Persentase waktu CPU yang dihabiskan untuk tugas lainnya.
%
cpu_other
userId, instanceId
Maksimum, Minimum, Rata-rata
Konsumsi lain = Nice + SoftIrq + Irq + Stolen.
(Agent) cpu.total
Total persentase CPU yang dikonsumsi.
%
cpu_total
userId, instanceId
Maksimum, Minimum, Rata-rata
Penggunaan CPU = 1 - Host.cpu.idle
Metrik terkait memori
Windows
Fungsi `GlobalMemoryStatusEx` dalam `kernel32.dll` dipanggil untuk mendapatkan penggunaan memori fisik dan virtual saat ini untuk sistem operasi Windows 32-bit.
Linux
Untuk informasi selengkapnya tentang metrik dalam tabel berikut, lihat output perintah
free. Sumber data adalah/proc/meminfo.
Metrik
Deskripsi
Unit
MetricName
Dimensi
Statistik
Deskripsi (khusus Linux)
(Agent) memory.total.space
Total memori.
Byte
memory_totalspace
userId, instanceId
Maksimum, Minimum, Rata-rata
Jumlah total memori pada server.
Ini sesuai dengan MemTotal di /proc/meminfo.
(Agent) memory.free.space
Jumlah memori bebas.
Byte
memory_freespace
userId, instanceId
Maksimum, Minimum, Rata-rata
Jumlah memori yang tersedia di sistem.
Ini sesuai dengan MemFree di /proc/meminfo.
(Agent) memory.used.space
Jumlah memori yang digunakan.
Byte
memory_usedspace
userId, instanceId
Maksimum, Minimum, Rata-rata
Jumlah memori yang digunakan di sistem.
Metode perhitungan: total - free.
(Agent) memory.actualused.space
Jumlah memori yang dikonsumsi oleh pengguna.
Byte
memory_actualusedspace
userId, instanceId
Maksimum, Minimum, Rata-rata
Metode perhitungan:
Jika MemAvailable ada di /proc/meminfo: total - MemAvailable
Jika MemAvailable tidak ada di /proc/meminfo: used - buffers - cached
CatatanPada sistem seperti CentOS 7.2 dan Ubuntu 16.04 atau versi lebih baru yang menggunakan kernel Linux baru, estimasi memori lebih akurat. Untuk informasi selengkapnya tentang arti spesifik MemAvailable, lihat commit ini.
(Agent) memory.free.utilization
Persentase memori bebas.
%
memory_freeutilization
userId, instanceId
Maksimum, Minimum, Rata-rata
Metode perhitungan:
Jika MemAvailable ada di /proc/meminfo: (MemAvailable / total) × 100%.
Jika MemAvailable tidak ada di /proc/meminfo: ((total - actualused) / total) × 100%.
(Agent) memory.used.utilization
Penggunaan memori.
%
memory_usedutilization
userId, instanceId
Maksimum, Minimum, Rata-rata
Metode perhitungan:
Jika MemAvailable ada di /proc/meminfo: ((total - MemAvailable) / total) × 100%.
Jika MemAvailable tidak ada di /proc/meminfo: ((total - free - buffers - cached) / total) × 100%.
Metrik beban rata-rata sistem
Windows
Metrik pemantauan tidak tersedia.
Linux
Untuk informasi selengkapnya tentang metrik dalam tabel berikut, lihat output perintah
top. Nilai yang lebih tinggi menunjukkan sistem yang lebih sibuk.
Nama Metrik
Deskripsi
Unit
MetricName
Dimensi
Statistik
(Agent) load.1m
Beban sistem rata-rata selama 1 menit terakhir.
Tidak ada
load_1m
userId, instanceId
Maksimum, Minimum, Rata-rata
(Agent) load.5m
Beban sistem rata-rata selama 5 menit terakhir.
Tidak ada
load_5m
userId, instanceId
Maksimum, Minimum, Rata-rata
(Agent) load.15m
Beban sistem rata-rata selama 15 menit terakhir.
Tidak ada
load_15m
userId, instanceId
Maksimum, Minimum, Rata-rata
(Agent) load.1m.percore
Beban sistem rata-rata per core CPU selama 1 menit terakhir.
Tidak ada
load_per_core_1m
userId, instanceId
Maksimum, Minimum, Rata-rata
(Agent) load.5m.percore
Beban sistem rata-rata per core CPU selama 5 menit terakhir.
Tidak ada
load_per_core_5m
userId, instanceId
Maksimum, Minimum, Rata-rata
(Agent) load.15m.percore
Beban sistem rata-rata per core CPU selama 15 menit terakhir.
Tidak ada
load_per_core_15m
userId, instanceId
Maksimum, Minimum, Rata-rata
Metrik terkait disk
Windows
Pertama, fungsi `GetDiskFreeSpaceExA` dalam `Kernel32.dll` dipanggil untuk mengambil ruang disk yang tersedia. Ini memberikan ruang penyimpanan yang digunakan, penggunaan disk, ruang penyimpanan bebas, dan total ruang penyimpanan disk. Kemudian, fungsi `RegConnectRegistryA` dipanggil untuk menghubungkan ke registri `HKEY_PERFORMANCE_DATA`. Terakhir, fungsi `RegQueryValueExA` dipanggil untuk mengkueri properti terkait disk dari registri `HKEY_PERFORMANCE_DATA`. Properti ini mencakup jumlah baca, jumlah tulis, byte yang ditulis, byte yang dibaca, waktu yang dihabiskan untuk membaca, waktu yang dihabiskan untuk menulis, dan waktu penggunaan disk.
Linux
Untuk informasi selengkapnya tentang penggunaan disk dan penggunaan inode, lihat output perintah
df. Untuk informasi selengkapnya tentang baca/tulis disk, lihat output perintahiostat. Informasi ini membantu Anda memahami metrik dalam tabel berikut.
Metrik
Deskripsi
Unit
MetricName
Dimensi
Statistik
Host.diskusage.used
Ruang penyimpanan disk yang digunakan.
Byte
diskusage_used
userId, instanceId, device
Maksimum, Minimum, Rata-rata
Host.diskusage.utilization
Penggunaan disk untuk pengguna biasa.
%
diskusage_utilization
userId, instanceId, device
Maksimum, Minimum, Rata-rata
Host.diskusage.free
Ruang penyimpanan disk bebas untuk pengguna biasa dan superuser.
Byte
diskusage_free
userId, instanceId, device
Maksimum, Minimum, Rata-rata
(Agent) disk.usage.avail_device
Ruang penyimpanan disk bebas untuk pengguna biasa.
Byte
diskusage_avail
userId, instanceId, device
Maksimum, Minimum, Rata-rata
Host.diskusage.total
Total ruang penyimpanan disk.
Byte
diskusage_total
userId, instanceId, device
Maksimum, Minimum, Rata-rata
(Agent) disk.read.bps_device
Byte yang dibaca dari disk per detik.
Byte/s
disk_readbytes
userId, instanceId, device
Maksimum, Minimum, Rata-rata
(Agent) disk.write.bps_device
Byte yang ditulis ke disk per detik.
Byte/s
disk_writebytes
userId, instanceId, device
Maksimum, Minimum, Rata-rata
(Agent) disk.read.iops_device
Jumlah permintaan baca ke disk per detik.
counts/s
disk_readiops
userId, instanceId, device
Maksimum, Minimum, Rata-rata
(Agent) disk.write.iops_device
Jumlah permintaan tulis ke disk per detik.
counts/s
disk_writeiops
userId, instanceId, device
Maksimum, Minimum, Rata-rata
Metrik sistem file
Windows
Metrik pemantauan yang ditentukan tidak tersedia.
Linux
Untuk informasi selengkapnya tentang metrik dalam tabel berikut, lihat output perintah
df.
Nama Metrik Pemantauan
Deskripsi
Unit
MetricName
Dimensi
Statistik
Deskripsi (khusus Linux)
(Agent) fs.inode.utilization_device
Penggunaan inode.
%
fs_inodeutilization
userId, instanceId, device
Maksimum, Minimum, Rata-rata
Sistem Linux menggunakan nomor inode, bukan nama file, untuk mengidentifikasi file. Jika disk belum penuh tetapi semua inode telah dialokasikan, Anda tidak dapat membuat file baru di disk tersebut. Oleh karena itu, Anda perlu memantau penggunaan inode. Jumlah inode merepresentasikan jumlah file dalam sistem file. Banyak file kecil dapat menyebabkan penggunaan inode yang tinggi.
Metrik terkait jaringan
Windows
Pertama, fungsi `GetAdaptersAddresses` dalam `iphlpapi.dll` dipanggil untuk mengambil alamat adapter pada mesin lokal. Kemudian, fungsi `GetIfTable` dipanggil untuk mengambil metrik jaringan untuk setiap antarmuka. Metrik ini mencakup bit yang diterima per detik, bit yang dikirim per detik, paket yang diterima per detik, paket yang dikirim per detik, paket error yang diterima, dan paket error yang dikirim.
Linux
Untuk informasi selengkapnya tentang pengumpulan jumlah koneksi TCP, lihat output perintah
ss.CatatanJumlah koneksi TCP mengacu pada semua koneksi yang menggunakan protokol TCP pada host ECS.
Secara default, status koneksi TCP berikut dikumpulkan: TCP_TOTAL (total koneksi), ESTABLISHED (koneksi dalam status established), dan NON_ESTABLISHED (koneksi dalam status non-established, yang mencakup semua status selain ESTABLISHED).
Untuk informasi selengkapnya tentang metrik terkait jaringan dalam tabel berikut, lihat output perintah
iftop.
Nama Metrik
Deskripsi
Unit
MetricName
Dimensi
Statistik
(Agent) network.in.rate_device
Bit yang diterima oleh network interface card (NIC) per detik, yaitu bandwidth downstream NIC.
bit/s
networkin_rate
userId, instanceId, device
Maksimum, Minimum, Rata-rata
(Agent) network.out.rate_device
Bit yang dikirim oleh NIC per detik, yaitu bandwidth upstream NIC.
bit/s
networkout_rate
userId, instanceId, device
Maksimum, Minimum, Rata-rata
(Agent) network.in.packages_device
Paket yang diterima oleh NIC per detik.
packets/s
networkin_packages
userId, instanceId, device
Maksimum, Minimum, Rata-rata
(Agent) network.out.packages_device
Paket yang dikirim oleh NIC per detik.
packets/s
networkout_packages
userId, instanceId, device
Maksimum, Minimum, Rata-rata
(Agent) network.in.errorpackages_device
Jumlah paket error yang diterima yang dideteksi oleh driver perangkat.
packets/s
networkin_errorpackages
userId, instanceId, device
Maksimum, Minimum, Rata-rata
(Agent) network.out.errorpackages_device
Jumlah paket error yang dikirim yang dideteksi oleh driver perangkat.
packets/s
networkout_errorpackages
userId, instanceId, device
Maksimum, Minimum, Rata-rata
(Agent) network.tcp.connection_state
Jumlah koneksi TCP dalam berbagai status, termasuk: LISTEN, SYN_SENT, ESTABLISHED, SYN_RECV, FIN_WAIT1, CLOSE_WAIT, FIN_WAIT2, LAST_ACK, TIME_WAIT, CLOSING, dan CLOSED.
Count
net_tcpconnection
userId, instanceId, state
Maksimum, Minimum, Rata-rata
Metrik terkait 5 proses teratas
Windows
Kueri
Pertama, fungsi `OpenProcess` dalam `Kernel32.dll` dipanggil untuk mengakses proses. Fungsi `GetProcessTimes` dipanggil dua kali dengan interval tertentu untuk menghitung rasio penggunaan CPU. Kemudian, fungsi `RegConnectRegistryA` dipanggil untuk menghubungkan ke registri `HKEY_PERFORMANCE_DATA`. Terakhir, fungsi `RegQueryValueExA` dipanggil untuk mengkueri registri guna mendapatkan properti proses. Properti ini mencakup ID proses, ID proses induk, prioritas, memori virtual, memori resident, memori bersama, nama proses, jumlah file yang dibuka, jumlah thread, page fault, byte yang dibaca, dan byte yang ditulis.
Jumlah proses (Host.process.number)
Fungsi `OpenProcess` dipanggil untuk membuka proses target. Fungsi `NtQueryInformationProcess` dalam `NTDLL` dipanggil untuk mengambil informasi `RTL_USER_PROCESS_PARAMETERS`. Fungsi `ReadProcessMemory` dipanggil untuk mengambil command line proses. Tindakan ini mendapatkan argumen proses (args) dan path root tempat proses berjalan, yaitu direktori kerja saat ini.
Fungsi `OpenProcessToken` dipanggil untuk mengambil handle token akses. Fungsi `GetTokenInformation` dipanggil untuk mengambil informasi token. Fungsi `LookupAccountSid` dipanggil untuk mendapatkan username dan grup pengguna proses.
Untuk setiap proses, argumen (args), path root tempat berjalan, username, dan grup pengguna dicocokkan dengan kata kunci. Jika ditemukan kecocokan, penghitung akan ditambahkan sebesar 1.
Linux
Untuk informasi selengkapnya tentang penggunaan CPU dan memori proses, lihat output perintah
top. Penggunaan CPU mencerminkan penggunaan multi-core.Untuk informasi selengkapnya tentang Host.process.openfile, lihat output perintah
lsof.Untuk informasi selengkapnya tentang Host.process.number, lihat output perintah
ps aux | grep '<keyword>'.
Metrik
Deskripsi
Unit
MetricName
Dimensi
Statistik
Catatan
(Agent) process.cpu_pid
Persentase CPU yang dikonsumsi oleh proses tertentu.
%
process.cpu
userId, instanceId, name, pid
Rata-rata
Peringatan tidak didukung.
(Agent) process.memory_pid
Persentase memori yang dikonsumsi oleh proses tertentu.
%
process.memory
userId, instanceId, name, pid
Rata-rata
Peringatan tidak didukung.
(Agent) process.openfile_pid
Jumlah file yang dibuka oleh proses saat ini.
Unit
process.openfile
userId, instanceId, name, pid
Rata-rata
Peringatan tidak didukung.
(Agent) process.count_processname
Jumlah proses dengan kata kunci tertentu.
Unit
process.number
userId, instanceId, processName
Rata-rata
Peringatan tidak didukung.
Lihat data pemantauan sistem operasi
Masuk ke Konsol Cloud Monitor.
Di panel navigasi sebelah kiri, pilih .
Pada halaman Host Monitoring, klik nama host atau klik Monitoring Charts di kolom Actions host tersebut.
Di tab Operating System Monitoring, Anda dapat melihat data pemantauan sistem operasi host target. Anda juga dapat mengatur aturan peringatan untuk metrik dan melihat peringatan. Untuk informasi selengkapnya, lihat Buat aturan peringatan untuk host dan Lihat peringatan.