Saat engine Nacos Anda menangani pendaftaran layanan, distribusi konfigurasi, dan notifikasi push dalam skala besar, Anda memerlukan visibilitas real-time terhadap bottleneck kinerja, batas kapasitas, dan kesehatan infrastruktur. Pusat Pemantauan di Microservices Engine (MSE) menyediakan dasbor terpadu yang melacak metrik-metrik ini dalam delapan kategori, sehingga Anda dapat mendeteksi anomali dan menyelesaikan masalah sebelum memengaruhi layanan Anda.
Prasyarat
Sebelum memulai, pastikan Anda telah memiliki:
Engine Nacos yang menjalankan versi 2.0.4 atau lebih baru
Pilih dasbor
MSE menyediakan dua dasbor pemantauan. Dasbor Grafana direkomendasikan karena mencakup jauh lebih banyak metrik.
| Dasbor | Cakupan metrik | Rentang waktu default | Direkomendasikan untuk |
|---|---|---|---|
| Grafana dashboard | 8 kategori metrik di tab khusus | 15 menit terakhir | Semua pengguna pada Edisi Profesional |
| Legacy dashboard | 3 metrik dasar (jumlah layanan, jumlah provider, RT write) | 30 menit terakhir | Pengguna yang belum melakukan upgrade |
Jika engine Anda masih menggunakan legacy dashboard, upgrade ke dasbor Grafana untuk observabilitas penuh.
Aktifkan dasbor Grafana
Engine Edisi Dasar
Dasbor Grafana diaktifkan secara otomatis setelah Anda meng-upgrade engine ke Edisi Profesional. Untuk informasi selengkapnya, lihat Upgrade versi Nacos.
Engine Edisi Profesional (versi 2.0.3 atau lebih lama)
Jika engine Anda menjalankan versi 2.0.3 atau lebih lama, aktifkan dasbor Grafana secara manual:
Login ke Konsol MSE dan pilih wilayah di bilah navigasi atas.
Di panel navigasi kiri, pilih Microservices Registry > Instances.
Klik nama instans target.
Di panel navigasi kiri, klik Observation Analysis.
Klik Upgrade Monitoring Dashboard dan ikuti petunjuk di layar.

Setelah upgrade selesai, halaman Monitoring Center menjadi tersedia.
Gunakan dasbor Grafana
Dasbor Grafana mengorganisasi metrik ke dalam tab-tab yang dirancang untuk tujuan tertentu. Mulailah dari tab Overview untuk mendeteksi anomali, lalu telusuri tab spesifik untuk menginvestigasi akar permasalahan.
| Tujuan investigasi | Mulai di sini |
|---|---|
| Pemeriksaan kesehatan cepat | Overview dan Top N Monitoring |
| Masalah registri layanan | Registry Monitoring dan Push monitoring |
| Masalah konfigurasi | Configuration center monitoring |
| Masalah infrastruktur | JVM Monitoring dan Resource Monitoring |
| Masalah koneksi | Number of connections monitoring |
Buka Pusat Pemantauan
Login ke Konsol MSE dan pilih wilayah di bilah navigasi atas.
Di panel navigasi kiri, pilih Microservices Registry > Instances.
Di halaman Instances, klik nama instans target.
Di panel navigasi kiri, klik Monitoring Center.
Kontrol dasbor
Rentang waktu: Jendela pemantauan default adalah 15 menit terakhir. Untuk mengubahnya, klik pemilih rentang waktu di pojok kanan atas dan pilih rentang preset atau kustom.
Granularitas data: Arahkan kursor ke titik mana pun pada grafik untuk melihat nilai metrik per node pada saat tersebut, akurat hingga menit.
Refresh: Klik ikon
di pojok kanan atas untuk memuat ulang data saat ini.
Tab Overview
Tab Overview memberikan ringkasan tingkat tinggi mengenai kesehatan engine Anda. Gunakan sebagai titik awal selama pemeriksaan rutin dan triase insiden.
Ikhtisar
| Metrik | Apa yang diukur | Yang perlu diperhatikan |
|---|---|---|
| Number of nodes | Total node engine dalam kluster | Penurunan mendadak mengindikasikan kegagalan node. Verifikasi bahwa jumlahnya sesuai dengan ukuran kluster yang diharapkan. |
| Number of configurations | Total entri konfigurasi yang dikelola oleh engine | Perubahan tak terduga mungkin mengindikasikan pembaruan konfigurasi tanpa izin. |
| Number of service providers | Total instans provider layanan terdaftar | Penurunan mendadak menunjukkan instans provider sedang deregistrasi, yang mungkin mengarah pada masalah penerapan atau kegagalan jaringan. |
| Queries per second | Throughput permintaan baca (QPS) | Lonjakan melebihi garis dasar Anda mungkin mengindikasikan lonjakan traffic. Penurunan ke nol mungkin mengindikasikan ketidaktersediaan engine. |
| Operations per second | Throughput permintaan tulis (TPS) | Lonjakan berkelanjutan mungkin mengindikasikan pembaruan batch atau client yang tidak terkendali. |
| Number of connections | Koneksi client aktif ke engine | Bandingkan dengan garis dasar. Penurunan mendadak mungkin mengindikasikan partisi jaringan. |
Bagian Tingkat Penggunaan
| Metric | Ukuran yang diukur | Yang perlu diperhatikan |
|---|---|---|
| Configuration number using water level | Jumlah konfigurasi sebagai persentase dari kapasitas engine | Nilai mendekati 100% menunjukkan bahwa engine hampir mencapai batas kapasitasnya. Lakukan peningkatan spesifikasi engine sebelum terjadi saturasi. |
| Service Provider Water Level | Jumlah service provider sebagai persentase dari kapasitas engine | Sama seperti di atas. Rencanakan peningkatan kapasitas jika penggunaan secara konsisten tinggi. |
| Connection using water level | Jumlah koneksi sebagai persentase dari kapasitas engine | Sama seperti di atas. Penggunaan koneksi yang tinggi dapat menyebabkan klien baru gagal terhubung. |
Klien Eureka hanya mendukung koneksi singkat, sehingga jumlah koneksi tidak dilaporkan untuk aplikasi berbasis Eureka.
Tab Registry Monitoring
Tab Registry Monitoring melacak kinerja pendaftaran dan penemuan layanan. Gunakan untuk mendiagnosis penemuan layanan lambat, kegagalan pendaftaran, atau masalah kapasitas.
| Metrik | Apa yang diukur | Yang perlu diperhatikan |
|---|---|---|
| Number of services | Total layanan terdaftar | Penurunan mendadak mengindikasikan layanan deregistrasi secara tak terduga. |
| Number of Service Providers | Total instans provider layanan | Bandingkan dengan ukuran penerapan yang diharapkan. Ketidaksesuaian mengindikasikan kegagalan pendaftaran. |
| Number of service subscribers | Total instans subscriber layanan | Peningkatan cepat mungkin mengindikasikan badai subscriber akibat klien yang salah konfigurasi. |
| Registration Center TPS | Transaksi tulis per detik untuk operasi pendaftaran | Lonjakan berkelanjutan disertai kenaikan RT tulis mengindikasikan konflik sumber daya. |
| Registration Center QPS | Permintaan baca per detik untuk operasi penemuan | Lonjakan di sini berkorelasi dengan peningkatan permintaan penemuan layanan dari penerapan baru atau event scaling. |
| Registration Center Write RT | Waktu respons rata-rata untuk operasi tulis | Latensi tulis yang meningkat perlu diinvestigasi. Periksa tab Resource Monitoring dan JVM Monitoring untuk mengidentifikasi bottleneck. |
| Registration Center Read RT | Waktu respons rata-rata untuk operasi baca | Sama seperti RT tulis. Latensi baca yang meningkat mungkin mengindikasikan beban meningkat atau tekanan pengumpulan sampah. |
Nacos 2.0.4 dan versi lebih baru menyertakan empat layanan bawaan untuk penemuan alamat menggunakan protokol Diamond (Application Configuration Management). Jumlah layanan dan jumlah provider yang ditampilkan di sini adalah nilai aktual ditambah 4.
Klien Eureka tidak mendukung langganan layanan dan menggunakan polling query sebagai gantinya. Jumlah subscriber layanan tidak dilaporkan untuk aplikasi berbasis Eureka.
Tab configuration center monitoring
Tab Configuration center monitoring melacak kinerja manajemen konfigurasi. Gunakan untuk menginvestigasi push konfigurasi lambat, akumulasi listener, atau bottleneck tulis.
| Metrik | Apa yang diukur | Yang perlu diperhatikan |
|---|---|---|
| Number of configurations | Total entri konfigurasi | Perubahan mendadak mungkin mengindikasikan impor batch atau penghapusan tidak sengaja. |
| Configure the number of listeners | Total listener konfigurasi di semua entri | Lonjakan biasanya berkorelasi dengan rollout penerapan batch. Jumlah listener tinggi yang berkelanjutan meningkatkan overhead push. |
| Configuration Center TPS | Transaksi tulis per detik untuk perubahan konfigurasi | Lonjakan disertai kenaikan RT tulis mengindikasikan engine berada di bawah tekanan tulis. |
| Configuration Center QPS | Permintaan baca per detik untuk pencarian konfigurasi | QPS tinggi mungkin mengindikasikan klien melakukan polling terlalu agresif daripada menggunakan pembaruan berbasis push. |
| Configuration Center Write RT | Waktu respons rata-rata untuk penulisan konfigurasi | Nilai sehat berada di kisaran milidetik rendah. Nilai yang meningkat mengindikasikan konflik sumber daya. |
| Configuration Center Read RT | Waktu respons rata-rata untuk pembacaan konfigurasi | Sama seperti RT tulis. |
Tab Push monitoring
Tab Push monitoring melacak seberapa efektif engine mendorong notifikasi perubahan layanan ke subscriber. Pipeline push yang sehat sangat penting untuk responsivitas penemuan layanan.
| Metrik | Apa yang diukur | Yang perlu diperhatikan |
|---|---|---|
| Service Push Success Rate | Persentase notifikasi push yang berhasil dikirim | Tingkat di bawah 100% perlu segera diinvestigasi. Periksa tab Number of connections monitoring untuk masalah konektivitas dan verifikasi bahwa subscriber dapat dijangkau. |
| Time-consuming service push | Latensi rata-rata per notifikasi push | Latensi yang meningkat mungkin mengindikasikan kemacetan jaringan atau klien subscriber yang kelebihan beban. |
| Service Push TPS | Notifikasi push yang dikirim per detik | Berkorelasi dengan event penerapan atau scaling. Lonjakan berkelanjutan tanpa event yang sesuai mungkin mengindikasikan badai push. |
| Service Empty Proportion | Persentase push dengan daftar layanan kosong | Proporsi bukan nol mungkin mengindikasikan layanan deregistrasi secara tak terduga. Periksa tab Registry Monitoring untuk memastikan jumlah provider. |
Klien Eureka menggunakan polling query daripada notifikasi berbasis push, sehingga metrik push tidak tersedia untuk aplikasi berbasis Eureka.
Tab Number of connections monitoring
Tab Number of connections monitoring melacak konektivitas klien ke engine. Gunakan untuk mendiagnosis putusnya koneksi, inkonsistensi versi, dan masalah jaringan.
| Metrik | Apa yang diukur | Yang perlu diperhatikan |
|---|---|---|
| Number of client versions | Distribusi versi klien Nacos yang terhubung ke engine | Beberapa versi lama mungkin mengindikasikan penerapan tidak konsisten. Standarisasi versi klien untuk menghindari masalah kompatibilitas. |
| Number of Long Links | Koneksi persisten (panjang) aktif antara klien dan engine | Penurunan mungkin mengindikasikan masalah jaringan atau kegagalan di sisi klien. Bandingkan dengan tab Resource Monitoring untuk memeriksa anomali lalu lintas jaringan. |
Klien Eureka hanya mendukung koneksi singkat, sehingga metrik koneksi tidak dilaporkan untuk aplikasi berbasis Eureka.
Tab JVM Monitoring
Tab JVM Monitoring menampilkan metrik pengumpulan sampah (GC) dan memori untuk Java Virtual Machine (JVM) engine. Gunakan untuk mendiagnosis lonjakan latensi akibat tekanan GC atau kehabisan memori.
| Metrik | Apa yang diukur | Yang perlu diperhatikan |
|---|---|---|
| Young GC Time | Total waktu yang dihabiskan untuk pengumpulan sampah generasi muda | Peningkatan berkelanjutan berkorelasi dengan laju alokasi objek yang lebih tinggi. |
| Young GC Times | Jumlah event GC generasi muda | GC muda yang sering adalah normal di bawah beban, tetapi peningkatan mendadak mungkin mengindikasikan kebocoran memori atau lonjakan traffic. |
| Full GC time | Total waktu yang dihabiskan untuk pengumpulan sampah penuh | Setiap full GC menyebabkan jeda stop-the-world. Event full GC yang sering secara langsung meningkatkan waktu respons. |
| Full GC Times | Jumlah event full GC | Setiap full GC menyebabkan jeda stop-the-world. Event full GC yang sering secara langsung meningkatkan waktu respons. Jika metrik ini konsisten tinggi, pertimbangkan untuk meningkatkan spesifikasi engine. |
| Heap Memory Usage | Persentase penggunaan memori heap | Penggunaan memori heap tinggi meningkatkan frekuensi GC dan waktu respons. Pertimbangkan untuk meningkatkan spesifikasi engine jika penggunaan tetap tinggi. |
Tab Resource Monitoring
Tab Resource Monitoring menyediakan metrik tingkat infrastruktur untuk node engine. Gunakan untuk menentukan apakah masalah kinerja disebabkan oleh kendala sumber daya.
| Metrik | Apa yang diukur | Yang perlu diperhatikan |
|---|---|---|
| Inlet flow | Lalu lintas jaringan masuk | Lonjakan mendadak mungkin mengarah pada lonjakan traffic. |
| Outlet flow | Lalu lintas jaringan keluar | Berkorelasi dengan push TPS. Lalu lintas keluar tinggi dengan tingkat keberhasilan push rendah mungkin mengindikasikan saturasi jaringan. |
| Memory Usage | Utilisasi memori sistem | Penggunaan tinggi yang berkelanjutan mengindikasikan engine mungkin perlu peningkatan spesifikasi. |
| CPU Usage | Utilisasi CPU | Penggunaan tinggi yang berkelanjutan mengindikasikan engine mungkin perlu peningkatan spesifikasi. |
| Number of nodes | Jumlah node saat ini dalam kluster | Penurunan mengindikasikan kegagalan node. |
| Load Indicator | Rata-rata beban sistem | Rata-rata beban tinggi relatif terhadap jumlah core CPU mengindikasikan engine mungkin kelebihan beban. |
Tab Top N Monitoring
Tab Top N Monitoring menyoroti layanan dan konfigurasi paling aktif. Gunakan untuk mengidentifikasi hotspot yang mengonsumsi sumber daya secara tidak proporsional.
Service Top N Dashboard
| Metrik | Apa yang diukur | Yang perlu diperhatikan |
|---|---|---|
| Number of service providers TopN | Layanan dengan instans provider terbanyak | Jika satu layanan mendominasi, evaluasi apakah layanan tersebut perlu dipecah menjadi layanan yang lebih kecil. |
| Number of service subscribers TopN | Layanan dengan instans subscriber terbanyak | Subscriber berlebihan pada satu layanan meningkatkan overhead push. |
| IP Push Failure Times TopN | IP klien dengan kegagalan notifikasi push terbanyak | IP yang berulang mungkin mengindikasikan klien tertentu dengan masalah jaringan atau konfigurasi. |
Configure TopN Dashboard
| Metrik | Apa yang diukur | Yang perlu diperhatikan |
|---|---|---|
| Number of Configuration Changes TopN | Konfigurasi dengan perubahan paling sering | Perubahan sering pada satu konfigurasi mungkin mengindikasikan pipeline otomatisasi yang salah konfigurasi. |
| Configure the number of listeners TopN | Konfigurasi dengan listener terbanyak | Konfigurasi dengan listener berlebihan meningkatkan overhead push. Pertimbangkan untuk membagi konfigurasi jika memungkinkan. |
Fitur lanjutan
Integrasi Managed Service for Grafana
Untuk observabilitas lanjutan, klik Using Grafana Expert Edition di pojok kanan atas untuk membuka konsol Managed Service for Grafana. Ini menyediakan dasbor Grafana multi-tenant dengan opsi visualisasi dan peringatan tambahan.
Embed Halaman Pemantauan
Untuk menyematkan tab pemantauan tertentu di dasbor atau portal eksternal, klik Open in New Window XX (di mana XX adalah nama tab) di pojok kanan atas. Ini membuka tab dalam halaman mandiri dengan URL yang dapat dibagikan.
Contohnya, di tab Registry Monitoring, klik Open in New Window Registry Monitoring untuk membuka tampilan pemantauan registri di tab browser terpisah.
Gunakan legacy dashboard
Jika dasbor Grafana belum diaktifkan, legacy dashboard menyediakan kumpulan metrik terbatas. Untuk mengakses kemampuan pemantauan lengkap, upgrade ke dasbor Grafana.
Login ke Konsol MSE dan pilih wilayah di bilah navigasi atas.
Di panel navigasi kiri, pilih Microservices Registry > Instances.
Di halaman Instances, klik nama instans target.
Di panel navigasi kiri, klik Observation Analysis.
Klik tab Monitoring. Metrik berikut ditampilkan:
Metrik Apa yang diukur Number of services Total layanan terdaftar Number of service providers Total instans provider layanan Average response time (RT) of the service write interface (ms) Latensi tulis rata-rata dalam milidetik
Kontrol dasbor lama:
Rentang waktu: Jendela pemantauan default adalah 30 menit terakhir. Opsi preset meliputi Last 30 minutes, Last 1 hour, Last 6 hours, dan Last 24 hours. Rentang waktu kustom juga didukung.
Filtering node: Data pemantauan tiga node dalam engine ditampilkan dengan warna berbeda. Klik nama node di legenda grafik untuk menampilkan atau menyembunyikan data node tersebut. Setidaknya satu node harus tetap terlihat.
Granularitas data: Arahkan kursor ke titik mana pun pada grafik untuk melihat nilai metrik ketiga node pada saat tersebut, akurat hingga menit.
Refresh: Klik ikon
di pojok kanan atas untuk memuat ulang data saat ini.