Microservices Engine (MSE) menyediakan aturan peringatan bawaan yang memantau pemanfaatan CPU, penggunaan memori, kinerja garbage collection (GC), dan batas kapasitas di seluruh instans MSE Anda. Aktifkan aturan ini untuk memberi notifikasi kepada kelompok kontak ketika metrik apa pun melebihi ambang batasnya, sehingga Anda dapat mendeteksi dan menyelesaikan masalah sebelum memengaruhi lalu lintas produksi.
Prasyarat
Sebelum memulai, pastikan Anda telah memiliki:
Instans MSE (Microservices Registry, Nacos, ZooKeeper, atau gerbang Ingress)
Setidaknya satu kelompok kontak peringatan
Aktifkan aturan peringatan default
Masuk ke Konsol MSE dan pilih wilayah di bilah navigasi atas.
Di panel navigasi kiri, pilih Microservices Registry > Instances.
Pada halaman Instances, temukan instans target lalu pilih More > Configure Default Alert di kolom Actions.
Pada kotak dialog Configure Default Alert, pilih kelompok kontak untuk Alert Contact Group lalu klik OK.
Setelah Anda mengklik OK, MSE akan menambahkan aturan peringatan default untuk kelompok kontak yang dipilih. Aturan tersebut bervariasi tergantung pada tipe dan edisi instans. Lihat bagian berikut untuk detailnya.
Aturan peringatan default
Microservices Registry
Berlaku untuk instans Edisi Dasar, Edisi Developer, dan Edisi Profesional.
| Alert rule | Threshold | Timeframe | Description | Solution |
|---|---|---|---|---|
| Beban CPU Instans Terlalu Tinggi | Pemanfaatan CPU > 80% per node | Continuous | Penggunaan CPU tinggi dapat mengindikasikan adanya cacat versi atau kapasitas yang tidak mencukupi. | 1. Periksa halaman Risk Management dan ikuti solusi yang disarankan. 2. Jika peringatan tetap muncul, lakukan scale out pada instans. |
| Penggunaan Memori Instans Terlalu Tinggi | Penggunaan memori > 90% per node | Continuous | Penggunaan memori tinggi dapat menyebabkan error Out-of-Memory (OOM) dan gangguan layanan. | 1. Periksa halaman Risk Management dan ikuti solusi yang disarankan. 2. Jika peringatan tetap muncul, lakukan scale out pada instans. |
ZooKeeper
Edisi Dasar, Edisi Developer, dan Edisi Profesional
| Alert rule | Threshold | Timeframe | Description | Solution |
|---|---|---|---|---|
| Frekuensi GC CMS Berlebihan pada Instans ZooKeeper | Jumlah Concurrent Mark Sweep (CMS) GC > 5 | 1 menit | Siklus GC CMS yang sering mengindikasikan tekanan memori atau kapasitas instans yang tidak mencukupi. | 1. Lakukan scale out pada instans. 2. Jika peringatan tetap muncul, periksa apakah versi instans memiliki cacat yang diketahui dan lakukan peningkatan jika diperlukan. |
| Durasi GC CMS Terlalu Panjang pada Instans ZooKeeper | Durasi GC CMS > 6 detik | 1 menit | Jeda GC yang panjang dapat menyebabkan timeout permintaan dan pemutusan sesi. | 1. Lakukan scale out pada instans. 2. Jika peringatan tetap muncul, periksa apakah versi instans memiliki cacat yang diketahui dan lakukan peningkatan jika diperlukan. |
Edisi Serverless
| Alert rule | Threshold | Timeframe | Description | Solution |
|---|---|---|---|---|
| Pembatasan Kecepatan Snapshot | Ukuran snapshot > 20 MB (batas: 25 MB) | Continuous | Ukuran maksimum snapshot adalah 25 MB. Melebihi 20 MB berarti instans mendekati batas tersebut. | Kurangi data yang disimpan di ZooKeeper. Jika Anda memerlukan batas yang lebih tinggi, submit a ticket. |
Nacos
Edisi Dasar, Edisi Developer, dan Edisi Profesional
Aturan ini mendeteksi masalah kinerja GC yang mengindikasikan memori heap tidak mencukupi.
| Alert rule | Threshold | Timeframe | Description | Solution |
|---|---|---|---|---|
| Frekuensi Full GC Berlebihan pada Instans Nacos | Jumlah Full GC > 2 | 1 menit | Eksekusi Full GC yang sering mengindikasikan memori heap tidak mencukupi atau kesalahan konfigurasi di sisi client. | 1. Periksa kebocoran koneksi, pendaftaran duplikat, atau langganan duplikat akibat kesalahan konfigurasi client. 2. Jika tidak ada masalah tersebut, lakukan scale out atau peningkatan instans. |
| Durasi Full GC Terlalu Panjang pada Instans Nacos | Durasi Full GC > 5 detik | 1 menit | Jeda Full GC yang panjang memblokir semua thread aplikasi, menyebabkan kegagalan permintaan. | 1. Periksa kebocoran koneksi, pendaftaran duplikat, atau langganan duplikat akibat kesalahan konfigurasi client. 2. Jika tidak ada masalah tersebut, lakukan scale out atau peningkatan instans. |
Edisi Dasar, Edisi Developer, Edisi Profesional, dan Edisi Serverless
Peringatan kapasitas ini dipicu ketika penggunaan resource mendekati batas instans.
| Alert rule | Threshold | Timeframe | Description | Solution |
|---|---|---|---|---|
| Penggunaan Layanan Nacos Terlalu Tinggi | Penggunaan layanan > 90% | Continuous | Jumlah layanan terdaftar mendekati kuota instans. | Lakukan scale out atau peningkatan instans untuk menambah kuota layanan. |
| Penggunaan Penyedia Layanan Nacos Terlalu Tinggi | Penggunaan penyedia layanan > 90% | Continuous | Jumlah penyedia layanan mendekati kuota instans. | Lakukan scale out atau peningkatan instans untuk menambah kuota penyedia. |
| Penggunaan Koneksi Nacos Terlalu Tinggi | Penggunaan koneksi > 90% | Continuous | Jumlah koneksi mendekati kuota instans. | Lakukan scale out atau peningkatan instans untuk menambah kuota koneksi. |
| Penggunaan Konfigurasi Nacos Terlalu Tinggi | Penggunaan konfigurasi > 90% | Continuous | Jumlah konfigurasi mendekati kuota instans. | Lakukan scale out atau peningkatan instans untuk menambah kuota konfigurasi. |
| Penggunaan Long Polling Nacos Terlalu Tinggi | Penggunaan long polling > 90% | Continuous | Jumlah koneksi long polling mendekati kuota instans. | Lakukan scale out atau peningkatan instans untuk menambah kuota long polling. |
| Penurunan Proporsi Penyedia Layanan Nacos Secara Signifikan | Jumlah penyedia turun > 50% dibandingkan 3 menit lalu | 3 menit | Penurunan tiba-tiba jumlah penyedia dapat menyebabkan layanan hulu kehilangan koneksi dengan penyedia hilir. | 1. Periksa apakah aplikasi sedang dalam proses rilis atau restart. 2. Jika tidak ada penerapan yang sedang berlangsung, verifikasi bahwa resource CPU, memori, GC, dan jaringan aplikasi Anda dalam kondisi sehat. |
Edisi Serverless
| Alert rule | Threshold | Timeframe | Description | Solution |
|---|---|---|---|---|
| Pembatasan Kecepatan TPS | Pembatasan kecepatan TPS dipicu | Continuous | Pembatasan kecepatan transaksi-per-detik (TPS) telah diaktifkan pada instans. | Submit a ticket untuk meminta batas TPS yang lebih tinggi. |
| Batas Kapasitas Layanan | Kapasitas layanan terlampaui | Continuous | Jumlah layanan melebihi batas instans. | Submit a ticket untuk meminta kapasitas layanan yang lebih tinggi. |
| Batas Koneksi | Jumlah koneksi terlampaui | Continuous | Jumlah koneksi melebihi batas instans. | Submit a ticket untuk meminta batas koneksi yang lebih tinggi. |
| Batas Kapasitas Konfigurasi | Kapasitas konfigurasi terlampaui | Continuous | Jumlah konfigurasi melebihi batas instans. | Submit a ticket untuk meminta kapasitas konfigurasi yang lebih tinggi. |
Ingress gateway
Edisi Profesional
| Alert rule | Threshold | Timeframe | Description | Solution |
|---|---|---|---|---|
| Beban CPU Instans Terlalu Tinggi | Pemanfaatan CPU > 80% | Continuous | Penggunaan CPU tinggi dapat mengindikasikan adanya masalah plugin atau kapasitas yang tidak mencukupi. | 1. Periksa kebocoran memori atau kesalahan logika pada plugin. 2. Jika tidak ada masalah tersebut, lakukan scale out pada instans. |
| Penggunaan Memori Instans Terlalu Tinggi | Penggunaan memori > 80% | Continuous | Penggunaan memori tinggi dapat mengindikasikan adanya masalah plugin atau kapasitas yang tidak mencukupi. | 1. Periksa kebocoran memori atau kesalahan logika pada plugin. 2. Jika tidak ada masalah tersebut, lakukan scale out pada instans. |
Edisi Profesional dan Edisi Serverless
| Alert rule | Threshold | Timeframe | Description | Solution |
|---|---|---|---|---|
| Tingkat Akurasi Gerbang Rendah | Tingkat akurasi < 80% | Continuous | Tingkat akurasi rendah mengindikasikan sebagian besar permintaan gagal. | Periksa kesalahan konfigurasi gerbang atau exception pada level aplikasi. |
| Exception Plugin Gerbang Kustom (Telah Pulih) | Exception plugin terdeteksi | Continuous | Plugin gerbang kustom mengalami error dan telah dipulihkan secara otomatis. | Tinjau logika plugin dan perbaiki akar penyebabnya untuk mencegah pengulangan. |