Saat memantau layanan di berbagai Produk Alibaba Cloud dan alat pihak ketiga, peringatan tersebar di berbagai sistem sehingga sulit melacak, memprioritaskan, dan menyelesaikan masalah secara efisien. Manajemen Peringatan Application Real-Time Monitoring Service (ARMS) memusatkan konvergensi peringatan, perutean notifikasi, dan eskalasi dalam satu control plane. Layanan ini melakukan deduplikasi dan kompresi peringatan untuk mengurangi alert storm, mengarahkan notifikasi ke kontak yang tepat, serta memungkinkan tim menangani insiden secara kolaboratif.
Cara kerja
Sumber peringatan melaporkan event. Layanan sub ARMS (Application Monitoring, Browser Monitoring, Managed Service for Prometheus, Synthetic Monitoring) dan alat pemantauan pihak ketiga mengirimkan event peringatan ke Manajemen Peringatan melalui integrasi.
Event diproses. Manajemen Peringatan melakukan deduplikasi, kompresi, denoise, dan silence terhadap event untuk mengurangi alert storm. Alur pemrosesan event menyediakan logika penanganan khusus untuk sumber peringatan tertentu.
Notifikasi sampai ke orang yang tepat. Kebijakan notifikasi mengarahkan event yang telah diproses ke kontak melalui email, SMS, panggilan telepon, atau platform pesan (DingTalk, WeCom, Lark).
Tim menyelesaikan peringatan secara bersama-sama. Kontak dapat claim, mendiskusikan, dan menyelesaikan peringatan di Konsol ARMS atau grup chat. Peringatan yang belum terselesaikan akan diekspansi secara otomatis.
Analitik melacak kinerja penyelesaian. Statistik real-time menunjukkan cara penanganan peringatan, membantu tim Anda mengidentifikasi hambatan dan memperbaiki waktu respons.
Arsitektur
Manajemen Peringatan terdiri dari lima modul:
| Modul | Tujuan |
|---|---|
| Manajemen integrasi | Menghubungkan layanan sub ARMS dan sumber peringatan pihak ketiga |
| Manajemen event peringatan | Melakukan deduplikasi, kompresi, denoise, dan silence terhadap event masuk |
| Manajemen kebijakan notifikasi | Mengarahkan peringatan ke kontak berdasarkan kondisi yang sesuai |
| Penanganan peringatan kolaboratif | Memungkinkan tim untuk claim, mendiskusikan, dan menyelesaikan peringatan lintas platform |
| Analisis penanganan peringatan | Melacak metrik resolusi peringatan dan kinerja tim |
Manajemen integrasi
Manajemen Peringatan mendukung dua jenis integrasi: integrasi peringatan default untuk layanan sub ARMS dan integrasi layanan pihak ketiga untuk sumber peringatan eksternal.
Integrasi peringatan default
Integrasi peringatan default menghubungkan Manajemen Peringatan dengan layanan sub ARMS. Integrasi ini secara berkala memeriksa apakah data pemantauan mengandung error dan melaporkan event peringatan yang sesuai ke Event Management Center.
Buat aturan peringatan untuk setiap layanan sub:
Integrasi layanan pihak ketiga
Integrasi layanan pihak ketiga mengarahkan peringatan dari pusat data lokal atau mesin virtual yang dikelola sendiri ke ARMS. Saat sumber pihak ketiga melaporkan peringatan, Manajemen Peringatan menghasilkan sebuah event peringatan.
Struktur Data Event Peringatan
Struktur data event peringatan ARMS mirip dengan format templat notifikasi AlertManager open-source dan berisi bidang-bidang berikut:
| Bidang | Deskripsi | Contoh |
|---|---|---|
| Labels | Metadata yang secara unik mengidentifikasi sebuah event peringatan. Event dengan label identik dikompresi menjadi satu. | "alertname": "CPU utilization is too high" |
| Annotations | Informasi tambahan yang tidak memengaruhi identitas event. | "message": "alert content" |
| StartsAt | Waktu mulai peringatan. | -- |
| EndsAt | Waktu akhir peringatan. | -- |
| GeneratorUrl | URL yang mengarah ke sumber event peringatan. | -- |
Perbedaan Antara Labels dan Annotations
Labels menentukan identitas. Sekumpulan labels secara unik mengidentifikasi sebuah event peringatan. Mengubah salah satu label akan menghasilkan event baru.
Sebagai contoh, label berikut mengidentifikasi peringatan CPU untuk host tertentu:
{
"hostname": "Host",
"alertname": "CPU utilization is too high",
"ip": "192.168.0.3"
}Jika ip berubah menjadi 192.168.0.4, Manajemen Peringatan memperlakukannya sebagai event peringatan terpisah untuk host yang berbeda.
Annotations membawa konteks. Perubahan pada annotations tidak membuat event baru. Jika event memiliki labels yang sama tetapi annotations berbeda, Manajemen Peringatan memperlakukannya sebagai laporan berulang dari peringatan yang sama.
Sebagai contoh, jika annotation {"value": "85", "message": "CPU utilization of host 192.168.0.3 is 85%, exceeding the 80% threshold"} kemudian melaporkan {"value": "86", ...}, tidak ada event baru yang dibuat. Manajemen Peringatan mencatat ini sebagai peringatan yang sama yang dilaporkan dua kali.
Konfigurasikan bidang deduplikasi sebagai labels untuk suatu integrasi agar dapat mengontrol cara Manajemen Peringatan mengidentifikasi event unik. Tanpa bidang deduplikasi, Manajemen Peringatan menggunakan semua labels untuk menentukan keunikan.
Manajemen event peringatan
Modul manajemen event peringatan memproses event masuk dengan dua cara:
Alur pemrosesan event mengatur prosedur khusus untuk menangani event dari sumber peringatan tertentu, memberikan kontrol detail halus atas perutean dan transformasi event.
Pengurangan noise bawaan secara otomatis melakukan deduplikasi, kompresi, denoise, dan silence terhadap event, menyatukan peringatan terkait dan mengurangi alert storm.
Kompresi event
Manajemen Peringatan mengompresi event menggunakan dua metode: kompresi berbasis label dan kompresi berbasis waktu.
Kompresi Berbasis Label
Saat mengirimkan notifikasi, Manajemen Peringatan mengelompokkan event sesuai dengan pengaturan pengelompokan event dalam kebijakan notifikasi Anda. Event yang memiliki nilai label yang sama dikompresi menjadi satu event.
Kompresi Berbasis Waktu
Untuk event dengan label identik, jika rentang waktunya (StartsAt hingga EndsAt) tumpang tindih, Manajemen Peringatan menggabungkannya menjadi satu event. Event gabungan tersebut mencakup union dari semua rentang waktu asli.
Manajemen kebijakan notifikasi
Kebijakan notifikasi menetapkan kondisi — mirip dengan aturan subscription — yang menentukan cara pengiriman notifikasi peringatan. Saat sebuah event peringatan sesuai dengan kondisi dalam suatu kebijakan, ARMS mengirimkan notifikasi melalui saluran dan ke kontak yang ditentukan dalam kebijakan tersebut.
Diagram berikut menunjukkan interaksi antara alur pemrosesan event, event, dan kebijakan notifikasi.
Penanganan peringatan kolaboratif
Manajemen Peringatan mendukung alur kerja kolaboratif di Konsol ARMS, DingTalk, WeCom, dan Lark. Kebijakan kolaborasi memungkinkan:
Sinkronisasi pesan grup — Pembaruan peringatan muncul secara otomatis di grup chat tim.
Manajemen jadwal — Tetapkan rotasi on-call agar orang yang tepat merespons kapan saja.
Kebijakan eskalasi — Secara otomatis memberi tahu kontak tambahan saat peringatan belum terselesaikan.
Untuk petunjuk langkah demi langkah, lihat Tangani peringatan di grup chat yang ditentukan.
Manfaat
Untuk layanan yang dideploy di Alibaba Cloud, Manajemen Peringatan meningkatkan efisiensi O&M di bidang-bidang berikut:
| Area | Kemampuan |
|---|---|
| Konfigurasi peringatan global | Globalisasi templat aturan peringatan untuk mengonfigurasi peringatan bagi peristiwa global. Globalisasi kontak dan kebijakan notifikasi dengan konfigurasi sederhana. |
| Manajemen event terpusat | Integrasikan peringatan dari layanan pemantauan Alibaba Cloud dan alat pihak ketiga ke dalam satu lapisan manajemen. Tangani event peringatan sepanjang waktu dengan pemrosesan event yang stabil dan latensi rendah. |
| Pengiriman notifikasi fleksibel | Kompresi event peringatan melalui kebijakan notifikasi untuk mengurangi volume notifikasi. Pilih satu atau beberapa metode notifikasi berdasarkan tingkat urgensi peringatan, seperti email, SMS, panggilan telepon, atau platform pesan. Eskalasi peringatan yang belum terselesaikan secara otomatis dengan mengirimkan notifikasi berulang ke kontak tambahan. |
| Resolusi peringatan berbasis tim | Claim dan selesaikan peringatan di grup chat DingTalk, WeCom, atau Lark tanpa beralih ke konsol. Standarisasi format peringatan agar setiap anggota tim dapat segera mengurai dan bertindak terhadap peringatan yang masuk. Kolaborasi dengan beberapa kontak secara real-time melalui grup chat bersama. |
| Analitik real-time | Lacak metrik penanganan peringatan secara real-time untuk mengidentifikasi hambatan respons dan mengoptimalkan alur kerja tim. |
Notifikasi peringatan berbasis telepon tidak tersedia di situs Internasional.