ApsaraDB for SelectDB mengintegrasikan fitur peringatan dari Application Real-Time Monitoring Service (ARMS) Alibaba Cloud. Integrasi ini memungkinkan Anda mengonfigurasi aturan peringatan di Konsol ApsaraDB for SelectDB. Anda dapat menetapkan metrik untuk memberi tahu semua kontak dalam kelompok peringatan saat aturan peringatan dipicu, serta mengelola kelompok kontak peringatan guna memastikan pemberitahuan segera diterima oleh pihak terkait ketika terjadi peringatan. Dengan menetapkan aturan peringatan untuk metrik pemantauan penting, Anda dapat segera mengetahui ketika data metrik instance ApsaraDB for SelectDB menjadi tidak normal, sehingga membantu Anda cepat mengidentifikasi dan menyelesaikan titik kegagalan. Topik ini menjelaskan cara mengonfigurasi aturan peringatan di konsol ApsaraDB for SelectDB.
Anda juga dapat mengonfigurasi aturan peringatan untuk instance ApsaraDB for SelectDB di Konsol CloudMonitor. Untuk informasi selengkapnya, lihat pemantauan layanan cloud.
Prasyarat
Peran terkait layanan ApsaraDB for SelectDB, yaitu AliyunServiceRoleForSelectDB, telah dibuat. Secara default, peran ini memiliki izin akses ke layanan ARMS. Untuk informasi selengkapnya, lihat Service-linked Role.
Jika Anda ingin melaporkan informasi pemantauan dari instance ApsaraDB for SelectDB ke ARMS milik Anda sendiri untuk pemantauan dan peringatan terpadu, Anda harus mengaktifkan layanan Alibaba Cloud ARMS. Untuk informasi selengkapnya, lihat Aktifkan ARMS.
Prosedur
Masuk ke Konsol ApsaraDB for SelectDB.
Di pojok kiri atas halaman, pilih wilayah tempat instance berada.
Pada halaman Instance List, klik Instance ID yang dituju untuk membuka halaman Instance Details.
Pada panel navigasi di sebelah kiri, klik Monitoring And Alerts.
Pada halaman Monitoring And Alerts, klik tab Alert Management, lalu klik Create SelectDB Monitoring Alert.
CatatanSetelah Anda mengklik Alert Management, halaman SelectDB Monitoring Alert List mungkin memerlukan waktu 3 hingga 5 detik untuk dimuat.
Pada halaman Create SelectDB Monitoring Alert, atur parameter berikut.
Anda dapat membuat aturan peringatan SelectDB menggunakan ambang batas statis atau ekspresi bahasa kueri Prometheus (PromQL) kustom.
Ambang batas statis: Buat aturan peringatan untuk metrik prasetel menggunakan opsi yang disediakan.
PromQL kustom: Buat aturan peringatan untuk metrik yang tidak prasetel dengan menulis ekspresi PromQL kustom.
Ambang batas statis
Parameter
Deskripsi
Contoh
Alert Name
Nama peringatan.
Peringatan penggunaan CPU
Check Type
Pilih Static Threshold.
Ambang batas statis
Instance
Pilih instance tempat aturan peringatan akan dibuat.
Nilai default adalah traverse, yang berarti aturan peringatan berlaku untuk semua instance.
selectdb-cn-7213n****
Cluster
Pilih kluster tempat aturan peringatan akan dibuat.
Nilai default adalah traverse, yang berarti aturan peringatan berlaku untuk semua instance.
selectdb-cn-7213n****-be
Alert Group
Pilih kelompok peringatan.
Kelompok peringatan yang didukung bervariasi berdasarkan tipe instance Prometheus. Opsi untuk parameter ini berubah sesuai dengan tipe instance Prometheus yang dipilih.
Peringatan Pemantauan SelectDB
Alert Metric
Pilih metrik yang akan dikonfigurasi peringatannya. Setiap kelompok peringatan berkorespondensi dengan metrik yang berbeda.
Penggunaan CPU
Alert Condition
Tetapkan kondisi untuk menghasilkan event peringatan berdasarkan konten prasetel dari metrik peringatan.
Kirim peringatan saat penggunaan CPU lebih besar dari 80%.
Filter Conditions
Tidak ada filter
Tidak ada
Data Preview
Bagian Data Preview menampilkan pernyataan PromQL yang sesuai dengan kondisi peringatan. Bagian ini juga menampilkan nilai metrik yang ditentukan pada kurva deret waktu.
Secara default, hanya nilai real-time dari satu sumber daya yang ditampilkan. Anda dapat memilih sumber daya target dan rentang waktu di kotak filter di area ini untuk melihat nilai untuk sumber daya dan rentang waktu yang berbeda.
CatatanAmbang batas peringatan ditampilkan sebagai garis putus-putus merah di panel. Bagian kurva deret waktu yang memenuhi ambang batas peringatan ditampilkan dalam warna merah tua, sedangkan bagian yang tidak memenuhi ditampilkan dalam warna biru.
Arahkan penunjuk mouse ke kurva deret waktu untuk melihat detail sumber daya pada titik waktu tersebut.
Pada kurva deret waktu, pilih periode waktu untuk melihat kurva pada rentang waktu tertentu.
Tidak Ada
Duration
Hasilkan event peringatan segera setelah kondisi peringatan terpenuhi: Event peringatan dihasilkan jika titik data mana pun memenuhi ambang batas.
Hasilkan event peringatan hanya setelah kondisi peringatan bertahan selama N menit: Event peringatan dihasilkan hanya ketika waktu ambang batas terpenuhi lebih besar dari atau sama dengan N menit.
1
Alert Level
Sesuaikan tingkat peringatan. Tingkat default adalah Default. Tingkat keparahan, secara berurutan dari rendah ke tinggi: Default, P4, P3, P2, dan P1.
P2
Alert Content
Informasi peringatan yang diterima pengguna. Anda dapat menggunakan sintaks templat Go untuk menyesuaikan variabel parameter peringatan dalam konten peringatan.
Node: {{$labels.pod_name}} Penggunaan CPU {{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%, nilai saat ini {{ printf "%.2f" $value }}%
Alert Notification
Simple Mode: Konfigurasikan dengan cepat Notification Objects, Notification Period, dan Repetition Policy.
Standard Mode: Pilih kebijakan notifikasi. Jika tidak tersedia kebijakan notifikasi, klik Create Notification Policy untuk membuat yang baru. Untuk informasi selengkapnya, lihat Kebijakan Notifikasi.
PentingMenentukan kebijakan notifikasi secara cepat hanya memastikan bahwa event peringatan yang dihasilkan oleh aturan peringatan saat ini dicocokkan oleh kebijakan notifikasi yang dipilih dan memicu peringatan yang sesuai. Namun, event yang dihasilkan oleh aturan peringatan saat ini juga dapat dicocokkan oleh kebijakan notifikasi lain yang dikonfigurasi dengan pencocokan fuzzy, yang juga memicu peringatan. Hubungan antara event peringatan yang dihasilkan oleh aturan peringatan dan kebijakan notifikasi bersifat banyak-ke-banyak.
Tidak Ada
Advanced Settings
Alert Check Period: Interval pemeriksaan aturan peringatan untuk menentukan apakah data memenuhi kondisi peringatan. Nilai default dan minimum adalah 1 menit.
Check After Data Is Complete: Memeriksa kelengkapan data. Nilai default adalah Ya. Kami menyarankan agar Anda tidak mengubah pengaturan ini.
Tags (labels): Tetapkan tag peringatan. Tag yang dikonfigurasi dapat digunakan sebagai opsi untuk aturan pencocokan kebijakan notifikasi.
Annotations (annotations): Tetapkan anotasi untuk peringatan.
Periode pemeriksaan peringatan: 1 menit
Periksa setelah data lengkap: Ya
Tag (label): Tidak ada
Anotasi (annotations): Tidak ada
PromQL Kustom
Parameter
Deskripsi
Contoh
Alert Name
Nama peringatan.
Penggunaan CPU Pod lebih besar dari 80%
Check Type
Atur ke Custom PromQL.
PromQL Kustom
Instance
Pilih instance tempat aturan peringatan akan dibuat.
selectdb-cn-7213n****
Cluster
Pilih kluster tempat aturan peringatan akan dibuat.
selectdb-cn-7213n****-be
Reference Alert Group
Pilih kelompok peringatan.
Kelompok peringatan yang didukung bervariasi berdasarkan tipe instance Prometheus. Opsi untuk parameter ini berubah sesuai dengan tipe instance Prometheus yang dipilih.
Peringatan Pemantauan SelectDB
Reference Alert Metric
(Opsional) Metrik referensi mencakup metode konfigurasi PromQL kustom untuk metrik umum. Anda dapat memilih metrik yang sudah ada dan serupa untuk mengisi bidang, lalu memodifikasi konfigurasi berdasarkan metrik tersebut guna menyelesaikan konfigurasi peringatan.
Parameter metrik referensi secara otomatis memfilter metrik peringatan yang didukung berdasarkan tipe instance Prometheus yang dipilih.
CatatanTemplat Custom PromQL Statement yang disediakan oleh Reference Alert Metric bukan merupakan ekspresi PromQL lengkap. Anda harus memodifikasi dan melengkapinya sesuai kebutuhan.
Waktu kueri persentil ke-99
Custom PromQL Statement
Gunakan pernyataan PromQL untuk menetapkan ekspresi peringatan.
avg(doris_fe_query_latency_ms{quantile="0.99",pod=~,cluster_id=~}) by (cluster_id) > 300
Data Preview
Area Data Preview menampilkan pernyataan PromQL yang sesuai dengan kondisi peringatan dan menunjukkan nilai metrik yang dikonfigurasi pada kurva deret waktu.
Secara default, hanya nilai real-time dari satu sumber daya yang ditampilkan. Anda dapat memilih sumber daya target dan rentang waktu di kotak filter di area ini untuk melihat nilai untuk sumber daya dan rentang waktu yang berbeda.
CatatanAmbang batas peringatan ditampilkan sebagai garis putus-putus merah di panel. Bagian kurva deret waktu yang memenuhi ambang batas peringatan ditampilkan dalam warna merah tua, sedangkan bagian yang tidak memenuhi ditampilkan dalam warna biru.
Arahkan penunjuk mouse ke kurva deret waktu untuk melihat detail sumber daya pada titik waktu tersebut.
Pada kurva deret waktu, pilih periode waktu untuk melihat kurva pada rentang waktu tertentu.
Tidak Ada
Duration
Generate An Alert Event As Soon As The Alert Condition Is Met: Event peringatan dihasilkan jika titik data mana pun memenuhi ambang batas.
Generate An Alert Event Only After The Alert Condition Persists For N Minutes: Event peringatan dihasilkan hanya ketika waktu ambang batas terpenuhi lebih besar dari atau sama dengan N menit.
1
Alert Level
Sesuaikan tingkat peringatan. Tingkat default adalah Default. Tingkat keparahan, secara berurutan dari rendah ke tinggi: Default, P4, P3, P2, dan P1.
Default
Alert Content
Informasi peringatan yang diterima pengguna. Anda dapat menggunakan sintaks templat Go untuk menyesuaikan variabel parameter peringatan dalam konten peringatan.
Namespace: {{$labels.namespace}}/Pod: {{$labels.pod_name}}/Perangkat disk: {{$labels.device}} penggunaan melebihi 90%, nilai saat ini {{ printf "%.2f" $value }}%
Alert Notification
Simple Mode: Konfigurasikan dengan cepat Notification Objects, Notification Period, dan Repetition Policy.
Standard Mode: Pilih kebijakan notifikasi. Jika tidak tersedia kebijakan notifikasi, klik Create Notification Policy untuk membuat yang baru. Untuk informasi selengkapnya, lihat Kebijakan Notifikasi.
PentingMenentukan kebijakan notifikasi secara cepat hanya memastikan bahwa event peringatan yang dihasilkan oleh aturan peringatan saat ini dicocokkan oleh kebijakan notifikasi yang dipilih dan memicu peringatan yang sesuai. Namun, event yang dihasilkan oleh aturan peringatan saat ini juga dapat dicocokkan oleh kebijakan notifikasi lain yang dikonfigurasi dengan pencocokan fuzzy, yang juga memicu peringatan. Hubungan antara event peringatan yang dihasilkan oleh aturan peringatan dan kebijakan notifikasi bersifat banyak-ke-banyak.
Tidak Ada
Advanced Settings
Alert Check Period: Interval pemeriksaan aturan peringatan untuk menentukan apakah data memenuhi kondisi peringatan. Nilai default dan minimum adalah 1 menit.
Check After Data Is Complete: Memeriksa kelengkapan data. Nilai default adalah Ya. Kami menyarankan agar Anda tidak mengubah pengaturan ini.
Tags (labels): Tetapkan tag peringatan. Tag yang dikonfigurasi dapat digunakan sebagai opsi untuk aturan pencocokan kebijakan notifikasi.
Annotations (annotations): Tetapkan anotasi untuk peringatan.
Periode pemeriksaan peringatan: 1 menit
Periksa setelah data lengkap: Ya
Tag (label): Tidak ada
Anotasi (annotations): Tidak ada
Setelah mengonfigurasi parameter, klik Save. Aturan peringatan akan langsung berlaku.
Saran konfigurasi peringatan
Anda dapat mengonfigurasi peringatan sesuai kebutuhan. Tabel berikut menyediakan saran konfigurasi untuk metrik umum.
Nama metrik | Ambang batas yang direkomendasikan | Durasi yang direkomendasikan (menit) | Saran konfigurasi peringatan |
Average Query Time | >5000 | 5 | Waktu kueri rata-rata dalam milidetik. Sesuaikan ambang batas sesuai kebutuhan. Kami merekomendasikan Anda mengonfigurasi metrik ini. |
99th Percentile Query Time | >60000 | 5 | Waktu kueri ekor panjang dalam milidetik. Sesuaikan ambang batas sesuai kebutuhan. Kami merekomendasikan Anda mengonfigurasi metrik ini. |
Query Success Rate | <90 | 5 | Tingkat keberhasilan kueri SQL. Kami merekomendasikan Anda mengonfigurasi metrik ini. |
CPU Utilization | >80 | 15 | Penggunaan CPU kluster BE. Ini adalah metrik pemantauan bisnis umum. Kami merekomendasikan Anda mengonfigurasi metrik ini. |
Memory Usage | >80 | 15 | Penggunaan memori kluster BE. Ini adalah metrik pemantauan bisnis umum. Kami merekomendasikan Anda mengonfigurasi metrik ini. |
FE CPU Utilization | >60 | 15 | Penggunaan CPU FE. Kami merekomendasikan Anda mengonfigurasi metrik ini. Jika sumber daya tidak mencukupi, ajukan tiket untuk meminta skala keluar gratis. |
FE JVM Memory Usage | >80 | 15 | Penggunaan memori JVM FE. Kami merekomendasikan Anda mengonfigurasi metrik ini. Jika sumber daya tidak mencukupi, ajukan tiket untuk meminta skala keluar gratis. |
Number Of Failed Nodes | >0 | 1 | Jumlah kali node dasar kluster komputasi dimulai ulang. Konfigurasikan sesuai kebutuhan. |
Data Merge Base Score | <1500 | 15 | Nilai yang lebih tinggi menunjukkan tekanan penggabungan data yang lebih besar pada node komputasi. Kami merekomendasikan Anda mengonfigurasi metrik ini. |
Data Merge Cumulative Score | <1500 | 15 | Nilai yang lebih tinggi menunjukkan tekanan penggabungan data yang lebih besar pada node komputasi. Kami merekomendasikan Anda mengonfigurasi metrik ini. |
Cache Hit Ratio | <90 | 15 | Rasio hit cache memengaruhi waktu kueri. Kami merekomendasikan Anda mengonfigurasi metrik ini. Jika metrik ini menurun, evaluasi apakah diperlukan skala keluar. Untuk informasi tentang cara melakukan skala keluar, lihat Skala kluster. |
User Connections | >150 | 15 | Jumlah total koneksi antara pengguna database dan database. Jumlah maksimum koneksi untuk setiap pengguna adalah 200 secara default. Ini adalah metrik terkait bisnis. Kami merekomendasikan Anda mengonfigurasi metrik ini. |
Queries Per Second (QPS) | Tidak ada | Tidak ada | Ini adalah metrik terkait bisnis. Konfigurasikan sesuai kebutuhan. |
Disk Write IOPS | Tidak ada | Tidak ada | Ini adalah metrik dasar yang biasanya tidak memerlukan perhatian bisnis. Konfigurasikan sesuai kebutuhan. |
Disk Read IOPS | Tidak ada | Tidak ada | Ini adalah metrik dasar yang biasanya tidak memerlukan perhatian bisnis. Konfigurasikan sesuai kebutuhan. |
Object Storage Service Capacity | Tidak Ada | Tidak ada | Jika Anda khawatir tentang penggunaan penyimpanan, konfigurasikan sesuai kebutuhan. |
Data Import Speed | Tidak Ada | Tidak ada | Jika Anda khawatir tentang kecepatan impor data, konfigurasikan sesuai kebutuhan. |
Cache Write Throughput | Tidak Ada | Tidak ada | Ini adalah metrik dasar yang biasanya tidak memerlukan perhatian bisnis. Konfigurasikan sesuai kebutuhan. |
Cache Read Throughput | Tidak Ada | Tidak ada | Ini adalah metrik dasar yang biasanya tidak memerlukan perhatian bisnis. Konfigurasikan sesuai kebutuhan. |
Network Inbound Throughput | Tidak Ada | Tidak ada | Ini adalah metrik dasar yang biasanya tidak memerlukan perhatian bisnis. Konfigurasikan sesuai kebutuhan. |
Network Outbound Throughput | Tidak Ada | Tidak ada | Ini adalah metrik dasar yang biasanya tidak memerlukan perhatian bisnis. Konfigurasikan sesuai kebutuhan. |
Remote Storage Read Throughput | Tidak Ada | Tidak ada | Ini adalah metrik dasar yang biasanya tidak memerlukan perhatian bisnis. Konfigurasikan sesuai kebutuhan. |