Cara mengonfigurasi peringatan untuk SelectDB - ApsaraDB for SelectDB

ApsaraDB for SelectDB mengintegrasikan fitur peringatan dari Application Real-Time Monitoring Service (ARMS) Alibaba Cloud. Integrasi ini memungkinkan Anda mengonfigurasi aturan peringatan di Konsol ApsaraDB for SelectDB. Anda dapat menetapkan metrik untuk memberi tahu semua kontak dalam kelompok peringatan saat aturan peringatan dipicu, serta mengelola kelompok kontak peringatan guna memastikan pemberitahuan segera diterima oleh pihak terkait ketika terjadi peringatan. Dengan menetapkan aturan peringatan untuk metrik pemantauan penting, Anda dapat segera mengetahui ketika data metrik instance ApsaraDB for SelectDB menjadi tidak normal, sehingga membantu Anda cepat mengidentifikasi dan menyelesaikan titik kegagalan. Topik ini menjelaskan cara mengonfigurasi aturan peringatan di konsol ApsaraDB for SelectDB.

Catatan

Anda juga dapat mengonfigurasi aturan peringatan untuk instance ApsaraDB for SelectDB di Konsol CloudMonitor. Untuk informasi selengkapnya, lihat pemantauan layanan cloud.

Prasyarat

Peran terkait layanan ApsaraDB for SelectDB, yaitu AliyunServiceRoleForSelectDB, telah dibuat. Secara default, peran ini memiliki izin akses ke layanan ARMS. Untuk informasi selengkapnya, lihat Service-linked Role.
Jika Anda ingin melaporkan informasi pemantauan dari instance ApsaraDB for SelectDB ke ARMS milik Anda sendiri untuk pemantauan dan peringatan terpadu, Anda harus mengaktifkan layanan Alibaba Cloud ARMS. Untuk informasi selengkapnya, lihat Aktifkan ARMS.

Prosedur

Masuk ke Konsol ApsaraDB for SelectDB.
Di pojok kiri atas halaman, pilih wilayah tempat instance berada.
Pada halaman Instance List, klik Instance ID yang dituju untuk membuka halaman Instance Details.
Pada panel navigasi di sebelah kiri, klik Monitoring And Alerts.
Pada halaman Monitoring And Alerts, klik tab Alert Management, lalu klik Create SelectDB Monitoring Alert.
Catatan
Setelah Anda mengklik Alert Management, halaman SelectDB Monitoring Alert List mungkin memerlukan waktu 3 hingga 5 detik untuk dimuat.

Pada halaman Create SelectDB Monitoring Alert, atur parameter berikut.

Anda dapat membuat aturan peringatan SelectDB menggunakan ambang batas statis atau ekspresi bahasa kueri Prometheus (PromQL) kustom.

Ambang batas statis: Buat aturan peringatan untuk metrik prasetel menggunakan opsi yang disediakan.
PromQL kustom: Buat aturan peringatan untuk metrik yang tidak prasetel dengan menulis ekspresi PromQL kustom.

Ambang batas statis

Parameter	Deskripsi	Contoh
Alert Name	Nama peringatan.	Peringatan penggunaan CPU
Check Type	Pilih Static Threshold.	Ambang batas statis
Instance	Pilih instance tempat aturan peringatan akan dibuat. Nilai default adalah traverse, yang berarti aturan peringatan berlaku untuk semua instance.	selectdb-cn-7213n****
Cluster	Pilih kluster tempat aturan peringatan akan dibuat. Nilai default adalah traverse, yang berarti aturan peringatan berlaku untuk semua instance.	selectdb-cn-7213n****-be
Alert Group	Pilih kelompok peringatan. Kelompok peringatan yang didukung bervariasi berdasarkan tipe instance Prometheus. Opsi untuk parameter ini berubah sesuai dengan tipe instance Prometheus yang dipilih.	Peringatan Pemantauan SelectDB
Alert Metric	Pilih metrik yang akan dikonfigurasi peringatannya. Setiap kelompok peringatan berkorespondensi dengan metrik yang berbeda.	Penggunaan CPU
Alert Condition	Tetapkan kondisi untuk menghasilkan event peringatan berdasarkan konten prasetel dari metrik peringatan.	Kirim peringatan saat penggunaan CPU lebih besar dari 80%.
Filter Conditions	Tidak ada filter	Tidak ada
Data Preview	Bagian Data Preview menampilkan pernyataan PromQL yang sesuai dengan kondisi peringatan. Bagian ini juga menampilkan nilai metrik yang ditentukan pada kurva deret waktu. Secara default, hanya nilai real-time dari satu sumber daya yang ditampilkan. Anda dapat memilih sumber daya target dan rentang waktu di kotak filter di area ini untuk melihat nilai untuk sumber daya dan rentang waktu yang berbeda. Catatan Ambang batas peringatan ditampilkan sebagai garis putus-putus merah di panel. Bagian kurva deret waktu yang memenuhi ambang batas peringatan ditampilkan dalam warna merah tua, sedangkan bagian yang tidak memenuhi ditampilkan dalam warna biru. Arahkan penunjuk mouse ke kurva deret waktu untuk melihat detail sumber daya pada titik waktu tersebut. Pada kurva deret waktu, pilih periode waktu untuk melihat kurva pada rentang waktu tertentu.	Tidak Ada
Duration	Hasilkan event peringatan segera setelah kondisi peringatan terpenuhi: Event peringatan dihasilkan jika titik data mana pun memenuhi ambang batas. Hasilkan event peringatan hanya setelah kondisi peringatan bertahan selama N menit: Event peringatan dihasilkan hanya ketika waktu ambang batas terpenuhi lebih besar dari atau sama dengan N menit.	1
Alert Level	Sesuaikan tingkat peringatan. Tingkat default adalah Default. Tingkat keparahan, secara berurutan dari rendah ke tinggi: Default, P4, P3, P2, dan P1.	P2
Alert Content	Informasi peringatan yang diterima pengguna. Anda dapat menggunakan sintaks templat Go untuk menyesuaikan variabel parameter peringatan dalam konten peringatan.	Node: {{$labels.pod_name}} Penggunaan CPU {{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%, nilai saat ini {{ printf "%.2f" $value }}%
Alert Notification	Simple Mode: Konfigurasikan dengan cepat Notification Objects, Notification Period, dan Repetition Policy. Standard Mode: Pilih kebijakan notifikasi. Jika tidak tersedia kebijakan notifikasi, klik Create Notification Policy untuk membuat yang baru. Untuk informasi selengkapnya, lihat Kebijakan Notifikasi. Penting Menentukan kebijakan notifikasi secara cepat hanya memastikan bahwa event peringatan yang dihasilkan oleh aturan peringatan saat ini dicocokkan oleh kebijakan notifikasi yang dipilih dan memicu peringatan yang sesuai. Namun, event yang dihasilkan oleh aturan peringatan saat ini juga dapat dicocokkan oleh kebijakan notifikasi lain yang dikonfigurasi dengan pencocokan fuzzy, yang juga memicu peringatan. Hubungan antara event peringatan yang dihasilkan oleh aturan peringatan dan kebijakan notifikasi bersifat banyak-ke-banyak.	Tidak Ada
Alert Notification		Tidak Ada
Advanced Settings	Alert Check Period: Interval pemeriksaan aturan peringatan untuk menentukan apakah data memenuhi kondisi peringatan. Nilai default dan minimum adalah 1 menit. Check After Data Is Complete: Memeriksa kelengkapan data. Nilai default adalah Ya. Kami menyarankan agar Anda tidak mengubah pengaturan ini. Tags (labels): Tetapkan tag peringatan. Tag yang dikonfigurasi dapat digunakan sebagai opsi untuk aturan pencocokan kebijakan notifikasi. Annotations (annotations): Tetapkan anotasi untuk peringatan.	Periode pemeriksaan peringatan: 1 menit Periksa setelah data lengkap: Ya Tag (label): Tidak ada Anotasi (annotations): Tidak ada

PromQL Kustom

Parameter	Deskripsi	Contoh
Alert Name	Nama peringatan.	Penggunaan CPU Pod lebih besar dari 80%
Check Type	Atur ke Custom PromQL.	PromQL Kustom
Instance	Pilih instance tempat aturan peringatan akan dibuat.	selectdb-cn-7213n****
Cluster	Pilih kluster tempat aturan peringatan akan dibuat.	selectdb-cn-7213n****-be
Reference Alert Group	Pilih kelompok peringatan. Kelompok peringatan yang didukung bervariasi berdasarkan tipe instance Prometheus. Opsi untuk parameter ini berubah sesuai dengan tipe instance Prometheus yang dipilih.	Peringatan Pemantauan SelectDB
Reference Alert Metric	(Opsional) Metrik referensi mencakup metode konfigurasi PromQL kustom untuk metrik umum. Anda dapat memilih metrik yang sudah ada dan serupa untuk mengisi bidang, lalu memodifikasi konfigurasi berdasarkan metrik tersebut guna menyelesaikan konfigurasi peringatan. Parameter metrik referensi secara otomatis memfilter metrik peringatan yang didukung berdasarkan tipe instance Prometheus yang dipilih. Catatan Templat Custom PromQL Statement yang disediakan oleh Reference Alert Metric bukan merupakan ekspresi PromQL lengkap. Anda harus memodifikasi dan melengkapinya sesuai kebutuhan.	Waktu kueri persentil ke-99
Custom PromQL Statement	Gunakan pernyataan PromQL untuk menetapkan ekspresi peringatan.	avg(doris_fe_query_latency_ms{quantile="0.99",pod=~,cluster_id=~}) by (cluster_id) > 300
Data Preview	Area Data Preview menampilkan pernyataan PromQL yang sesuai dengan kondisi peringatan dan menunjukkan nilai metrik yang dikonfigurasi pada kurva deret waktu. Secara default, hanya nilai real-time dari satu sumber daya yang ditampilkan. Anda dapat memilih sumber daya target dan rentang waktu di kotak filter di area ini untuk melihat nilai untuk sumber daya dan rentang waktu yang berbeda. Catatan Ambang batas peringatan ditampilkan sebagai garis putus-putus merah di panel. Bagian kurva deret waktu yang memenuhi ambang batas peringatan ditampilkan dalam warna merah tua, sedangkan bagian yang tidak memenuhi ditampilkan dalam warna biru. Arahkan penunjuk mouse ke kurva deret waktu untuk melihat detail sumber daya pada titik waktu tersebut. Pada kurva deret waktu, pilih periode waktu untuk melihat kurva pada rentang waktu tertentu.	Tidak Ada
Duration	Generate An Alert Event As Soon As The Alert Condition Is Met: Event peringatan dihasilkan jika titik data mana pun memenuhi ambang batas. Generate An Alert Event Only After The Alert Condition Persists For N Minutes: Event peringatan dihasilkan hanya ketika waktu ambang batas terpenuhi lebih besar dari atau sama dengan N menit.	1
Alert Level	Sesuaikan tingkat peringatan. Tingkat default adalah Default. Tingkat keparahan, secara berurutan dari rendah ke tinggi: Default, P4, P3, P2, dan P1.	Default
Alert Content	Informasi peringatan yang diterima pengguna. Anda dapat menggunakan sintaks templat Go untuk menyesuaikan variabel parameter peringatan dalam konten peringatan.	Namespace: {{$labels.namespace}}/Pod: {{$labels.pod_name}}/Perangkat disk: {{$labels.device}} penggunaan melebihi 90%, nilai saat ini {{ printf "%.2f" $value }}%
Alert Notification	Simple Mode: Konfigurasikan dengan cepat Notification Objects, Notification Period, dan Repetition Policy. Standard Mode: Pilih kebijakan notifikasi. Jika tidak tersedia kebijakan notifikasi, klik Create Notification Policy untuk membuat yang baru. Untuk informasi selengkapnya, lihat Kebijakan Notifikasi. Penting Menentukan kebijakan notifikasi secara cepat hanya memastikan bahwa event peringatan yang dihasilkan oleh aturan peringatan saat ini dicocokkan oleh kebijakan notifikasi yang dipilih dan memicu peringatan yang sesuai. Namun, event yang dihasilkan oleh aturan peringatan saat ini juga dapat dicocokkan oleh kebijakan notifikasi lain yang dikonfigurasi dengan pencocokan fuzzy, yang juga memicu peringatan. Hubungan antara event peringatan yang dihasilkan oleh aturan peringatan dan kebijakan notifikasi bersifat banyak-ke-banyak.	Tidak Ada
Advanced Settings	Alert Check Period: Interval pemeriksaan aturan peringatan untuk menentukan apakah data memenuhi kondisi peringatan. Nilai default dan minimum adalah 1 menit. Check After Data Is Complete: Memeriksa kelengkapan data. Nilai default adalah Ya. Kami menyarankan agar Anda tidak mengubah pengaturan ini. Tags (labels): Tetapkan tag peringatan. Tag yang dikonfigurasi dapat digunakan sebagai opsi untuk aturan pencocokan kebijakan notifikasi. Annotations (annotations): Tetapkan anotasi untuk peringatan.	Periode pemeriksaan peringatan: 1 menit Periksa setelah data lengkap: Ya Tag (label): Tidak ada Anotasi (annotations): Tidak ada

Setelah mengonfigurasi parameter, klik Save. Aturan peringatan akan langsung berlaku.

Saran konfigurasi peringatan

Anda dapat mengonfigurasi peringatan sesuai kebutuhan. Tabel berikut menyediakan saran konfigurasi untuk metrik umum.

Nama metrik	Ambang batas yang direkomendasikan	Durasi yang direkomendasikan (menit)	Saran konfigurasi peringatan
Average Query Time	>5000	5	Waktu kueri rata-rata dalam milidetik. Sesuaikan ambang batas sesuai kebutuhan. Kami merekomendasikan Anda mengonfigurasi metrik ini.
99th Percentile Query Time	>60000	5	Waktu kueri ekor panjang dalam milidetik. Sesuaikan ambang batas sesuai kebutuhan. Kami merekomendasikan Anda mengonfigurasi metrik ini.
Query Success Rate	<90	5	Tingkat keberhasilan kueri SQL. Kami merekomendasikan Anda mengonfigurasi metrik ini.
CPU Utilization	>80	15	Penggunaan CPU kluster BE. Ini adalah metrik pemantauan bisnis umum. Kami merekomendasikan Anda mengonfigurasi metrik ini.
Memory Usage	>80	15	Penggunaan memori kluster BE. Ini adalah metrik pemantauan bisnis umum. Kami merekomendasikan Anda mengonfigurasi metrik ini.
FE CPU Utilization	>60	15	Penggunaan CPU FE. Kami merekomendasikan Anda mengonfigurasi metrik ini. Jika sumber daya tidak mencukupi, ajukan tiket untuk meminta skala keluar gratis.
FE JVM Memory Usage	>80	15	Penggunaan memori JVM FE. Kami merekomendasikan Anda mengonfigurasi metrik ini. Jika sumber daya tidak mencukupi, ajukan tiket untuk meminta skala keluar gratis.
Number Of Failed Nodes	>0	1	Jumlah kali node dasar kluster komputasi dimulai ulang. Konfigurasikan sesuai kebutuhan.
Data Merge Base Score	<1500	15	Nilai yang lebih tinggi menunjukkan tekanan penggabungan data yang lebih besar pada node komputasi. Kami merekomendasikan Anda mengonfigurasi metrik ini.
Data Merge Cumulative Score	<1500	15	Nilai yang lebih tinggi menunjukkan tekanan penggabungan data yang lebih besar pada node komputasi. Kami merekomendasikan Anda mengonfigurasi metrik ini.
Cache Hit Ratio	<90	15	Rasio hit cache memengaruhi waktu kueri. Kami merekomendasikan Anda mengonfigurasi metrik ini. Jika metrik ini menurun, evaluasi apakah diperlukan skala keluar. Untuk informasi tentang cara melakukan skala keluar, lihat Skala kluster.
User Connections	>150	15	Jumlah total koneksi antara pengguna database dan database. Jumlah maksimum koneksi untuk setiap pengguna adalah 200 secara default. Ini adalah metrik terkait bisnis. Kami merekomendasikan Anda mengonfigurasi metrik ini.
Queries Per Second (QPS)	Tidak ada	Tidak ada	Ini adalah metrik terkait bisnis. Konfigurasikan sesuai kebutuhan.
Disk Write IOPS	Tidak ada	Tidak ada	Ini adalah metrik dasar yang biasanya tidak memerlukan perhatian bisnis. Konfigurasikan sesuai kebutuhan.
Disk Read IOPS	Tidak ada	Tidak ada	Ini adalah metrik dasar yang biasanya tidak memerlukan perhatian bisnis. Konfigurasikan sesuai kebutuhan.
Object Storage Service Capacity	Tidak Ada	Tidak ada	Jika Anda khawatir tentang penggunaan penyimpanan, konfigurasikan sesuai kebutuhan.
Data Import Speed	Tidak Ada	Tidak ada	Jika Anda khawatir tentang kecepatan impor data, konfigurasikan sesuai kebutuhan.
Cache Write Throughput	Tidak Ada	Tidak ada	Ini adalah metrik dasar yang biasanya tidak memerlukan perhatian bisnis. Konfigurasikan sesuai kebutuhan.
Cache Read Throughput	Tidak Ada	Tidak ada	Ini adalah metrik dasar yang biasanya tidak memerlukan perhatian bisnis. Konfigurasikan sesuai kebutuhan.
Network Inbound Throughput	Tidak Ada	Tidak ada	Ini adalah metrik dasar yang biasanya tidak memerlukan perhatian bisnis. Konfigurasikan sesuai kebutuhan.
Network Outbound Throughput	Tidak Ada	Tidak ada	Ini adalah metrik dasar yang biasanya tidak memerlukan perhatian bisnis. Konfigurasikan sesuai kebutuhan.
Remote Storage Read Throughput	Tidak Ada	Tidak ada	Ini adalah metrik dasar yang biasanya tidak memerlukan perhatian bisnis. Konfigurasikan sesuai kebutuhan.