全部产品
Search
文档中心

Hologres:CloudMonitor

更新时间:Oct 16, 2025

CloudMonitor menyediakan solusi pemantauan terpadu untuk perusahaan di cloud. Fitur pemantauan layanan cloud dari CloudMonitor mendukung Hologres. Anda dapat menggunakan CloudMonitor untuk memperoleh pemahaman menyeluruh tentang pemanfaatan sumber daya, operasi bisnis, dan status kesehatan instance Hologres. CloudMonitor juga dapat mengirimkan notifikasi peringatan untuk membantu Anda menangani pengecualian secepat mungkin dan memastikan aplikasi berjalan sesuai harapan. Topik ini menjelaskan cara memantau metrik instance Hologres dan mengonfigurasi aturan peringatan menggunakan CloudMonitor.

Prasyarat

Anda telah membeli instans Hologres.

Catatan penggunaan

CloudMonitor menyediakan metrik khusus untuk berbagai jenis instance dan menampilkan metrik tersebut pada tab yang berbeda berdasarkan jenis instance, seperti Hologres follower instance, Hologres acceleration instance, Hologres standard instance, dan Hologres warehouse instance. Ini memudahkan pemantauan bisnis dan pemecahan masalah. Kami merekomendasikan agar Anda melihat metrik pada tab jenis instance tertentu alih-alih tab Hologres.image.png

Metrik

Untuk informasi lebih lanjut tentang metrik instance Hologres yang didukung oleh CloudMonitor, lihat Metrik Hologres.

Lihat metrik

Anda dapat masuk ke Konsol CloudMonitor untuk melihat metrik.

  1. Masuk ke Konsol CloudMonitor.

  2. Di panel navigasi di sebelah kiri, pilih Cloud Service Monitoring > Pemantauan Layanan Cloud.

  3. Di bagian Big Data, klik jenis instance yang diinginkan. Jenis instance bisa berupa Hologres follower instance, Hologres acceleration instance, Hologres standard instance, atau Hologres warehouse instance.

  4. Klik ikon 地域 di sebelah wilayah dan pilih wilayah tempat instance Anda berada.

  5. Klik ID instance Anda atau klik Monitoring Charts di kolom Tindakan instance Anda.image

    Catatan

    Anda dapat menentukan periode waktu untuk melihat metrik instance. Anda hanya dapat meminta metrik dalam 30 hari terakhir.

Konfigurasikan aturan peringatan

Aktifkan peringatan inisiatif

Anda dapat mengaktifkan fitur peringatan inisiatif untuk Hologres di Konsol CloudMonitor. Fitur peringatan inisiatif memungkinkan Anda mengonfigurasi aturan peringatan default berdasarkan metrik yang berbeda, seperti metrik terkait dengan pemanfaatan CPU, penggunaan disk, penggunaan memori, dan jumlah koneksi, untuk semua instance Hologres akun Alibaba Cloud Anda. Ini membantu Anda mengidentifikasi masalah secepat mungkin. Aturan peringatan default berikut disediakan:

  • Jika rata-rata penggunaan koneksi lebih besar dari atau sama dengan 95% dalam tiga siklus berturut-turut, notifikasi peringatan tingkat info dikirim ke kontak di grup alert contact group.

  • Jika rata-rata penggunaan penyimpanan lebih besar dari 90% dalam tiga siklus berturut-turut, notifikasi peringatan tingkat warn dikirim ke kontak di grup alert contact group.

  • Jika rata-rata penggunaan memori lebih besar dari atau sama dengan 90% dalam tiga siklus berturut-turut, notifikasi peringatan tingkat warn dikirim ke kontak di grup alert contact group.

  • Jika rata-rata pemanfaatan CPU lebih besar dari atau sama dengan 99% dalam tiga siklus berturut-turut, notifikasi peringatan tingkat info dikirim ke kontak di grup alert contact group.

Catatan

Secara default, setiap siklus berlangsung selama 5 menit. Anda juga dapat menentukan durasi siklus kustom.

Buat aturan peringatan

Selain fitur peringatan inisiatif, Anda dapat melakukan langkah-langkah berikut untuk mengonfigurasi aturan peringatan kustom untuk metrik berdasarkan kebutuhan bisnis Anda:

  1. Masuk ke Konsol CloudMonitor.

  2. Di menu navigasi kiri, pilih Alerts > Alert Rules.

  3. Di halaman Alert Rules, klik Create Alert Rule. Di panel Buat Aturan Peringatan, konfigurasikan parameter berdasarkan kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat Buat aturan peringatan.

Praktik terbaik untuk mengonfigurasi aturan peringatan

Bagian ini menjelaskan aturan peringatan yang direkomendasikan untuk metrik yang berbeda.

Penggunaan CPU Instance (%)

Metrik ini menunjukkan apakah ada hambatan sumber daya atau apakah sumber daya sepenuhnya dimanfaatkan pada instance Hologres Anda. Konfigurasi yang direkomendasikan:

  • Aturan Peringatan:

    • Kritis: Jika nilai metrik ini lebih besar dari atau sama dengan 99% dalam 60 siklus berturut-turut, peringatan tingkat kritis dilaporkan. Setiap siklus berlangsung selama 1 menit. Berdasarkan peringatan ini, Anda dapat secara efektif memantau penggunaan sumber daya suatu instance dan menentukan apakah akan melakukan operasi skala keluar.

    • Peringatan: Jika nilai metrik ini lebih besar dari atau sama dengan 99% dalam 10 siklus berturut-turut, peringatan tingkat peringatan dilaporkan. Setiap siklus berlangsung selama 1 menit. Jika peringatan ini dilaporkan, Anda dapat memeriksa apakah pemanfaatan CPU yang tinggi disebabkan oleh perubahan bisnis.

  • Kami merekomendasikan agar Anda tidak mengonfigurasi peringatan yang dipicu begitu nilai metrik ini mencapai 100%. Pemanfaatan CPU 100% dalam waktu singkat tidak menunjukkan beban sistem atau pengecualian. Skenario ini menunjukkan pemanfaatan sumber daya yang tinggi.

  • Kami merekomendasikan agar Anda tidak menetapkan ambang batas metrik ini untuk memicu peringatan ke nilai yang terlalu kecil. Saat tidak ada tugas yang dijalankan, beberapa komponen mungkin tetap berjalan dan mengonsumsi sumber daya.

Penggunaan CPU Worker (%)

Metrik ini menunjukkan apakah ada hambatan sumber daya atau apakah sumber daya sepenuhnya dimanfaatkan pada setiap node pekerja instance Hologres Anda. Konfigurasi yang direkomendasikan:

  • Aturan Peringatan:

    • Kritis: Jika nilai metrik ini lebih besar dari atau sama dengan 99% dalam 60 siklus berturut-turut, peringatan tingkat kritis dilaporkan. Setiap siklus berlangsung selama 1 menit. Berdasarkan peringatan ini, Anda dapat secara efektif memantau penggunaan sumber daya setiap node pekerja dan menentukan apakah akan melakukan operasi skala keluar.

    • Peringatan: Jika nilai metrik ini lebih besar dari atau sama dengan 99% dalam 10 siklus berturut-turut, peringatan tingkat peringatan dilaporkan. Setiap siklus berlangsung selama 1 menit. Jika peringatan ini dilaporkan, Anda dapat memeriksa apakah pemanfaatan CPU yang tinggi disebabkan oleh perubahan bisnis.

  • Kami merekomendasikan agar Anda tidak mengonfigurasi peringatan yang dipicu begitu nilai metrik ini mencapai 100%. Pemanfaatan CPU 100% dalam waktu singkat tidak menunjukkan beban sistem atau pengecualian. Skenario ini menunjukkan pemanfaatan sumber daya yang tinggi.

  • Kami merekomendasikan agar Anda tidak menetapkan ambang batas metrik ini untuk memicu peringatan ke nilai yang terlalu kecil. Saat tidak ada tugas yang dijalankan, beberapa komponen mungkin tetap berjalan dan mengonsumsi sumber daya.

Penggunaan Memori Instance (%)

Metrik ini menunjukkan penggunaan memori suatu instance. Konfigurasi yang direkomendasikan:

  • Aturan Peringatan:

    • Kritis: Jika nilai metrik ini lebih besar dari atau sama dengan 99% dalam 60 siklus berturut-turut, peringatan tingkat kritis dilaporkan. Setiap siklus berlangsung selama 1 menit. Berdasarkan peringatan ini, Anda dapat secara efektif memantau penggunaan memori suatu instance dan menentukan apakah akan melakukan operasi skala keluar.

    • Jika nilai metrik ini lebih besar dari atau sama dengan 99% dalam 10 siklus berturut-turut, peringatan tingkat peringatan dilaporkan. Setiap siklus berlangsung selama 1 menit. Jika peringatan ini dilaporkan, Anda dapat memeriksa apakah penggunaan memori yang tinggi disebabkan oleh perubahan bisnis.

  • Kami merekomendasikan agar Anda tidak menetapkan ambang batas metrik ini untuk memicu peringatan ke nilai yang terlalu kecil. Selain query, metadata dan data yang di-cache mengonsumsi sumber daya memori. Sumber daya memori dikonsumsi bahkan jika tidak ada tugas yang dijalankan pada instance.

Penggunaan Memori Worker (%)

Metrik ini menunjukkan penggunaan memori node pekerja. Konfigurasi yang direkomendasikan:

  • Aturan Peringatan:

    • Kritis: Jika nilai metrik ini lebih besar dari atau sama dengan 99% dalam 60 siklus berturut-turut, peringatan tingkat kritis dilaporkan. Setiap siklus berlangsung selama 1 menit. Berdasarkan peringatan ini, Anda dapat secara efektif memantau penggunaan memori setiap node pekerja pada suatu instance dan menentukan apakah akan melakukan operasi skala keluar.

    • Peringatan: Jika nilai metrik ini lebih besar dari atau sama dengan 99% dalam 10 siklus berturut-turut, peringatan tingkat peringatan dilaporkan. Setiap siklus berlangsung selama 1 menit. Jika peringatan ini dilaporkan, Anda dapat memeriksa apakah penggunaan memori yang tinggi disebabkan oleh perubahan bisnis.

  • Kami merekomendasikan agar Anda tidak menetapkan ambang batas metrik ini untuk memicu peringatan ke nilai yang terlalu kecil. Selain query, metadata dan data yang di-cache menempati sumber daya memori. Sumber daya memori dikonsumsi bahkan jika tidak ada tugas yang dijalankan pada instance.

Penggunaan Koneksi Maksimum (%)

Metrik ini menunjukkan penggunaan koneksi maksimum di antara node FE pada suatu instance. Konfigurasi yang direkomendasikan:

Peringatan: Jika nilai metrik ini lebih besar dari atau sama dengan 95% selama lima siklus berturut-turut, peringatan tingkat peringatan dilaporkan. Setiap siklus berlangsung selama 1 menit. Berdasarkan peringatan ini, Anda dapat secara efektif memantau penggunaan koneksi suatu instance dan menutup koneksi idle secepat mungkin.

Penggunaan Binlog WAL Sender (%)

Metrik ini menunjukkan penggunaan walsender maksimum di antara node FE. Konfigurasi yang direkomendasikan:

Peringatan: Jika nilai metrik ini lebih besar dari atau sama dengan 95% selama lima siklus berturut-turut, peringatan tingkat peringatan dilaporkan. Setiap siklus berlangsung selama 1 menit. Berdasarkan peringatan ini, Anda dapat secara efektif memantau penggunaan walsender suatu instance.

Waktu Query Aktif Terlama (milidetik)

Berdasarkan metrik ini, Anda dapat memeriksa apakah ada query jangka panjang pada instance pada titik waktu tertentu. Konfigurasi yang direkomendasikan:

Peringatan: Jika nilai metrik ini lebih besar dari atau sama dengan 3.600.000 milidetik dalam 10 siklus berturut-turut, peringatan tingkat peringatan dilaporkan. Setiap siklus berlangsung selama 1 menit.

Waktu Query Aktif Terlama Komputasi Serverless (milidetik)

Anda dapat menggunakan metrik ini untuk secara efektif memantau status tugas yang menggunakan sumber daya komputasi serverless. Jika durasi tugas berjalan terlalu lama, Anda dapat membatalkan tugas tersebut secepat mungkin. Konfigurasi yang direkomendasikan:

Peringatan: Jika nilai metrik ini lebih besar dari atau sama dengan 3.600.000 milidetik dalam 10 siklus berturut-turut, peringatan tingkat peringatan dilaporkan. Setiap siklus berlangsung selama 1 menit.

Failed Query QPS (hitungan)

Metrik ini menunjukkan jumlah total query gagal per detik pada suatu instance. Anda dapat mengonfigurasi aturan peringatan berdasarkan metrik ini. Konfigurasi yang direkomendasikan:

Peringatan: Jika nilai metrik ini lebih besar dari atau sama dengan 10 dalam 10 siklus berturut-turut, peringatan tingkat peringatan dilaporkan. Setiap siklus berlangsung selama 1 menit. Jika sejumlah besar query gagal pada suatu instance, kami merekomendasikan agar Anda memeriksa detail kegagalan dalam log query lambat dan melakukan tata kelola.

FE Replay Running Time (milidetik)

Metrik ini menunjukkan durasi replay setiap node FE. Jika nilai metrik ini terlalu besar, query mungkin macet di node FE. Dalam hal ini, lakukan pemecahan masalah secepat mungkin. Konfigurasi yang direkomendasikan:

  • Aturan Peringatan:

    Peringatan: Jika nilai metrik ini lebih besar dari atau sama dengan 300.000 milidetik dalam 10 siklus berturut-turut, peringatan tingkat peringatan dilaporkan. Setiap siklus berlangsung selama 1 menit. Dalam hal ini, periksa dan batalkan query yang memerlukan waktu lama untuk diselesaikan di konsol HoloWeb.

  • Kami merekomendasikan agar Anda tidak menetapkan ambang batas metrik ini untuk memicu peringatan ke nilai yang terlalu kecil. Jika metadata suatu instance dimodifikasi, replay FE terjadi. Dalam kebanyakan kasus, jika nilai metrik ini dalam hitungan detik, nilai tersebut dianggap normal.

Instance Sync Lag (milidetik)

Metrik ini hanya ditampilkan untuk instance sekunder dan menunjukkan latensi sinkronisasi data dari instance utama ke instance sekunder. Konfigurasi yang direkomendasikan:

Peringatan: Jika nilai metrik ini lebih besar dari atau sama dengan 600.000 milidetik selama 10 siklus berturut-turut, peringatan tingkat peringatan dilaporkan. Setiap siklus berlangsung selama 1 menit.

Stats Miss Table Num by DB (hitungan)

Metrik ini menunjukkan performa fitur auto-analyze. Jika informasi statistik tabel tertentu tidak dikumpulkan dalam waktu lama, jalankan pernyataan ANALYZE secara manual pada tabel tersebut. Untuk informasi lebih lanjut, lihat ANALYZE dan auto-analyze. Konfigurasi yang direkomendasikan:

  • Aturan Peringatan:

    Peringatan: Jika nilai metrik ini lebih besar dari atau sama dengan 10 selama 60 siklus berturut-turut, peringatan tingkat peringatan akan dilaporkan. Setiap siklus berlangsung selama 1 menit.

  • Kami merekomendasikan agar Anda tidak menetapkan ambang batas metrik ini untuk memicu peringatan ke nilai yang terlalu kecil. Hal ini karena kecepatan eksekusi fitur auto-analyze menurun jika suatu instance berisi sejumlah besar tabel.

Troubleshoot masalah terkait metrik

Jika metrik berfluktuasi secara tak terduga atau peringatan dilaporkan, Anda dapat memecahkan masalah tersebut dengan mengikuti petunjuk di FAQ Metrik.

Lihat metrik dengan memanggil operasi API

Selain Konsol CloudMonitor, Anda dapat melihat metrik dari dasbor kustom atau dengan memanggil operasi API.

Berikan izin yang diperlukan pada CloudMonitor kepada pengguna RAM

Secara default, pengguna RAM tidak memiliki izin pada CloudMonitor. Anda harus memberikan izin yang diperlukan pada CloudMonitor kepada pengguna RAM berdasarkan kebutuhan bisnis Anda.

Anda dapat masuk ke Konsol Resource Access Management (RAM) menggunakan akun Alibaba Cloud Anda dan memberikan izin dengan mengikuti petunjuk di Berikan Izin kepada Pengguna RAM. Tabel berikut menjelaskan izin tersebut.

Catatan

Anda dapat memberikan izin yang diperlukan berdasarkan kebutuhan bisnis Anda.

Kebijakan

Deskripsi

AliyunCloudMonitorFullAccess

Izin untuk mengelola CloudMonitor.

AliyunCloudMonitorReadOnlyAccess

Izin baca saja pada CloudMonitor.

AliyunCloudMonitorMetricDataReadOnlyAccess

Izin untuk mengakses data deret waktu di CloudMonitor.