All Products
Search
Document Center

Realtime Compute for Apache Flink:Konfigurasi pemantauan dan peringatan

Last Updated:Mar 12, 2026

Realtime Compute for Apache Flink mendukung pemantauan dan peringatan melalui Cloud Monitor (gratis) atau Application Real-Time Monitoring Service (ARMS). Anda dapat mengonfigurasi peringatan untuk metrik pekerjaan, event pekerjaan, dan alur kerja guna mendeteksi serta menangani anomali secara cepat. Topik ini menjelaskan cara mengonfigurasi pemantauan dan peringatan untuk masing-masing layanan.

Batasan

  • Aturan peringatan tidak didukung untuk pekerjaan Flink yang dikirim ke session cluster.

  • Aturan peringatan tidak didukung untuk batch job.

  • Peringatan alur kerja tidak didukung di ARMS. Sebagai gantinya, Anda dapat menggunakan layanan Cloud Monitor gratis.

Ikhtisar konfigurasi

Metode konfigurasi yang tersedia bergantung pada jenis layanan pemantauan ruang kerja Anda. Untuk informasi selengkapnya, lihat Cara memeriksa jenis layanan pemantauan untuk ruang kerja saya?.

Ganti jenis layanan pemantauan

Anda dapat mengganti jenis layanan pemantauan untuk memenuhi kebutuhan bisnis yang berbeda.

Di Konsol Realtime Compute, klik More di kolom Actions untuk ruang kerja target guna beralih ke jenis layanan pemantauan lainnya.

Catatan

Sebelum mengganti jenis layanan, baca catatan dengan cermat dan centang kotak konfirmasi.

Konfigurasi pemantauan dan peringatan dengan Cloud Monitor

Peringatan berbasis metrik

Penting

Peringatan di Cloud Monitor hanya dapat dikonfigurasi oleh Akun Alibaba Cloud yang membeli ruang kerja tersebut, atau oleh Pengguna RAM dan Peran RAM yang telah diberikan izin namespace oleh akun tersebut.

  1. Masuk ke Konsol Cloud Monitor.

  2. Di panel navigasi kiri, pilih Alerts > Alert Rules.

  3. Klik Create Alert Rule dan konfigurasi parameter.

  4. Parameter

    Deskripsi

    Product

    Realtime Compute for Apache Flink

    Resource Range

    Pilih Instances. Aturan peringatan berlaku untuk ruang kerja Realtime Compute for Apache Flink tertentu.

    Associated Resources

    Klik Add Instance. Di dialog tersebut, pilih wilayah tujuan dan ruang kerja Anda (Bagaimana cara melihat informasi seperti ID ruang kerja?), lalu klik OK.

    Rule Description

    Klik +Add Rule > Simple Metric atau Combined Metrics untuk membuka panel Configure Rule Description.

    image

    Di bagian Dimension, Anda dapat mengonfigurasi namespace (nama proyek Flink) dan deploymentID (field Deployment Job ID pada tab Deployment Details dari pekerjaan Flink terkait) untuk menentukan pekerjaan yang akan dipantau.

    Catatan
    • Jika daftar drop-down kosong, masukkan namespace dan deployment ID secara manual.

    • Biarkan bidang ini kosong untuk memantau semua pekerjaan di semua namespace.

    Catatan
    • Di lingkungan produksi, peringatan berbasis metrik tunggal dapat menyebabkan false positive atau false negative. Peringatan berbasis metrik gabungan dapat mencerminkan anomali bisnis secara lebih akurat. Untuk informasi selengkapnya, lihat Konfigurasi pemantauan yang direkomendasikan.

    • Untuk informasi selengkapnya tentang parameter lainnya, lihat Buat aturan peringatan.

Peringatan berbasis event (termasuk alur kerja)

Penting

Peringatan hanya dapat dikonfigurasi dan event hanya dapat dilanggan di Cloud Monitor oleh Akun Alibaba Cloud yang membeli ruang kerja tersebut, atau oleh Pengguna RAM dan Peran RAM yang telah diberikan izin namespace oleh akun tersebut.

Peringatan event pekerjaan

Anda dapat berlangganan peringatan event sistem untuk pekerjaan dengan menetapkan kondisi dan mengonfigurasi peringatan batch untuk event.

  1. Masuk ke Konsol Cloud Monitor.

  2. Di panel navigasi kiri, pilih Event Center > Event Subscription.

  3. Di tab Subscription Policy, klik Create Subscription Policy.

  4. Pada halaman Create Subscription Policy, Anda dapat mengonfigurasi parameter. Untuk informasi selengkapnya tentang parameter lainnya, lihat Kelola langganan event.

    image

    • Untuk Subscription Type, pilih System Events.

    • Untuk Product, pilih Realtime Compute for Apache Flink.

    • Event yang didukung meliputi JOB_FAILED (tidak didukung di ARMS), ECS.SystemFailure, dan ECS.SystemMaintenance.

    • Event Content: Masukkan informasi Flink berikut untuk mengonfigurasi peringatan untuk pekerjaan tertentu atau secara batch.

      • ID Ruang Kerja: Ini menerapkan aturan peringatan ke semua pekerjaan di semua namespace dalam ruang kerja target. Untuk informasi selengkapnya, lihat Bagaimana cara melihat informasi seperti ID ruang kerja?.

      • Nama namespace: Ini menerapkan aturan peringatan ke semua pekerjaan di namespace target.

      • Nama Deployment: Ini menerapkan aturan peringatan ke deployment pekerjaan tertentu. Anda dapat memisahkan beberapa nama dengan koma (,). Jika terdapat nama deployment duplikat, gunakan deployment ID.

      • Deployment ID: Terapkan peringatan event ke pekerjaan tertentu. Pisahkan beberapa ID dengan koma (,). Anda dapat menemukan Deployment ID di tab Deployment Details pekerjaan Flink Anda, pada field Deployment Job ID.

    Catatan

    Jika Anda membiarkan Application group, Event Content, atau Event Resources kosong, langganan berlaku untuk semua ruang kerja di akun Anda.

Peringatan event alur kerja

Anda dapat mengonfigurasi kondisi untuk berlangganan peringatan event sistem untuk alur kerja Flink. Konfigurasi batch didukung untuk peringatan event. Untuk informasi selengkapnya tentang alur kerja, lihat Kelola alur kerja.

  1. Dapatkan ID resource dari tugas alur kerja.

    1. Masuk ke Konsol Cloud Monitor.

    2. Di panel navigasi kiri, pilih Event Center > System Events.

    3. Di tab Event Monitoring, atur Product ke Realtime Compute for Apache Flink, Event Name ke Workflow Task State Change, lalu klik Search.

    4. Identifikasi ID resource dari node alur kerja di bawah ini.

      工作流告警_cn.png

      ID resource memiliki format acs:flink:cn-hangzhou:<AlibabaCloudAccountID>:resourceId/workspaceId/<workspaceId-namespaceId>#workflowDefinitionName/<workflowDefinitionName>#taskDefinitionName/<taskDefinitionName>. Anda juga dapat langsung menyusun ID resource menggunakan format ini.

      Parameter

      Deskripsi

      <AlibabaCloudAccountID>

      ID akun Alibaba Cloud yang memiliki ruang kerja Flink.

      <workspaceId-namespaceId>

      Terdiri dari workspaceId dan namespaceId, digabungkan dengan tanda hubung (-).

      workspaceId: ID ruang kerja Anda. Untuk informasi selengkapnya, lihat FAQ Ruang Kerja dan Namespace.

      namespaceId: Nama namespace Anda.

      <workflowDefinitionName>

      Nama alur kerja.

      <taskDefinitionName>

      Nama node alur kerja.

      Catatan

      Event perubahan status alur kerja di Cloud Monitor mungkin tertunda beberapa menit.

  2. Berlangganan notifikasi event.

    1. Di panel navigasi kiri, pilih Event Center > Event Subscription.

    2. Di tab Subscription Policy, klik Create Subscription Policy.

    3. Pada halaman Create Subscription Policy, konfigurasikan kebijakan. Untuk informasi selengkapnya, lihat Mengelola langganan event (Direkomendasikan).

      • Subscription type: System Event.

      • Product: Pilih Realtime Compute for Apache Flink.

      • Event Name: Pilih Pipeline Task State Change.

      • Event Content: Filter berdasarkan status transisi, seperti toState: FAILED (alur kerja gagal), toState: SUCCESS (alur kerja berhasil), atau fromState: SCHEDULED, toState: RUNNING (alur kerja berpindah dari terjadwal ke berjalan).

      • Event Resources: Masukkan ID resource yang Anda peroleh di Langkah 1. Anda dapat memisahkan beberapa ID dengan koma (,).

      • Event Type, Event Level, dan Application group: Biarkan parameter ini kosong.

Konfigurasi pemantauan dan peringatan dengan ARMS

Peringatan berbasis metrik

Catatan

Untuk memantau beberapa metrik di ARMS, Anda dapat menggunakan pernyataan PromQL kustom. Untuk penyiapan yang lebih sederhana, gunakan peringatan berbasis metrik Cloud Monitor.

Konfigurasi pekerjaan tunggal (Konsol Realtime Compute)

Anda dapat membuat aturan peringatan untuk pekerjaan target atau menggunakan templat aturan peringatan yang ada untuk mempercepat konfigurasi.

Catatan

Konsol pengembangan Realtime Compute menampilkan event peringatan dari 48 jam terakhir. Untuk riwayat peringatan lengkap, periksa Alert Management di konsol ARMS.

  1. Buka halaman konfigurasi peringatan.

    1. Masuk ke Konsol Realtime Compute. Lalu, pada kolom Actions untuk ruang kerja Anda, klik Console.

    2. Di halaman Operation Center > Job O&M, klik nama pekerjaan yang ingin Anda kelola.

    3. Klik tab Alert Configuration.

  2. Di tab Alert Rules, pilih Add Rule > Custom Rule.

    Anda juga dapat memilih Add Rule > Rule Template untuk membuat aturan peringatan secara langsung atau memodifikasinya sedikit setelah menerapkan templat.

  3. Masukkan informasi aturan peringatan.

    Kategori

    Parameter

    Deskripsi

    Specific Rules

    Name

    Dimulai dengan huruf. Gunakan huruf kecil, angka, dan garis bawah (_). Panjang: 3 hingga 64 karakter.

    Description

    Catatan tentang aturan tersebut.

    Content

    Konfigurasikan kondisi yang memicu peringatan. Setelah dikonfigurasi, sistem akan membandingkan nilai metrik terhadap ambang batas secara berkala dan memicu peringatan jika kondisi terpenuhi.

    • Metric:

      • Restart Count in 1 Minute: Jumlah restart JobManager per menit.

      • Checkpoint Count in 5 Minutes: Jumlah checkpoint sukses per 5 menit.

      • Emit Delay: Latensi bisnis, diukur dalam detik sebagai selisih waktu antara pembuatan data dan keluarnya data dari operator sumber.

        Penting

        Akurasi Emit Delay bergantung pada timestamp yang akurat dari sistem eksternal. Jika sistem eksternal tidak memiliki timestamp atau mencatat timestamp yang salah, Emit Delay akan menjadi tidak akurat dan gagal mencerminkan latensi sebenarnya. Untuk mencerminkan latensi aktual secara lebih baik, konfigurasikan peringatan metrik komposit. Untuk detailnya, lihat Konfigurasi pemantauan yang direkomendasikan.

      • IN RPS: Catatan masuk per detik.

      • OUT RPS: Catatan keluar per detik.

      • Source Idle Time: Durasi operator sumber menganggur, dalam milidetik.

      • Job Failed: Kegagalan pekerjaan.

    • Time Interval: Panjang jendela data historis yang dikueri sistem ke belakang selama setiap pemeriksaan, dalam menit.

    • Comparator: Mendukung >= dan <=.

    • Threshold: Nilai yang dibandingkan dengan metrik.

      • Jika Anda memilih >=, sistem membandingkan nilai metrik maksimum terhadap ambang batas. Peringatan dipicu jika max_value >= threshold.

      • Jika Anda memilih <=, sistem membandingkan nilai metrik minimum terhadap ambang batas. Peringatan dipicu jika min_value <= threshold.

    Contoh: Pantau Checkpoint Count in 5 Minutes dengan interval waktu 10 menit, ambang batas 2, dan komparator <=.

    Sistem memeriksa setiap menit selama 10 menit terakhir. Peringatan dipicu jika periode 5 menit mana pun memiliki jumlah checkpoint ≤ 2.

    Effective Time

    Kapan aturan peringatan aktif. Default-nya 24/7. Anda dapat membatasinya hanya pada jam kerja (pukul 9 pagi hingga 6 sore).

    Alert Rate

    Interval minimum antar-peringatan. Mendukung 1 menit hingga 1440 menit (24 jam).

    Notification Method

    Notification Method

    Pilih satu atau beberapa metode notifikasi:

    • DingTalk.

    • Email:

    • SMS: pesan teks.

    • Webhook: Menentukan titik akhir layanan.

    • Telepon: Nomor telepon.

      Pastikan nomor telepon penerima telah diverifikasi, atau notifikasi tidak akan efektif. Anda dapat mengklik Notification Recipient Management di bawah ini, dan jika tag Unverified muncul di kolom Phone untuk kontak target di tab Contacts, klik tag tersebut untuk menyelesaikan verifikasi.

      image

    Penting

    Pastikan metode notifikasi yang Anda pilih memiliki objek notifikasi yang sesuai yang telah dikonfigurasi. Untuk DingTalk, artinya menambahkan objek notifikasi robot DingTalk setelah memilih DingTalk sebagai metode.

    Notification Object

    Anda dapat memberi tahu beberapa Penerima Notifikasi secara bersamaan. Anda dapat memilih atau mencari mereka secara langsung. Sebelum memilih Penerima Notifikasi, Anda perlu mengklik Notification Recipient Management di sebelah kanan untuk membuatnya. Untuk informasi selengkapnya, lihat Manajemen dan Operasi Penyimpanan.

    Alert Noise Reduction

    Klik Advanced Settings dan aktifkan Alert Noise Reduction.

    Jika diaktifkan, peringatan hanya dikirim saat ambang batas terpenuhi secara terus-menerus. Hal ini mencegah peringatan untuk masalah sementara, seperti failover singkat yang disebabkan oleh penjadwalan kluster atau penyetelan otomatis.

    No Data Alerts

    Klik Advanced Settings, aktifkan No Data Alerts, dan tentukan durasinya.

    Memicu peringatan jika tidak ada data pemantauan yang dilaporkan dalam periode waktu yang dipilih. Penyebab umum: Exception JobManager, pekerjaan berhenti, atau kegagalan tautan pelaporan.

  4. Anda dapat mengklik OK.

    Setelah Anda menyimpan aturan peringatan, aturan tersebut diaktifkan secara default dan muncul di daftar aturan peringatan. Anda kemudian dapat menghentikan, mengedit, atau menghapus aturan tersebut.

Konfigurasi pekerjaan tunggal/multi-pekerjaan (Konsol ARMS)

Penting

Jika Anda mengganti nama pekerjaan di konsol Flink, aturan peringatan yang dikonfigurasi di konsol ARMS menggunakan nama pekerjaan asli tidak akan lagi berlaku. Anda harus memilih pekerjaan yang telah diganti namanya dan mengonfigurasi ulang aturan peringatan.

  1. Masuk ke Konsol Realtime Compute.

  2. Di kolom Actions untuk ruang kerja Anda, klik More > Monitoring Indicator Configuration untuk mengakses konsol ARMS.

    Nama ruang kerja, ID ruang kerja, dan nama instance Prometheus yang sesuai muncul di bagian atas halaman.

    image.png

  3. Di panel navigasi kiri, klik Alert Rules untuk membuat aturan peringatan.

    • Jenis deteksi: mendukung peringatan berbasis metrik melalui ambang batas statis dan PromQL kustom, kecuali untuk metrik yang sudah didukung Flink untuk peringatan.

    • Kondisi Filter memungkinkan konfigurasi peringatan batch. Untuk Namespace, masukkan nama namespace. Pilih All untuk menerapkan ke semua namespace di ruang kerja. Untuk Deployment, masukkan Deployment Job ID untuk pekerjaan target dalam namespace tersebut (Anda dapat menemukan ID ini di tab Deployment Details pekerjaan Flink). Pilih All untuk menerapkan ke semua pekerjaan di namespace tersebut.

    Untuk informasi selengkapnya tentang parameter konfigurasi lainnya, lihat Buat aturan peringatan Prometheus. Anda juga dapat membuat templat aturan peringatan Prometheus. Untuk informasi selengkapnya, lihat Buat templat aturan peringatan Prometheus.

Peringatan berbasis event

Hanya event kegagalan pekerjaan yang didukung. Untuk mengonfigurasi peringatan untuk event ini, ikuti petunjuk di Peringatan berbasis metrik dan pilih metrik Job Failed. Untuk mengonfigurasi peringatan untuk event lainnya, gunakan peringatan berbasis event Cloud Monitor (termasuk alur kerja).

FAQ

Bagaimana cara memeriksa jenis layanan pemantauan untuk ruang kerja saya?

Anda memilih jenis layanan pemantauan saat membuat ruang kerja. Untuk memverifikasinya setelah pembuatan, buka O&M > Deployments dan klik nama deployment pekerjaan Anda. Jika tab Alert Configuration muncul, ruang kerja Anda menggunakan ARMS (pemantauan Prometheus bayar sesuai penggunaan). Jika tidak muncul, ruang kerja Anda menggunakan Cloud Monitor (gratis).

image

Bagaimana cara menambahkan robot DingTalk untuk peringatan di Konsol pengembangan Realtime Compute?

  1. Tambahkan robot DingTalk kustom dan dapatkan alamat webhook-nya. Untuk informasi selengkapnya, lihat Tambahkan robot DingTalk kustom dan dapatkan alamat webhook-nya.

    Penting

    Untuk menerima notifikasi peringatan, di Security Settings, Anda harus memilih minimal Custom Keywords dan menetapkan minimal satu kata kunci ke Alert.

  2. Tambahkan objek notifikasi.

    1. Di halaman O&M > Deployments, klik nama deployment pekerjaan Anda dan pilih tab Alert Configuration.

    2. Pilih Add Rule > Custom Rule atau Rule Template.

    3. Di halaman Create Rule atau Create Alert Rule Template, klik Notification Object Management.

      image.png

  3. Di tab DingTalk Robot, klik Add DingTalk Robot.

    Masukkan Name dan URL robot DingTalk, lalu klik Submit.

  4. Kembali ke halaman Create Rule atau Create Alert Rule Template di langkah 2. Atur Notification Method ke DingTalk dan Notification Object ke robot DingTalk Anda.

    Untuk informasi selengkapnya tentang parameter lainnya, lihat Konfigurasi pekerjaan tunggal (Konsol Realtime Compute).

  5. Klik OK.

Bagaimana cara membuat webhook di Konsol pengembangan Realtime Compute?

  1. Di halaman Alert Template atau Rule Information, klik Notification Object Management.

  2. Di tab Webhook, klik New Webhook.

  3. Di halaman New Webhook, Anda dapat memasukkan informasi webhook.

    Parameter

    Deskripsi

    Name

    Wajib diisi. Nama webhook.

    URL

    Wajib diisi. URL webhook.

    Headers

    Opsional. Header permintaan yang digunakan untuk menyimpan informasi cookie dan token. Format: key: value.

    Catatan

    Pastikan terdapat spasi setelah tanda titik dua antara key dan value.

    Params

    Opsional. Parameter permintaan. Format: key: value.

    Catatan

    Pastikan terdapat spasi setelah tanda titik dua antara key dan value.

    Body

    Wajib diisi. Badan permintaan yang digunakan untuk menyimpan parameter dan data POST.

    Anda dapat menggunakan placeholder $content dalam string Body untuk mengeluarkan konten peringatan.

  4. Klik OK.

Referensi

  • Realtime Compute for Apache Flink mendukung Cloud Monitor (gratis) dan ARMS (Managed Service for Prometheus) untuk pemantauan dan peringatan pekerjaan. Untuk perbandingan fitur dan harga, lihat Fitur peringatan Cloud Monitor vs. ARMS.

  • ARMS mendukung konfigurasi fitur seperti eskalasi peringatan, dan penjadwalan. Untuk informasi selengkapnya, lihat Kebijakan Eskalasi, dan Tutorial Praktik Terkait.

  • Cloud Monitor mendukung penerimaan notifikasi peringatan menggunakan grup DingTalk dan Lark. Untuk informasi selengkapnya tentang konfigurasi, lihat Metode notifikasi peringatan untuk Cloud Monitor.

  • Untuk informasi selengkapnya tentang metrik pemantauan yang didukung, lihat Metrik pemantauan.

  • Anda dapat menonaktifkan pemantauan dan peringatan atau membuang metrik tertentu saat menggunakan ARMS untuk mengurangi biaya. Anda dapat melanjutkan pengumpulan metrik di lain waktu. Untuk informasi selengkapnya, lihat Buang atau lanjutkan metrik pemantauan.