Realtime Compute for Apache Flink mendukung pemantauan dan peringatan melalui Cloud Monitor (gratis) atau Application Real-Time Monitoring Service (ARMS). Anda dapat mengonfigurasi peringatan untuk metrik pekerjaan, event pekerjaan, dan alur kerja guna mendeteksi serta menangani anomali secara cepat. Topik ini menjelaskan cara mengonfigurasi pemantauan dan peringatan untuk masing-masing layanan.
Batasan
Aturan peringatan tidak didukung untuk pekerjaan Flink yang dikirim ke session cluster.
Aturan peringatan tidak didukung untuk batch job.
Peringatan alur kerja tidak didukung di ARMS. Sebagai gantinya, Anda dapat menggunakan layanan Cloud Monitor gratis.
Ikhtisar konfigurasi
Metode konfigurasi yang tersedia bergantung pada jenis layanan pemantauan ruang kerja Anda. Untuk informasi selengkapnya, lihat Cara memeriksa jenis layanan pemantauan untuk ruang kerja saya?.
Cloud Monitor (gratis)
Peringatan berbasis metrik: Peringatan ini dipicu berdasarkan nilai metrik, seperti penggunaan CPU, latensi, atau volume data. Anda dapat menerapkan peringatan ini ke satu pekerjaan atau beberapa pekerjaan sekaligus.
Peringatan berbasis event (termasuk alur kerja): Peringatan ini dipicu ketika event tertentu terjadi, seperti kegagalan pekerjaan. Anda dapat menerapkan peringatan ini ke event pekerjaan dan alur kerja.
Layanan pemantauan ARMS
Peringatan berbasis metrik: Peringatan ini dipicu berdasarkan enam metrik inti. Anda dapat menerapkan peringatan ini ke satu pekerjaan atau beberapa pekerjaan sekaligus.
Peringatan berbasis event: Metode ini hanya mendukung event kegagalan pekerjaan. Untuk mengonfigurasi peringatan untuk event lainnya, gunakan peringatan berbasis event Cloud Monitor (termasuk alur kerja).
Ganti jenis layanan pemantauan
Anda dapat mengganti jenis layanan pemantauan untuk memenuhi kebutuhan bisnis yang berbeda.
Di Konsol Realtime Compute, klik More di kolom Actions untuk ruang kerja target guna beralih ke jenis layanan pemantauan lainnya.
Sebelum mengganti jenis layanan, baca catatan dengan cermat dan centang kotak konfirmasi.
Konfigurasi pemantauan dan peringatan dengan Cloud Monitor
Peringatan berbasis metrik
Peringatan di Cloud Monitor hanya dapat dikonfigurasi oleh Akun Alibaba Cloud yang membeli ruang kerja tersebut, atau oleh Pengguna RAM dan Peran RAM yang telah diberikan izin namespace oleh akun tersebut.
-
Masuk ke Konsol Cloud Monitor.
Di panel navigasi kiri, pilih .
Klik Create Alert Rule dan konfigurasi parameter.
Parameter
Deskripsi
Product
Realtime Compute for Apache Flink
Resource Range
Pilih Instances. Aturan peringatan berlaku untuk ruang kerja Realtime Compute for Apache Flink tertentu.
Associated Resources
Klik Add Instance. Di dialog tersebut, pilih wilayah tujuan dan ruang kerja Anda (Bagaimana cara melihat informasi seperti ID ruang kerja?), lalu klik OK.
Rule Description
Klik +Add Rule > Simple Metric atau Combined Metrics untuk membuka panel Configure Rule Description.

Di bagian Dimension, Anda dapat mengonfigurasi namespace (nama proyek Flink) dan deploymentID (field Deployment Job ID pada tab Deployment Details dari pekerjaan Flink terkait) untuk menentukan pekerjaan yang akan dipantau.
CatatanJika daftar drop-down kosong, masukkan namespace dan deployment ID secara manual.
Biarkan bidang ini kosong untuk memantau semua pekerjaan di semua namespace.
CatatanDi lingkungan produksi, peringatan berbasis metrik tunggal dapat menyebabkan false positive atau false negative. Peringatan berbasis metrik gabungan dapat mencerminkan anomali bisnis secara lebih akurat. Untuk informasi selengkapnya, lihat Konfigurasi pemantauan yang direkomendasikan.
Untuk informasi selengkapnya tentang parameter lainnya, lihat Buat aturan peringatan.
Peringatan berbasis event (termasuk alur kerja)
Peringatan hanya dapat dikonfigurasi dan event hanya dapat dilanggan di Cloud Monitor oleh Akun Alibaba Cloud yang membeli ruang kerja tersebut, atau oleh Pengguna RAM dan Peran RAM yang telah diberikan izin namespace oleh akun tersebut.
Peringatan event pekerjaan
Anda dapat berlangganan peringatan event sistem untuk pekerjaan dengan menetapkan kondisi dan mengonfigurasi peringatan batch untuk event.
-
Masuk ke Konsol Cloud Monitor.
Di panel navigasi kiri, pilih .
Di tab Subscription Policy, klik Create Subscription Policy.
Pada halaman Create Subscription Policy, Anda dapat mengonfigurasi parameter. Untuk informasi selengkapnya tentang parameter lainnya, lihat Kelola langganan event.

Untuk Subscription Type, pilih System Events.
Untuk Product, pilih Realtime Compute for Apache Flink.
Event yang didukung meliputi JOB_FAILED (tidak didukung di ARMS), ECS.SystemFailure, dan ECS.SystemMaintenance.
Event Content: Masukkan informasi Flink berikut untuk mengonfigurasi peringatan untuk pekerjaan tertentu atau secara batch.
ID Ruang Kerja: Ini menerapkan aturan peringatan ke semua pekerjaan di semua namespace dalam ruang kerja target. Untuk informasi selengkapnya, lihat Bagaimana cara melihat informasi seperti ID ruang kerja?.
Nama namespace: Ini menerapkan aturan peringatan ke semua pekerjaan di namespace target.
Nama Deployment: Ini menerapkan aturan peringatan ke deployment pekerjaan tertentu. Anda dapat memisahkan beberapa nama dengan koma (
,). Jika terdapat nama deployment duplikat, gunakan deployment ID.Deployment ID: Terapkan peringatan event ke pekerjaan tertentu. Pisahkan beberapa ID dengan koma (
,). Anda dapat menemukan Deployment ID di tab Deployment Details pekerjaan Flink Anda, pada field Deployment Job ID.
CatatanJika Anda membiarkan Application group, Event Content, atau Event Resources kosong, langganan berlaku untuk semua ruang kerja di akun Anda.
Peringatan event alur kerja
Anda dapat mengonfigurasi kondisi untuk berlangganan peringatan event sistem untuk alur kerja Flink. Konfigurasi batch didukung untuk peringatan event. Untuk informasi selengkapnya tentang alur kerja, lihat Kelola alur kerja.
Dapatkan ID resource dari tugas alur kerja.
-
Masuk ke Konsol Cloud Monitor.
Di panel navigasi kiri, pilih .
Di tab Event Monitoring, atur Product ke Realtime Compute for Apache Flink, Event Name ke Workflow Task State Change, lalu klik Search.
Identifikasi ID resource dari node alur kerja di bawah ini.

ID resource memiliki format
acs:flink:cn-hangzhou:<AlibabaCloudAccountID>:resourceId/workspaceId/<workspaceId-namespaceId>#workflowDefinitionName/<workflowDefinitionName>#taskDefinitionName/<taskDefinitionName>. Anda juga dapat langsung menyusun ID resource menggunakan format ini.Parameter
Deskripsi
<AlibabaCloudAccountID>ID akun Alibaba Cloud yang memiliki ruang kerja Flink.
<workspaceId-namespaceId>Terdiri dari
workspaceIddannamespaceId, digabungkan dengan tanda hubung (-).workspaceId: ID ruang kerja Anda. Untuk informasi selengkapnya, lihat FAQ Ruang Kerja dan Namespace.namespaceId: Nama namespace Anda.<workflowDefinitionName>Nama alur kerja.
<taskDefinitionName>Nama node alur kerja.
CatatanEvent perubahan status alur kerja di Cloud Monitor mungkin tertunda beberapa menit.
-
Berlangganan notifikasi event.
Di panel navigasi kiri, pilih .
Di tab Subscription Policy, klik Create Subscription Policy.
Pada halaman Create Subscription Policy, konfigurasikan kebijakan. Untuk informasi selengkapnya, lihat Mengelola langganan event (Direkomendasikan).
Subscription type: System Event.
Product: Pilih Realtime Compute for Apache Flink.
Event Name: Pilih Pipeline Task State Change.
Event Content: Filter berdasarkan status transisi, seperti
toState: FAILED(alur kerja gagal),toState: SUCCESS(alur kerja berhasil), ataufromState: SCHEDULED, toState: RUNNING(alur kerja berpindah dari terjadwal ke berjalan).Event Resources: Masukkan ID resource yang Anda peroleh di Langkah 1. Anda dapat memisahkan beberapa ID dengan koma (
,).Event Type, Event Level, dan Application group: Biarkan parameter ini kosong.
Konfigurasi pemantauan dan peringatan dengan ARMS
Peringatan berbasis metrik
Untuk memantau beberapa metrik di ARMS, Anda dapat menggunakan pernyataan PromQL kustom. Untuk penyiapan yang lebih sederhana, gunakan peringatan berbasis metrik Cloud Monitor.
Konfigurasi pekerjaan tunggal (Konsol Realtime Compute)
Anda dapat membuat aturan peringatan untuk pekerjaan target atau menggunakan templat aturan peringatan yang ada untuk mempercepat konfigurasi.
Konsol pengembangan Realtime Compute menampilkan event peringatan dari 48 jam terakhir. Untuk riwayat peringatan lengkap, periksa Alert Management di konsol ARMS.
Buka halaman konfigurasi peringatan.
Masuk ke Konsol Realtime Compute. Lalu, pada kolom Actions untuk ruang kerja Anda, klik Console.
Di halaman , klik nama pekerjaan yang ingin Anda kelola.
Klik tab Alert Configuration.
Di tab Alert Rules, pilih .
Anda juga dapat memilih untuk membuat aturan peringatan secara langsung atau memodifikasinya sedikit setelah menerapkan templat.
Masukkan informasi aturan peringatan.
Kategori
Parameter
Deskripsi
Specific Rules
Name
Dimulai dengan huruf. Gunakan huruf kecil, angka, dan garis bawah (_). Panjang: 3 hingga 64 karakter.
Description
Catatan tentang aturan tersebut.
Content
Konfigurasikan kondisi yang memicu peringatan. Setelah dikonfigurasi, sistem akan membandingkan nilai metrik terhadap ambang batas secara berkala dan memicu peringatan jika kondisi terpenuhi.
Metric:
Restart Count in 1 Minute: Jumlah restart JobManager per menit.
Checkpoint Count in 5 Minutes: Jumlah checkpoint sukses per 5 menit.
Emit Delay: Latensi bisnis, diukur dalam detik sebagai selisih waktu antara pembuatan data dan keluarnya data dari operator sumber.
PentingAkurasi Emit Delay bergantung pada timestamp yang akurat dari sistem eksternal. Jika sistem eksternal tidak memiliki timestamp atau mencatat timestamp yang salah, Emit Delay akan menjadi tidak akurat dan gagal mencerminkan latensi sebenarnya. Untuk mencerminkan latensi aktual secara lebih baik, konfigurasikan peringatan metrik komposit. Untuk detailnya, lihat Konfigurasi pemantauan yang direkomendasikan.
IN RPS: Catatan masuk per detik.
OUT RPS: Catatan keluar per detik.
Source Idle Time: Durasi operator sumber menganggur, dalam milidetik.
Job Failed: Kegagalan pekerjaan.
Time Interval: Panjang jendela data historis yang dikueri sistem ke belakang selama setiap pemeriksaan, dalam menit.
Comparator: Mendukung >= dan <=.
Threshold: Nilai yang dibandingkan dengan metrik.
Jika Anda memilih >=, sistem membandingkan nilai metrik maksimum terhadap ambang batas. Peringatan dipicu jika max_value >= threshold.
Jika Anda memilih <=, sistem membandingkan nilai metrik minimum terhadap ambang batas. Peringatan dipicu jika min_value <= threshold.
Contoh: Pantau Checkpoint Count in 5 Minutes dengan interval waktu 10 menit, ambang batas 2, dan komparator <=.
Sistem memeriksa setiap menit selama 10 menit terakhir. Peringatan dipicu jika periode 5 menit mana pun memiliki jumlah checkpoint ≤ 2.
Effective Time
Kapan aturan peringatan aktif. Default-nya 24/7. Anda dapat membatasinya hanya pada jam kerja (pukul 9 pagi hingga 6 sore).
Alert Rate
Interval minimum antar-peringatan. Mendukung 1 menit hingga 1440 menit (24 jam).
Notification Method
Notification Method
Pilih satu atau beberapa metode notifikasi:
DingTalk.
Email:
SMS: pesan teks.
Webhook: Menentukan titik akhir layanan.
Telepon: Nomor telepon.
Pastikan nomor telepon penerima telah diverifikasi, atau notifikasi tidak akan efektif. Anda dapat mengklik Notification Recipient Management di bawah ini, dan jika tag Unverified muncul di kolom Phone untuk kontak target di tab Contacts, klik tag tersebut untuk menyelesaikan verifikasi.

PentingPastikan metode notifikasi yang Anda pilih memiliki objek notifikasi yang sesuai yang telah dikonfigurasi. Untuk DingTalk, artinya menambahkan objek notifikasi robot DingTalk setelah memilih DingTalk sebagai metode.
Notification Object
Anda dapat memberi tahu beberapa Penerima Notifikasi secara bersamaan. Anda dapat memilih atau mencari mereka secara langsung. Sebelum memilih Penerima Notifikasi, Anda perlu mengklik Notification Recipient Management di sebelah kanan untuk membuatnya. Untuk informasi selengkapnya, lihat Manajemen dan Operasi Penyimpanan.
Alert Noise Reduction
Klik Advanced Settings dan aktifkan Alert Noise Reduction.
Jika diaktifkan, peringatan hanya dikirim saat ambang batas terpenuhi secara terus-menerus. Hal ini mencegah peringatan untuk masalah sementara, seperti failover singkat yang disebabkan oleh penjadwalan kluster atau penyetelan otomatis.
No Data Alerts
Klik Advanced Settings, aktifkan No Data Alerts, dan tentukan durasinya.
Memicu peringatan jika tidak ada data pemantauan yang dilaporkan dalam periode waktu yang dipilih. Penyebab umum: Exception JobManager, pekerjaan berhenti, atau kegagalan tautan pelaporan.
Anda dapat mengklik OK.
Setelah Anda menyimpan aturan peringatan, aturan tersebut diaktifkan secara default dan muncul di daftar aturan peringatan. Anda kemudian dapat menghentikan, mengedit, atau menghapus aturan tersebut.
Konfigurasi pekerjaan tunggal/multi-pekerjaan (Konsol ARMS)
Jika Anda mengganti nama pekerjaan di konsol Flink, aturan peringatan yang dikonfigurasi di konsol ARMS menggunakan nama pekerjaan asli tidak akan lagi berlaku. Anda harus memilih pekerjaan yang telah diganti namanya dan mengonfigurasi ulang aturan peringatan.
Masuk ke Konsol Realtime Compute.
Di kolom Actions untuk ruang kerja Anda, klik untuk mengakses konsol ARMS.
Nama ruang kerja, ID ruang kerja, dan nama instance Prometheus yang sesuai muncul di bagian atas halaman.

Di panel navigasi kiri, klik Alert Rules untuk membuat aturan peringatan.
Jenis deteksi: mendukung peringatan berbasis metrik melalui ambang batas statis dan PromQL kustom, kecuali untuk metrik yang sudah didukung Flink untuk peringatan.
Kondisi Filter memungkinkan konfigurasi peringatan batch. Untuk Namespace, masukkan nama namespace. Pilih All untuk menerapkan ke semua namespace di ruang kerja. Untuk Deployment, masukkan Deployment Job ID untuk pekerjaan target dalam namespace tersebut (Anda dapat menemukan ID ini di tab Deployment Details pekerjaan Flink). Pilih All untuk menerapkan ke semua pekerjaan di namespace tersebut.
Untuk informasi selengkapnya tentang parameter konfigurasi lainnya, lihat Buat aturan peringatan Prometheus. Anda juga dapat membuat templat aturan peringatan Prometheus. Untuk informasi selengkapnya, lihat Buat templat aturan peringatan Prometheus.
Peringatan berbasis event
Hanya event kegagalan pekerjaan yang didukung. Untuk mengonfigurasi peringatan untuk event ini, ikuti petunjuk di Peringatan berbasis metrik dan pilih metrik Job Failed. Untuk mengonfigurasi peringatan untuk event lainnya, gunakan peringatan berbasis event Cloud Monitor (termasuk alur kerja).
FAQ
Bagaimana cara menambahkan robot DingTalk untuk peringatan di Konsol pengembangan Realtime Compute?
Bagaimana cara membuat webhook di Konsol pengembangan Realtime Compute?
Referensi
Realtime Compute for Apache Flink mendukung Cloud Monitor (gratis) dan ARMS (Managed Service for Prometheus) untuk pemantauan dan peringatan pekerjaan. Untuk perbandingan fitur dan harga, lihat Fitur peringatan Cloud Monitor vs. ARMS.
ARMS mendukung konfigurasi fitur seperti eskalasi peringatan, dan penjadwalan. Untuk informasi selengkapnya, lihat Kebijakan Eskalasi, dan Tutorial Praktik Terkait.
Cloud Monitor mendukung penerimaan notifikasi peringatan menggunakan grup DingTalk dan Lark. Untuk informasi selengkapnya tentang konfigurasi, lihat Metode notifikasi peringatan untuk Cloud Monitor.
Untuk informasi selengkapnya tentang metrik pemantauan yang didukung, lihat Metrik pemantauan.
Anda dapat menonaktifkan pemantauan dan peringatan atau membuang metrik tertentu saat menggunakan ARMS untuk mengurangi biaya. Anda dapat melanjutkan pengumpulan metrik di lain waktu. Untuk informasi selengkapnya, lihat Buang atau lanjutkan metrik pemantauan.

