Realtime Compute for Apache Flink menyediakan pemantauan fleksibel melalui Cloud Monitor (gratis) dan Managed Service for Prometheus. Siapkan peringatan untuk metrik pekerjaan, event, dan alur kerja guna mendeteksi serta mengatasi anomali secara cepat. Panduan ini mencakup konfigurasi pemantauan dan peringatan di kedua layanan tersebut.
Batasan
Aturan peringatan tidak didukung untuk pekerjaan Flink yang berjalan pada session cluster.
Aturan peringatan tidak didukung untuk batch job.
Peringatan alur kerja hanya tersedia dengan Cloud Monitor.
Ikhtisar
Pilih metode konfigurasi berdasarkan jenis layanan pemantauan ruang kerja Anda. Lihat Bagaimana cara memeriksa jenis layanan pemantauan untuk ruang kerja saya?.
Cloud Monitor
Peringatan berbasis metrik: Siapkan aturan peringatan untuk metrik utama seperti penggunaan CPU, latensi, atau volume data. Berlaku untuk satu pekerjaan atau kumpulan pekerjaan.
Peringatan berbasis event (termasuk alur kerja): Siapkan peringatan untuk event tertentu, seperti kegagalan pekerjaan. Berlaku untuk pekerjaan dan event alur kerja.
Managed Service for Prometheus (ARMS)
Peringatan berbasis metrik: Siapkan peringatan untuk enam metrik utama.
Peringatan berbasis event: Siapkan peringatan hanya untuk event kegagalan pekerjaan. Untuk mengonfigurasi peringatan untuk event lainnya, gunakan Cloud Monitor. Lihat Peringatan berbasis event (termasuk alur kerja).
Konfigurasikan aturan peringatan dengan Cloud Monitor
Peringatan berbasis metrik
Untuk menetapkan aturan peringatan dengan Cloud Monitor, Anda harus login menggunakan Akun Alibaba Cloud atau sebagai identitas RAM dengan izin yang diperlukan di namespace target.
Login ke Konsol Cloud Monitor.
Di panel navigasi kiri, pilih .
Klik Create Alert Rule dan konfigurasikan aturan tersebut.
Parameter
Deskripsi
Product
Pilih Flink.
Resource Range
Pilih Instances. Aturan peringatan berlaku untuk ruang kerja Flink tertentu.
Associated Resources
Klik Add Instance. Di dialog tersebut, pilih wilayah tujuan dan ruang kerja Anda (Bagaimana cara melihat informasi seperti ID ruang kerja?), lalu klik OK.
Rule Description
Klik +Add Rule > Simple Metric atau Combined Metrics untuk membuka panel Configure Rule Description.

(Opsional) Setelah metrik dipilih, bagian Dimension akan ditampilkan. Di sini Anda dapat mengonfigurasi namespace dan deploymentId untuk menentukan deployment pekerjaan yang akan dipantau.
CatatanJika daftar drop-down kosong, masukkan namespace dan deployment ID secara manual.
Membiarkan bidang ini kosong akan memantau semua deployment pekerjaan di seluruh namespace.
CatatanPeringatan berbasis metrik tunggal dapat menyebabkan positif palsu atau negatif palsu di lingkungan produksi. Peringatan berbasis metrik gabungan memberikan gambaran yang lebih akurat terhadap anomali bisnis sesungguhnya. Untuk detail selengkapnya, lihat Praktik terbaik untuk pemantauan dan peringatan.
Untuk detail parameter lainnya, lihat Buat aturan peringatan.
Peringatan berbasis event (termasuk alur kerja)
Untuk menetapkan aturan peringatan dengan Cloud Monitor, Anda harus login menggunakan Akun Alibaba Cloud atau sebagai identitas RAM dengan izin yang diperlukan di namespace target.
Peringatan event sistem
Berlangganan event sistem untuk satu atau beberapa pekerjaan.
Login ke Konsol Cloud Monitor.
Di panel navigasi kiri, pilih .
Di tab Subscription Policy, klik Create Subscription Policy.
Di halaman Create Subscription Policy, konfigurasikan detail langganan. Untuk mengonfigurasi parameter yang tidak tercantum di bawah ini, lihat Kelola langganan event (Direkomendasikan).

Subscription Type: Pilih System Events.
Products: Pilih Flink.
Event name: Event yang didukung termasuk JOB_FAILED, ECS.SystemFailure, dan ECS.SystemMaintenance.
Event Content: Isi informasi berikut sesuai kebutuhan.
Workspace ID: Masukkan ID ruang kerja, dan aturan peringatan akan berlaku untuk semua pekerjaan di seluruh namespace dalam ruang kerja target. Untuk melihat ID ruang kerja, lihat Bagaimana cara melihat informasi seperti ID ruang kerja?.
Nama namespace: Masukkan nama namespace, dan aturan peringatan akan berlaku untuk semua pekerjaan di namespace target.
Nama deployment: Masukkan nama deployment pekerjaan, dan aturan peringatan akan berlaku untuk deployment pekerjaan tertentu. Pisahkan beberapa nama menggunakan koma (
,). Jika terdapat nama deployment duplikat, gunakan deployment ID.Deployment ID: Masukkan ID deployment pekerjaan, dan aturan peringatan akan berlaku untuk deployment pekerjaan tertentu. Pisahkan beberapa ID menggunakan koma (
,). Untuk mendapatkan deployment ID, buka halaman detail deployment Anda.
CatatanMembiarkan Application group, Event Content, atau Event Resources kosong akan menerapkan langganan ke semua ruang kerja dalam akun Anda.
Peringatan event alur kerja
Berlangganan event alur kerja. Untuk detail alur kerja, lihat Kelola alur kerja.
Dapatkan ID resource dari tugas alur kerja.
Login ke Konsol Cloud Monitor.
Di panel navigasi kiri, pilih .
Di tab Event Monitoring, atur SelectProduct ke Flink, atur SelectEvent Name ke
flink:Workflow:TaskStateChange, lalu klik Search.Filter ID resource tugas alur kerja.

Format ID resource:
acs:flink:cn-hangzhou:<AlibabaCloudAccountID>:resourceId/workspaceId/<workspaceId-namespaceId>#workflowDefinitionName/<workflowDefinitionName>#taskDefinitionName/<taskDefinitionName>. Anda juga dapat menggunakan format ini untuk langsung menyusun ID resource tugas alur kerja Anda.Parameter
Deskripsi
<AlibabaCloudAccountID>ID Akun Alibaba Cloud yang memiliki ruang kerja Flink.
<workspaceId-namespaceId>Terdiri dari
workspaceIddannamespaceId, digabungkan dengan tanda hubung (-).workspaceId: ID ruang kerja Anda. Untuk informasi selengkapnya, lihat Bagaimana cara melihat informasi tentang ruang kerja, seperti ID ruang kerja?.namespaceId: Nama namespace Anda.<workflowDefinitionName>Nama alur kerja.
<taskDefinitionName>Nama tugas alur kerja.
CatatanPerubahan status tugas alur kerja biasanya muncul di Cloud Monitor dengan penundaan beberapa menit.
Berlangganan notifikasi event.
Di panel navigasi kiri Konsol Cloud Monitor, pilih .
Di tab Subscription Policy, klik Create Subscription Policy.
Di halaman Create Subscription Policy, konfigurasikan kebijakan tersebut. Untuk detail selengkapnya, lihat Kelola langganan event (Direkomendasikan).
Subscription Type: Pilih System Events.
Products: Pilih Flink.
Event name: Pilih flink:Workflow:TaskStateChange.
Event Content: Filter berdasarkan status transisi yang diinginkan, misalnya
toState: FAILED,toState: SUCCESS, danfromState: SCHEDULED, toState: RUNNING.Event Resources: Masukkan ID resource yang diperoleh pada langkah sebelumnya. Pisahkan beberapa ID dengan koma (
,).Event Type, Event Level, dan Application group: Biarkan parameter ini tidak diatur.
Konfigurasikan pemantauan dan peringatan dengan Managed Service for Prometheus
Peringatan berbasis metrik
Untuk memantau beberapa metrik menggunakan Prometheus, Anda harus menggunakan pernyataan PromQL kustom untuk membuat aturan peringatan. Untuk penyiapan yang lebih sederhana, konfigurasikan aturan peringatan dengan Cloud Monitor.
Konfigurasi pekerjaan tunggal (Konsol Pengembangan)
Anda dapat membuat aturan peringatan untuk pekerjaan target dari awal atau menggunakan templat.
Konsol Pengembangan hanya menampilkan event peringatan dari 48 jam terakhir. Untuk riwayat peringatan yang lebih lama, periksa Alert Management di konsol ARMS.
Buka halaman konfigurasi peringatan.
Login ke Konsol Manajemen Realtime Compute for Apache Flink dan klik Console di kolom Actions ruang kerja Anda.
Di bilah navigasi kiri, pilih . Klik deployment pekerjaan Anda.
Pilih tab Alarm.
Beralih ke subtab Alarm Rules, lalu pilih .
Atau, pilih .
Masukkan informasi aturan peringatan.
Bagian
Label
Deskripsi
Rule
Name
Masukkan nama aturan. Nama harus dimulai dengan huruf dan dapat berisi huruf kecil, angka, serta garis bawah (
_). Panjang: 3 hingga 64 karakter.Description
Masukkan catatan Anda tentang aturan tersebut.
Content
Konfigurasikan kondisi yang memicu peringatan. Realtime Compute for Apache Flink secara berkala membandingkan nilai metrik aktual terhadap ambang batas dan memicu peringatan jika suatu kondisi terpenuhi. Konfigurasikan logika peringatan:
Metric:
Restart Count in 1 MinuteCheckpoint Count in 5 MinutesEmit Delay: Latensi bisnis dari pembuatan data hingga keluaran sumber, dalam detik.PentingAkurasi
Emit Delaybergantung pada timestamp yang akurat dari sistem eksternal. Jika sistem eksternal tidak memiliki timestamp atau mencatat timestamp yang salah,Emit Delayakan menjadi tidak akurat dan gagal mencerminkan latensi sebenarnya. Untuk mencerminkan latensi aktual secara lebih akurat, konfigurasikan aturan peringatan untuk metrik gabungan. Untuk detail selengkapnya, lihat Praktik terbaik untuk pemantauan dan peringatan.IN RPS: Catatan masuk per detik.OUT RPS: Catatan keluaran per detik.Source Idle Time: Durasi operator sumber tidak memproses data, dalam milidetik.Job Failed
Time Interval: Panjang jangka waktu data historis yang dikueri mundur dari waktu saat ini selama setiap pemeriksaan, dalam menit.
Comparator: Mendukung >= dan <=.
Thresholds: Nilai yang dibandingkan terhadap metrik.
Comparator (
>=): Membandingkan nilai metrik maksimum terhadap ambang batas. Peringatan jikamax_value >= threshold.Comparator (
<=): Membandingkan nilai metrik minimum terhadap ambang batas. Peringatan jikamin_value <= threshold.
Asumsikan Anda memantau metrik
Checkpoint Count in 5 Minutes, dengan interval waktu 10 menit dan ambang batas 2, menggunakan comparator<=.Flink memeriksa setiap menit, mengevaluasi metrik dalam jendela 10 menit. Peringatan dipicu jika jumlah checkpoint berhasil minimum dalam periode 5 menit turun menjadi 2 atau kurang.
Effective Time
Jangka waktu ketika aturan peringatan diaktifkan. Default-nya sepanjang hari. Anda dapat membatasi peringatan ke waktu tertentu, seperti jam kerja (pukul 9 pagi hingga 6 sore).
Alarm Rate
Interval pengiriman peringatan dalam jumlah menit tertentu. Mendukung 1 menit hingga 1440 menit (24 jam).
Notification
Notification
Pilih satu atau beberapa metode notifikasi. Opsi meliputi:
DingTalk
Email
SMS
Webhook
Telepon
Pastikan nomor telepon penerima telah diverifikasi; jika tidak, notifikasi tidak akan efektif. Anda dapat mengklik Notification object management di bawah. Jika tag Unverified muncul di kolom Phone untuk kontak target di tab Contacts, klik untuk menyelesaikan verifikasi.

PentingPastikan metode notifikasi yang Anda pilih memiliki objek notifikasi yang sesuai. Untuk DingTalk, artinya menambahkan objek notifikasi robot DingTalk setelah memilih DingTalk sebagai metode.
Notification object
Pilih satu atau beberapa objek notifikasi. Klik Notification object management untuk membuat objek notifikasi. Untuk detail selengkapnya, lihat Manajemen ruang kerja dan namespace.
Alarm Noise Reduction
Klik Advanced Settings dan aktifkan Alarm Noise Reduction.
Saat opsi ini diaktifkan, peringatan hanya dikirim jika ambang batas terpenuhi secara terus-menerus. Ini mencegah peringatan untuk masalah sementara, seperti failover singkat akibat penjadwalan kluster atau penyetelan otomatis.
No Data Alarms
Klik Advanced Settings, aktifkan sakelar No Data Alarms, dan tentukan durasinya.
Memunculkan peringatan jika tidak ada data pemantauan yang dilaporkan dalam periode waktu yang dipilih. Penyebab umum: Exception JobManager, pekerjaan berhenti, atau kegagalan tautan pelaporan.
Klik OK.
Setelah Anda menyimpan aturan peringatan, aturan tersebut akan diaktifkan secara otomatis dan muncul di daftar aturan peringatan. Anda dapat memilih untuk menghentikan, mengedit, atau menghapusnya.
Peringatan berbasis event
Hanya event kegagalan pekerjaan yang didukung. Untuk mengonfigurasi peringatan untuk event ini, ikuti petunjuk dalam konfigurasi peringatan berbasis metrik dan pilih metrik Job Failed. Untuk mengonfigurasi peringatan untuk event lainnya, Konfigurasikan peringatan berbasis event (termasuk untuk alur kerja) dengan Cloud Monitor.

