All Products
Search
Document Center

Realtime Compute for Apache Flink:Konfigurasi pemantauan yang direkomendasikan

Last Updated:Mar 10, 2026

Dokumen ini menyediakan metrik peringatan utama, konfigurasi yang direkomendasikan, serta contoh operasi dan pemeliharaan (O&M) untuk Realtime Compute for Apache Flink. Panduan ini dapat membantu Anda memantau kinerja sistem dan mendiagnosis kesalahan secara lebih efektif.

Prasyarat

Untuk informasi selengkapnya, lihat Configure monitoring and alerting. Pilih metode konfigurasi yang sesuai dengan layanan pemantauan yang digunakan oleh ruang kerja Anda.

Catatan

Pemantauan multi-metrik di ARMS memerlukan custom PromQL. Jika Anda membutuhkan konfigurasi yang lebih sederhana, Anda tetap dapat menggunakan Cloud Monitor untuk mengonfigurasi peringatan.

Konfigurasi aturan peringatan yang direkomendasikan

Scenario

Combined metric/Event name

Rule configuration

Level

Action

Job failure alert

Job status event

= FAILED (event alerting)

P0

1. Periksa apakah kebijakan restart salah dikonfigurasi. Kami merekomendasikan penggunaan konfigurasi default.

2. Tentukan apakah penyebabnya adalah kebijakan restart atau JobManager atau TaskManager yang tidak normal.

3. Pulihkan pekerjaan dari snapshot terbaru atau checkpoint yang berhasil.

Failover surge

Overview/Number of error recoveries per minute for the job

≥ 1 for 1 consecutive period

P0

1. Identifikasi masalahnya.

  • Analisis log failover, JobManager, dan TaskManager untuk menemukan akar penyebabnya.

  • Ignore: Kegagalan mesin yang jarang terjadi dan dapat pulih otomatis.

  • Fix: Bug kode, bottleneck sumber daya, atau kesalahan konfigurasi.

2. Pulihkan pekerjaan dari snapshot terbaru atau checkpoint yang berhasil.

Consecutive checkpoint failures

Number of successful checkpoints (5 min cumulative)

≤ 0 for 1 consecutive period

P0

1. Untuk informasi selengkapnya, lihat System checkpoints untuk memecahkan akar penyebab kegagalan.

2. Identifikasi masalahnya.

  • Masalah parameter (seperti timeout): Sesuaikan konfigurasi checkpoint.

  • Skalabilitas sumber daya (seperti backpressure): Gunakan dynamic scaling untuk menambahkan sumber daya ke operator yang mengalami backpressure.

3. Perbarui konfigurasi secara dinamis atau pulihkan pekerjaan dari checkpoint terakhir yang berhasil.

High business latency (with data)

Overview/Business latency && Records in from source per second

Maximum latency ≥ 180000

Input records ≥ 0

for 3 consecutive periods

P1

1. Untuk informasi selengkapnya, lihat Metric description untuk menyelidiki penyebab latensi.

  • Data plane: Apakah waktu kejadian tidak berurutan?

  • Traffic level: Menunjukkan apakah terjadi lonjakan trafik hulu atau backpressure hilir.

2. Ambil tindakan berdasarkan penyebabnya.

  • Internal: Sesuaikan parameter WITH konektor dan scale out operator yang menjadi bottleneck.

  • External: Optimalkan konfigurasi layanan eksternal, seperti menyesuaikan kebijakan throttling atau menambah jumlah koneksi.

Upstream data stream interruption detection

Overview/Records in from source per second &&

Source Raw Data Timestamp

Input records ≤ 0 (business-dependent)

Maximum idle time ≥ 60000

for 5 consecutive periods

P1

1. Periksa taskmanager.log, flame graphs, dan metrik layanan hulu untuk memastikan apakah masalahnya disebabkan oleh tidak adanya data hulu, throttling, error, atau stack thread yang macet.

2. Ambil tindakan berdasarkan penyebabnya.

  • Connector issue: Optimalkan parameter konektor seperti timeout atau konkurensi, atau tambahkan lebih banyak sumber daya TaskManager.

  • Upstream/downstream service issue: Beri tahu pemilik bisnis hulu untuk menangani masalah tersebut.

  • Flink internal bottleneck (seperti backpressure atau sistem freeze): Pertama, selesaikan akar penyebab bottleneck, misalnya masalah hilir. Kemudian, restart pekerjaan dari checkpoint terbaru.

No downstream data output detection

Overview/Records out to sink per second

≤ 0 for 5 consecutive periods

P1

1. Pastikan apakah data mencapai operator sink.

  • Business logic filtering: Gunakan log atau metrik untuk memastikan apakah semua data masukan difilter karena tidak memenuhi kondisi.

  • Late data discard: Periksa konfigurasi watermark dan window untuk memastikan apakah data dibuang karena terlambat.

2. Pastikan apakah sink dapat menulis ke sistem eksternal.

  • Connection layer: Apakah kolam koneksi sink penuh? Apakah konektivitas jaringan normal?

  • Target system layer: Apakah database atau layanan hilir memiliki tabel terkunci, ruang disk space tidak mencukupi, write throttling, atau error lainnya?

3. Sebagai langkah sementara, aktifkan dual-write ke sistem backup storage.

CPU performance bottlenecks

CPU/ CPU utilization of a single TM

≥ 85 % for 10 consecutive periods

P2

1. Gunakan flame graphs atau UI Flink untuk menemukan operator hot spot.

  • Business logic: Periksa apakah terdapat perhitungan kompleks, parsing JSON, atau user-defined function (UDF) yang tidak efisien.

  • Data skew: Periksa apakah kunci hot spot menyebabkan satu tugas kelebihan beban karena volume data yang berlebihan.

  • Insufficient resources: Apakah tingkat paralelisme dan sumber daya TM saat ini mampu menangani trafik data? Apakah terjadi backpressure parah?

  • Frequent GC: Gunakan log atau metrik JVM untuk memeriksa apakah tekanan memori menyebabkan Full GC yang sering, sehingga mengonsumsi banyak CPU.

2. Tingkatkan tingkat paralelisme untuk operator bottleneck, atau alokasikan lebih banyak core CPU ke TaskManager.

Memory performance bottlenecks

TM heap memory used

≥ 90 % for 10 consecutive periods

P2

1. Periksa log GC untuk mengidentifikasi masalahnya.

  • Memory leak: Gunakan UI Flink atau pemantauan untuk mengamati apakah memori heap gagal kembali ke garis dasar normal setelah GC dan garis dasar terus meningkat.

  • Insufficient capacity: Penggunaan memori heap secara konsisten tinggi, sering memicu Full GC dan menurunkan kinerja.

  • Sudden OOM: Memori langsung penuh saat memproses catatan atau batch data tertentu, langsung menyebabkan OutOfMemoryError.

2. Ambil tindakan berdasarkan penyebabnya: Tambah ukuran heap atau tingkatkan tingkat paralelisme untuk mengurangi volume data per slot.

Job availability

Job failure alert

Development console (ARMS)

  1. Login ke Konsol Realtime Compute for Apache Flink. Di kolom Actions ruang kerja Anda, klik Console.

  2. Di halaman Operation Center > Job O&M, klik pekerjaan target.

  3. Klik tab Alert Configuration.

image

Cloud Monitor

  1. Login ke Konsol Cloud Monitor.

  2. Di panel navigasi sebelah kiri, pilih Event Center > Event Subscription.

  3. Di tab Subscription Policy, klik Create Subscription Policy.

  4. Di halaman Create Subscription Policy, konfigurasikan parameter. Untuk informasi selengkapnya, lihat Manage event subscriptions (Recommended).

image

Job stability

Prevent frequent JobManager restarts

  • Metric: Number of error recoveries per minute for the job

  • Rule: Kirim peringatan jika pekerjaan melakukan restart dalam waktu 1 menit.

  • Recommended configuration:

    • Number of error recoveries per minute for the job

      Nilai metrik >= 1

    • Periode: 1 menit

    • Notifikasi: Panggilan telepon, pesan teks, email, dan WebHook (Critical)

Ensure checkpoint success rate

  • Metric: Number of completed checkpoints per minute

  • Rule: Kirim peringatan jika tidak ada checkpoint yang selesai dalam 5 menit.

  • Recommended configuration:

    • Number of completed checkpoints per minute

    • Nilai metrik <= 0

    • Periode: 5 menit

    • Notifikasi: Panggilan telepon, pesan teks, email, dan WebHook (Critical)

Data timeliness

Ensure SLA for latency

  • Metrics:

    • Business latency

    • Records in from source per second

  • Rule: Hasilkan peringatan jika data sedang diterima dan latensi bisnis melebihi 5 menit. Anda dapat menyesuaikan ambang batas dan tingkat peringatan sesuai kebutuhan.

  • Recommended configuration:

    • Business latency

      Maksimum >= 300000

    • Records in from source per second

      Nilai metrik > 0

    • Periode: 5 menit

Upstream data stream interruption detection

  • Metrics:

    • Records in from source per second

    • Age of unprocessed source data

  • Rule: Peringatan dipicu jika terdapat data masuk dan latensi layanan melebihi 5 menit (ambang batas dan tingkat peringatan dapat dikonfigurasi).

  • Recommended configuration:

    • Records in from source per second

      Nilai metrik <= 0

    • Age of unprocessed data at the source

      Maksimum > 60000

    • Periode: 5 menit

No downstream data output detection

  • Metric: Records out to sink per second

  • Rule: Hasilkan peringatan jika tidak ada output data selama lebih dari 5 menit. Anda dapat menyesuaikan ambang batas dan tingkat peringatan sesuai kebutuhan.

  • Recommended configuration:

    • Records out to sink per second

      Nilai metrik <= 0

    • Periode: 5 menit

Resource performance bottlenecks

CPU performance bottlenecks

  • Metric: Single TM CPU utilization

  • Rule: Peringatan jika penggunaan CPU melebihi 85% selama lebih dari 10 menit.

  • Recommended configuration:

    • CPU utilization of a single TM

      Maksimum >= 85

    • Periode: 10 menit

Memory performance bottlenecks

  • Metric: TM heap memory usage

  • Rule: Peringatan jika penggunaan memori heap melebihi 90% selama lebih dari 10 menit.

  • Recommended configuration:

    • TM heap memory usage

      Maksimum >= Ambang batas (90%)

      Tentukan ambang batas ini berdasarkan penggunaan memori heap yang terlihat di halaman Job O&M > Job Log. Misalnya, jika penggunaannya adalah 194 MB / 413 MB, atur ambang batas menjadi 372 MB (90% dari 413 MB).

      image

    • Periode: 10 menit