Metrik - Realtime Compute for Apache Flink - Alibaba Cloud Documentation Center

Topik ini menjelaskan metrik untuk Flink yang sepenuhnya dikelola.

Catatan

Ketidaksesuaian data antara CloudMonitor dan konsol Flink

Perbedaan dimensi yang ditampilkan
Konsol Flink menggunakan kueri PromQL untuk menampilkan hanya latensi maksimum. Dalam skenario komputasi real-time, latensi rata-rata dapat menyembunyikan masalah serius seperti kesenjangan data atau blokir pada partisi tunggal. Oleh karena itu, hanya latensi maksimum yang memberikan wawasan operasional yang bernilai.
Ketidaksesuaian nilai
CloudMonitor menggunakan mekanisme pra-agregasi untuk menghitung metrik. Nilai "maksimum" di CloudMonitor mungkin sedikit berbeda dari nilai real-time di konsol Flink karena perbedaan jendela agregasi, cap waktu pengambilan sampel, atau logika perhitungan. Untuk troubleshooting, gunakan data konsol Flink sebagai sumber kebenaran.

Latensi data dan konfigurasi watermark

Logika perhitungan latensi
Metrik pemantauan saat ini Emit Delay dihitung berdasarkan event time, menggunakan rumus berikut:

Delay = Waktu Sistem Saat Ini - Bidang waktu logis dalam catatan data (misalnya, PriceData.time)

Artinya, metrik ini mencerminkan kesegaran data, bukan kecepatan pemrosesan sistem. Metrik ini tinggi ketika data sumber sudah lama atau ketika sistem menjeda output untuk menyelaraskan watermark.
Rekomendasi

Skenario 1: Logika bisnis Anda bergantung pada watermark untuk keakuratan, tetapi data sumber sudah lama
- Situasi khas:
  - Pengiriman data hulu memang tertunda (misalnya, pelaporan event lambat).
  - Anda menjalankan backfill untuk memproses data dari hari sebelumnya.
  - Logika bisnis memerlukan watermark untuk menangani event yang tidak berurutan, sehingga watermark tidak dapat dinonaktifkan.
- Fenomena: Peringatan pemantauan menunjukkan latensi tinggi, tetapi kelompok konsumen Kafka tidak memiliki lag (lag ≈ 0) dan beban CPU rendah.
- Rekomendasi:
  1. Abaikan metrik latensi ini: Dalam kasus ini, delay tinggi memang diharapkan karena mencerminkan usia data. Hal ini bukan indikasi kegagalan sistem.
  2. Beralih ke metrik lain: Pantau lag konsumen Kafka sebagai gantinya. Jika lag konsumen tidak terus meningkat, sistem memiliki kapasitas pemrosesan yang cukup dan tidak memerlukan intervensi.
Skenario 2: Anda memerlukan latensi rendah dan dapat mentolerir sedikit event tidak berurutan atau kehilangan data
- Situasi khas:
  - Untuk aplikasi seperti dasbor layar besar atau kontrol risiko real-time, penantian akibat watermark memperlambat output.
  - Logika bisnis lebih memperhatikan kapan data diterima (waktu pemrosesan) daripada cap waktu di dalam catatan data (event time).
- Fenomena: Aliran data bersifat real-time, tetapi karena watermark dikonfigurasi dengan jendela toleransi besar (misalnya, toleransi keterlambatan 10 detik), output tertunda selama 10 detik.
- Rekomendasi:
  1. Hapus atau nonaktifkan watermark: Beralihlah ke penggunaan waktu pemrosesan untuk perhitungan, atau atur ambang batas penantian watermark menjadi 0.
  2. Hasil yang diharapkan: Metrik latensi akan turun secara signifikan, mendekati waktu pemrosesan aktual. Data diproses saat tiba, tanpa menunggu penyelarasan.

Karakteristik metrik

Metrik hanya mencerminkan kondisi saat ini dari suatu komponen dan tidak cukup untuk menentukan akar penyebab suatu masalah. Untuk diagnosis menyeluruh, selalu gunakan pemantau tekanan balik (backpressure monitor) UI Flink dan alat lainnya.

1. Tekanan balik operator

Gejala: Operator hilir tidak dapat memproses data cukup cepat, sehingga sumber mengurangi laju emisinya.

Cara mengidentifikasi: Gunakan pemantau tekanan balik UI Flink untuk mengidentifikasi masalah ini.
Karakteristik metrik:
- sourceIdleTime meningkat secara periodik.
- currentFetchEventTimeLag dan currentEmitEventTimeLag terus meningkat.
- Kasus ekstrem: Jika suatu operator benar-benar macet, sourceIdleTime akan terus meningkat.

2. Bottleneck performa sumber

Gejala: Sumber membaca dengan kecepatan maksimum tetapi tidak dapat memenuhi permintaan pemrosesan data.

Cara mengidentifikasi: Tidak ada tekanan balik yang terdeteksi dalam pekerjaan.
Karakteristik metrik:
- sourceIdleTime tetap pada nilai yang sangat rendah (menunjukkan sumber beroperasi pada kapasitas penuh).
- currentFetchEventTimeLag dan currentEmitEventTimeLag mirip dan tetap tinggi.

3. Kesenjangan data atau partisi kosong

Gejala: Distribusi data tidak merata di seluruh partisi Kafka hulu, atau beberapa partisi kosong.

Cara mengidentifikasi: Bandingkan metrik di berbagai subtask sumber.
Karakteristik metrik:
- sourceIdleTime untuk subtask sumber tertentu jauh lebih tinggi daripada yang lain, menunjukkan bahwa instance paralel ini idle.

4. Latensi data

Gejala: Latensi keseluruhan pekerjaan tinggi. Anda harus menentukan apakah bottleneck berasal dari sumber atau sistem eksternal.

Cara mengidentifikasi: Analisis waktu idle, selisih antara metrik lag, dan ukuran backlog secara kombinasi.
Karakteristik metrik:
- sourceIdleTime tinggi:
  Ini menunjukkan sumber idle, yang biasanya berarti laju produksi data dari sistem eksternal rendah, bukan karena Flink memproses lambat.
- Analisis selisih lag:
  Bandingkan selisih antara currentEmitEventTimeLag dan currentFetchEventTimeLag. Selisih ini merepresentasikan waktu yang dihabiskan data di dalam operator sumber:
  - Selisih kecil (nilai metrik mendekati): Ini menunjukkan kapasitas fetch tidak mencukupi. Bottleneck biasanya disebabkan oleh bandwidth I/O jaringan atau paralelisme sumber yang tidak mencukupi.
  - Selisih besar: Ini menunjukkan kapasitas pemrosesan tidak mencukupi. Bottleneck biasanya disebabkan oleh penguraian data yang tidak efisien atau tekanan balik dari operator hilir.
- pendingRecords (jika didukung oleh konektor):
  Metrik ini secara langsung mencerminkan backlog eksternal. Nilai yang lebih tinggi menunjukkan backlog data yang lebih parah di sistem eksternal.

Ikhtisar

Metrik	Deskripsi	Detail	Unit	Konektor yang didukung
Jumlah restart	Jumlah kali penerapan di-restart setelah terjadi error.	Jumlah kali penerapan di-restart karena error. Metrik ini tidak mencakup restart yang disebabkan oleh failover JobManager (JM). Gunakan metrik ini untuk memantau ketersediaan dan status penerapan.	Jumlah	N/A
Current emit event time lag	Latensi pemrosesan data.	Nilai tinggi menunjukkan latensi dalam pengambilan atau pemrosesan data.	milidetik (ms)	Kafka ApsaraMQ for RocketMQ Simple Log Service DataHub Postgres Change Data Capture (CDC) Hologres (Binlog Source)
Current fetch event time lag	Latensi pengambilan data dari sistem hulu.	Nilai tinggi menunjukkan latensi pengambilan data. Periksa I/O jaringan dan sistem hulu Anda. Membandingkan metrik ini dengan `currentEmitEventTimeLag` membantu Anda menganalisis kapasitas pemrosesan sumber. Selisih antara keduanya merepresentasikan waktu yang dihabiskan data di dalam operator sumber. Jika kedua lag tersebut sangat dekat, hal ini menunjukkan bahwa sumber memiliki kapasitas tidak mencukupi untuk menarik data dari sistem eksternal, kemungkinan besar karena keterbatasan I/O jaringan atau paralelisme. Selisih besar antara kedua lag tersebut menunjukkan bahwa kapasitas pemrosesan penerapan tidak mencukupi, menyebabkan penumpukan data di operator sumber. Di halaman detail penerapan, buka tab Status Overview dan gunakan halaman BackPressure untuk menemukan vertex yang bermasalah. Kemudian, buka halaman Thread Dump untuk menganalisis stack dan mengidentifikasi bottleneck.	milidetik (ms)	Kafka ApsaraMQ for RocketMQ Simple Log Service DataHub Postgres Change Data Capture (CDC) Hologres (Binlog Source)
numRecordsIn	Jumlah total catatan yang diterima oleh semua operator.	Jika nilai `numRecordsIn` untuk operator tertentu tidak meningkat dalam periode panjang, hal ini mungkin mengindikasikan masalah pada aliran data hulu. Periksa sumber dan operator hulu.	Hitungan	Semua konektor bawaan.
numRecordsOut	Jumlah total catatan yang dikirim.	Jika nilai `numRecordsOut` untuk operator tertentu tidak meningkat dalam periode panjang, hal ini mungkin mengindikasikan adanya error dalam logika kode penerapan yang menyebabkan catatan dibuang. Tinjau logika kodenya.	Hitungan	Semua konektor bawaan.
numRecordsInOfSource	Jumlah catatan yang diingesti oleh operator sumber.	Gunakan metrik ini untuk memantau input data dari sumber hulu.	Hitungan	Kafka MaxCompute Incremental MaxCompute ApsaraMQ for RocketMQ Simple Log Service DataHub Elasticsearch Hologres
numRecordsOutOfSink	Jumlah total catatan yang dikirim oleh operator sink.	Gunakan metrik ini untuk memantau output data ke sink hilir.	Hitungan	Kafka Simple Log Service DataHub Hologres ApsaraDB for HBase Tablestore ApsaraDB for Redis
numRecordsInPerSecond	Jumlah catatan yang diingesti per detik di seluruh aliran data.	Gunakan metrik ini untuk memantau kecepatan pemrosesan seluruh aliran data. Misalnya, Anda dapat menggunakan `numRecordsInPerSecond` untuk mengamati apakah kecepatan pemrosesan keseluruhan memenuhi tingkat yang diharapkan dan bagaimana performa bervariasi dengan beban input yang berbeda.	catatan/detik	Semua konektor bawaan.
numRecordsOutPerSecond	Jumlah catatan yang dikirim per detik di seluruh aliran data.	Gunakan metrik ini untuk mengukur kecepatan output seluruh aliran data. Misalnya, Anda dapat menggunakan `numRecordsOutPerSecond` untuk mengamati apakah kecepatan output keseluruhan memenuhi ekspektasi Anda dan bagaimana performa berubah di bawah beban output yang berbeda.	catatan/detik	Semua konektor.
numRecordsInOfSourcePerSecond (IN RPS)	Jumlah catatan yang diingesti per detik oleh setiap sumber.	Gunakan metrik ini untuk mengukur laju pembuatan catatan setiap sumber. Misalnya, dalam aliran data dengan beberapa sumber, Anda dapat menggunakan metrik ini untuk memahami laju ingest setiap sumber dan menyetel aliran data untuk performa yang lebih baik. Metrik ini juga berguna untuk pemantauan dan peringatan. Nilai 0 menunjukkan bahwa sistem hulu telah berhenti memproduksi data atau konsumsi diblokir, yang mencegah output. Verifikasi bahwa sumber hulu masih memproduksi data.	catatan/detik	Kafka MaxCompute Incremental MaxCompute ApsaraMQ for RocketMQ Simple Log Service DataHub Elasticsearch Hologres
numRecordsOutOfSinkPerSecond (OUT RPS)	Jumlah catatan yang dikirim per detik oleh setiap sink.	Gunakan metrik ini untuk mengukur laju output setiap sink. Misalnya, dalam aliran data dengan beberapa sink, Anda dapat menggunakan metrik ini untuk memahami kecepatan output setiap sink dan menyetel aliran data untuk performa yang lebih baik. Metrik ini berguna untuk pemantauan dan peringatan. Nilai 0 menunjukkan kemungkinan adanya error dalam logika kode penerapan yang menyaring semua data. Tinjau logika kodenya.	catatan/detik	Kafka MaxCompute Incremental MaxCompute Simple Log Service DataHub Hologres ApsaraDB for HBase Tablestore ApsaraDB for Redis
pendingRecords	Jumlah catatan di sistem eksternal yang belum ditarik oleh operator sumber.	Metrik ini menunjukkan jumlah catatan di sistem eksternal yang belum ditarik oleh operator sumber.	Hitungan	Kafka Elasticsearch
sourceIdleTime	Durasi operator sumber dalam keadaan idle.	Metrik ini menunjukkan apakah sumber idle. Nilai tinggi menunjukkan bahwa laju produksi data di sistem eksternal rendah.	milidetik (ms)	Kafka ApsaraMQ for RocketMQ Postgres Change Data Capture (CDC) Hologres (Binlog Source)
busyTimePerSecond	Jumlah waktu Tugas sibuk setiap detik.	Jumlah milidetik per detik yang digunakan thread Tugas untuk memproses data. Nilainya berkisar antara 0 hingga 1.000. Nilai yang lebih tinggi menunjukkan Tugas berada di bawah beban yang lebih berat. Gunakan metrik ini untuk mengidentifikasi bottleneck performa, menilai pemanfaatan resource, dan membimbing auto-tuning.	milidetik (ms)	N/A

Checkpoint

Metrik	Deskripsi	Detail	Unit
Jumlah checkpoint	Jumlah total checkpoint.	Memberikan ikhtisar status checkpoint untuk membantu Anda mengonfigurasi peringatan.	Hitungan
lastCheckpointDuration	Durasi checkpoint terbaru.	Durasi yang panjang atau timeout dapat disebabkan oleh ukuran state yang besar, masalah jaringan sementara, barrier yang tidak sejajar, atau tekanan balik.	milidetik (ms)
lastCheckpointSize	Ukuran checkpoint terbaru.	Menunjukkan ukuran checkpoint terakhir yang diunggah. Gunakan metrik ini untuk menganalisis performa saat terjadi bottleneck.	Byte

State

Catatan

Metrik state latensi dinonaktifkan secara default. Untuk menggunakan metrik ini, atur state.backend.latency-track.keyed-state-enabled: true dalam konfigurasi Flink tambahan. Mengaktifkan metrik ini dapat memengaruhi performa runtime penerapan Anda.

Metrik	Deskripsi	Deskripsi	Unit	Versi yang didukung
State Clear Latency	Latensi maksimum dari satu operasi penghapusan state.	Gunakan metrik ini untuk memantau performa operasi penghapusan state.	nanodetik (ns)	Realtime Compute for Apache Flink yang menggunakan Ververica Runtime (VVR) 4.0.0 atau lebih baru.
ValueState Latency	Latensi maksimum dari satu operasi akses ValueState.	Gunakan metrik ini untuk memantau performa akses ValueState.	nanodetik (ns)
AggregatingState Latency	Latensi maksimum dari satu operasi akses AggregatingState.	Gunakan metrik ini untuk memantau performa akses AggregatingState.	nanodetik (ns)
ReducingState Latency	Latensi maksimum dari satu operasi akses ReducingState.	Gunakan metrik ini untuk memantau performa akses ReducingState.	nanodetik (ns)
MapState Latency	Latensi maksimum dari satu operasi akses MapState.	Gunakan metrik ini untuk memantau performa akses MapState.	nanodetik (ns)
ListState Latency	Latensi maksimum dari satu operasi akses ListState.	Gunakan metrik ini untuk memantau performa akses ListState.	nanodetik (ns)
SortedMapState Latency	Latensi maksimum dari satu operasi akses SortedMapState.	Gunakan metrik ini untuk memantau performa akses SortedMapState.	nanodetik (ns)
State Size	Ukuran data state.	Gunakan metrik ini untuk: Mengidentifikasi bottleneck state saat ini atau potensial pada node. Memverifikasi bahwa konfigurasi masa hidup data (TTL) berfungsi sesuai harapan.	Byte	Realtime Compute for Apache Flink yang menggunakan Ververica Runtime (VVR) 4.0.12 atau lebih baru.
State File Size	Ukuran file data state.	Gunakan metrik ini untuk: Memantau ruang disk lokal yang dikonsumsi oleh data state dan mengambil tindakan jika penggunaan tinggi. Menentukan apakah data state yang terlalu besar menyebabkan ruang disk lokal tidak mencukupi.	Byte	Realtime Compute for Apache Flink yang menggunakan Ververica Runtime (VVR) 4.0.13 atau lebih baru.

I/O

Metrik	Deskripsi	Detail	Unit	Konektor yang didukung
numBytesIn	Jumlah total byte input.	Gunakan metrik ini untuk memantau throughput input dari sumber dan melacak trafik penerapan.	Bytes	Kafka MaxCompute Incremental MaxCompute ApsaraMQ for RocketMQ
numBytesInPerSecond	Jumlah total byte input per detik.	Gunakan metrik ini untuk memantau laju input dari sumber dan melacak trafik penerapan.	Byte/s	Kafka MaxCompute Incremental MaxCompute ApsaraMQ for RocketMQ
numBytesOut	Jumlah total byte output.	Gunakan metrik ini untuk memantau throughput output ke sink dan melacak trafik penerapan.	Bytes	Kafka ApsaraMQ for RocketMQ DataHub ApsaraDB for HBase
numBytesOutPerSecond	Jumlah total byte output per detik.	Gunakan metrik ini untuk memantau laju output ke sink dan melacak trafik penerapan.	Byte/s	Kafka ApsaraMQ for RocketMQ DataHub ApsaraDB for HBase
Task numRecords I/O	Jumlah total catatan yang diterima dan dikirim oleh setiap subtask.	Gunakan metrik ini untuk mengidentifikasi potensi bottleneck I/O.	Catatan	Kafka MaxCompute Incremental MaxCompute Simple Log Service DataHub Elasticsearch Hologres ApsaraDB for HBase Tablestore ApsaraDB for Redis
Task numRecords I/O PerSecond	Jumlah total catatan yang diterima dan dikirim oleh setiap subtask per detik.	Gunakan metrik ini untuk mengidentifikasi bottleneck I/O dan menilai tingkat keparahannya berdasarkan laju pemrosesan.	Catatan/s	Kafka MaxCompute Incremental MaxCompute Simple Log Service DataHub Elasticsearch Hologres ApsaraDB for HBase Tablestore ApsaraDB for Redis
currentSendTime	Waktu yang dibutuhkan setiap subtask untuk mengirim catatan terbaru ke sink.	Nilai tinggi untuk metrik ini menunjukkan bahwa output subtask terlalu lambat.	Milidetik (ms)	Kafka MaxCompute Incremental MaxCompute ApsaraMQ for RocketMQ Simple Log Service DataHub Hologres Catatan Didukung dalam mode JDBC dan mode RPC. Tidak didukung dalam mode BHClient. ApsaraDB for HBase Tablestore ApsaraDB for Redis

Watermark

Metrik	Deskripsi	Penggunaan	Unit	Konektor yang didukung
Task InputWatermark	Waktu setiap tugas menerima watermark terbaru.	Gunakan metrik ini untuk memantau progres data yang tiba di TaskManager.	N/A	Tidak spesifik konektor.
watermarkLag	Selisih antara waktu jam dinding dan event time watermark.	Gunakan metrik ini untuk menentukan latensi pemrosesan di tingkat subtask.	ms	Kafka ApsaraMQ for RocketMQ Simple Log Service DataHub Hologres (binlog source)

CPU

Metrik	Deskripsi	Deskripsi	Unit
JobManager CPU usage	Pemanfaatan CPU JobManager.	Metrik ini menunjukkan persentase irisan waktu CPU yang digunakan oleh Flink. Nilai 100% berarti satu core CPU dimanfaatkan penuh, dan 400% berarti empat core dimanfaatkan penuh. Jika nilai ini terus-menerus melebihi 100%, JobManager terikat CPU. Beban tinggi dengan pemanfaatan CPU rendah mungkin mengindikasikan jumlah proses yang berlebihan dalam keadaan tidur tak terganggu karena operasi baca dan tulis yang sering. Catatan Metrik ini hanya tersedia untuk Realtime Compute for Apache Flink VVR 6.0.6 dan lebih baru.	N/A
TaskManager CPU usage	Pemanfaatan CPU TaskManager.	Metrik ini menunjukkan persentase irisan waktu CPU yang digunakan oleh Flink. Nilai 100% berarti satu core CPU dimanfaatkan penuh, dan 400% berarti empat core dimanfaatkan penuh. Jika nilai ini terus-menerus melebihi 100%, TaskManager terikat CPU. Beban tinggi dengan pemanfaatan CPU rendah mungkin mengindikasikan jumlah proses yang berlebihan dalam keadaan tidur tak terganggu karena operasi baca dan tulis yang sering.	N/A

Memory

Metrik	Deskripsi	Deskripsi	Unit
JM heap memory	Memori heap JobManager.	Melacak perubahan memori heap JobManager.	Bytes
JM non-heap memory	Memori non-heap JobManager.	Melacak perubahan memori non-heap JobManager.	Bytes
TM heap memory	Memori heap TaskManager.	Melacak perubahan memori heap TaskManager.	Bytes
TM non-heap memory	Memori non-heap TaskManager.	Melacak perubahan memori non-heap TaskManager.	Byte
TM Mem (RSS)	Resident Set Size (RSS) proses TaskManager, sebagaimana dilaporkan oleh sistem operasi.	Memantau total penggunaan memori fisik proses TaskManager.	Byte

JVM

Metrik	Deskripsi	Detail	Unit
JM Threads	Jumlah thread JobManager.	Terlalu banyak thread JobManager dapat mengonsumsi memori berlebihan, mengurangi stabilitas pekerjaan.	Hitungan
TM Threads	Jumlah thread TaskManager.	Terlalu banyak thread TaskManager dapat mengonsumsi memori berlebihan, mengurangi stabilitas pekerjaan.	Hitungan
JM GC Count	Jumlah event garbage collection (GC) untuk JobManager.	Event garbage collection yang sering dapat mengonsumsi memori berlebihan dan menurunkan performa pekerjaan. Gunakan metrik ini untuk mendiagnosis kegagalan tingkat pekerjaan.	Hitungan
JM GC Time	Durasi setiap event garbage collection untuk JobManager.	Jeda garbage collection yang panjang dapat mengonsumsi memori berlebihan dan menurunkan performa pekerjaan. Gunakan metrik ini untuk mendiagnosis kegagalan tingkat pekerjaan.	Milidetik (ms)
TM GC Count	Jumlah event garbage collection untuk TaskManager.	Event garbage collection yang sering dapat mengonsumsi memori berlebihan dan menurunkan performa pekerjaan. Gunakan metrik ini untuk mendiagnosis kegagalan tingkat tugas.	Jumlah
TM GC Time	Durasi setiap event garbage collection untuk TaskManager.	Jeda garbage collection yang panjang dapat mengonsumsi memori berlebihan dan menurunkan performa pekerjaan. Gunakan metrik ini untuk mendiagnosis kegagalan tingkat tugas.	Milidetik (ms)
JM ClassLoader	Jumlah total kelas yang dimuat atau dilepas oleh JVM JobManager sejak startup.	Volume tinggi pemuatan dan pelepasan kelas di JVM JobManager dapat mengonsumsi memori berlebihan dan menurunkan performa pekerjaan.	N/A
TM ClassLoader	Jumlah total kelas yang dimuat atau dilepas oleh JVM TaskManager sejak startup.	Volume tinggi pemuatan dan pelepasan kelas di JVM TaskManager dapat mengonsumsi memori berlebihan dan menurunkan performa pekerjaan.	N/A

Konektor MySQL

Metrik	Deskripsi	Unit	Skenario	Versi yang didukung
isSnapshotting	Menunjukkan apakah pekerjaan berada dalam fase snapshot (nilai = 1).	N/A	Periksa apakah pekerjaan berada dalam fase snapshot.	Realtime Compute for Apache Flink versi 8.0.9 dan lebih baru.
isBinlogReading	Menunjukkan apakah pekerjaan berada dalam fase inkremental (nilai = 1).	N/A	Periksa apakah pekerjaan berada dalam fase inkremental.
Jumlah tabel yang tersisa	Jumlah tabel yang menunggu diproses dalam fase snapshot.	Hitungan	Periksa jumlah tabel yang belum diproses.
Jumlah tabel yang telah di-snapshot	Jumlah tabel yang telah diproses dalam fase snapshot.	Hitungan	Periksa jumlah tabel yang telah diproses.
Jumlah SnapshotSplits yang tersisa	Jumlah split yang menunggu diproses dalam fase snapshot.	Hitungan	Periksa jumlah split yang belum diproses.
Jumlah SnapshotSplits yang telah diproses	Jumlah split yang telah diproses dalam fase snapshot.	Jumlah	Periksa jumlah split yang telah diproses.
currentFetchEventTimeLag	Latensi antara saat event dibuat di database dan saat dibaca oleh konektor.	ms	Periksa latensi pembacaan binlog dari database.
currentReadTimestampMs	Cap waktu dari catatan data terbaru yang dibaca.	ms	Periksa cap waktu dari catatan data terbaru yang dibaca.
numRecordsIn	Jumlah total catatan data yang dibaca.	Hitungan	Periksa jumlah total catatan data yang dibaca.
numSnapshotRecords	Jumlah catatan data yang diproses dalam fase snapshot.	Hitungan	Periksa jumlah catatan data yang diproses dalam fase snapshot.
numRecordsInPerTable	Jumlah catatan data yang dibaca dari setiap tabel.	Hitungan	Periksa jumlah catatan data yang dibaca dari setiap tabel.
numSnapshotRecordsPerTable	Jumlah catatan data yang diproses untuk setiap tabel selama fase snapshot.	Hitungan	Periksa jumlah catatan data yang diproses untuk setiap tabel dalam fase snapshot.

Konektor - Kafka

Metrik	Deskripsi	Unit	Skenario	Versi yang didukung
commitsSucceeded	Jumlah total commit offset yang berhasil.	Hitungan	Memverifikasi bahwa commit offset berhasil.	Realtime Compute for Apache Flink VVR 8.0.9 atau lebih baru.
commitsFailed	Jumlah total commit offset yang gagal.	Hitungan	Mengidentifikasi masalah dengan commit offset.
Fetch Rate	Rata-rata jumlah permintaan fetch per detik.	Count/s	Gunakan untuk memantau laju pengambilan data dan mengidentifikasi potensi masalah latensi.
Fetch Latency Avg	Rata-rata latensi operasi fetch.	Milidetik	Nilai tinggi mungkin mengindikasikan bottleneck jaringan atau broker Kafka yang lambat.
Fetch Size Avg	Rata-rata jumlah byte per permintaan fetch.	Byte	Gunakan untuk menganalisis throughput dan efisiensi pengambilan data.
Avg Records In Per-Request	Rata-rata jumlah catatan per permintaan fetch.	Hitungan	Gunakan untuk menganalisis efisiensi batching catatan dalam permintaan fetch.
currentSendTime	Cap waktu event-time dari catatan terakhir yang diproses oleh konektor.	N/A	Gunakan untuk memantau progres konsumsi.
batchSizeAvg	Rata-rata jumlah byte per batch.	Byte	Gunakan untuk menganalisis latensi dan throughput penulisan data.
requestLatencyAvg	Rata-rata latensi permintaan penulisan data.	Milidetik	Gunakan untuk menilai performa penulisan data.
requestsInFlight	Jumlah permintaan penulisan data yang sedang berlangsung.	N/A	Nilai tinggi dapat mengindikasikan bottleneck di sistem sink.
recordsPerRequestAvg	Rata-rata jumlah catatan dalam setiap permintaan penulisan data.	Jumlah	Gunakan untuk mengevaluasi efisiensi batching dan throughput penulisan data.
recordSizeAvg	Rata-rata ukuran catatan dalam byte.	Byte	Gunakan untuk menganalisis throughput dan efisiensi penulisan data.

Konektor Paimon

Metrik	Deskripsi	Unit	Skenario	Versi yang didukung
Jumlah Penulis	Jumlah `writer instance` aktif.	Hitungan	Jumlah writer yang tinggi dapat menurunkan performa penulisan dan meningkatkan konsumsi memori. Jika nilai ini tinggi, periksa apakah pengaturan jumlah `bucket` dan `partition key` Anda sesuai.	Realtime Compute for Apache Flink VVR 8.0.9 atau lebih baru.
Max Compaction Thread Busy	Rasio sibuk maksimum thread `compaction`.	Rasio	Metrik ini mencerminkan tekanan `compaction`. Nilai mendekati 100% menunjukkan bahwa compaction merupakan bottleneck, yang dapat memperlambat penulisan data.
Average Compaction Thread Busy	Rasio sibuk rata-rata thread `compaction`.	Rasio	Metrik ini mencerminkan tekanan `compaction` rata-rata di semua bucket. Nilai tinggi menunjukkan bahwa performa compaction secara keseluruhan lambat.
Max Number of Level 0 Files	Jumlah maksimum file level-0.	Hitungan	Untuk `primary key table`, jumlah file level-0 yang tinggi (file kecil) menunjukkan bahwa `compaction` tidak mengimbangi kecepatan penulisan.
Average Number of Level 0 Files	Jumlah rata-rata file level-0.	Hitungan	Untuk `primary key table`, jumlah rata-rata file level-0 yang tinggi (file kecil) menunjukkan bahwa `compaction` secara keseluruhan tidak mengimbangi kecepatan penulisan.
Last Commit Duration	Durasi commit terakhir.	Milidetik	Jika durasi terlalu lama, periksa apakah data ditulis ke terlalu banyak `bucket` secara simultan.
Jumlah Partisi yang Di-commit Terakhir	Jumlah `partition` yang ditulis dalam commit terakhir.	Hitungan	Jumlah partisi yang tinggi dalam satu commit dapat menurunkan performa penulisan dan meningkatkan konsumsi memori. Periksa apakah pengaturan jumlah `bucket` atau `partition key` Anda sesuai.
Jumlah Bucket yang Di-commit Terakhir	Jumlah `bucket` yang ditulis dalam commit terakhir.	Hitungan	Jumlah bucket yang tinggi dalam satu commit dapat menurunkan performa penulisan dan meningkatkan konsumsi memori. Periksa apakah pengaturan jumlah `bucket` atau `partition key` Anda sesuai.
Used Write Buffer	Jumlah memori buffer penulisan yang digunakan.	Bytes	Buffer ini mengonsumsi `Java heap memory` di semua `TaskManager`. Nilai yang terus-menerus tinggi dapat menyebabkan error Out of Memory (OOM).
Total Write Buffer	Jumlah total memori buffer penulisan yang dialokasikan.	Bytes	Buffer ini mengonsumsi `Java heap memory` di semua `TaskManager`. Mengatur nilai ini terlalu tinggi dapat menghabiskan memori yang tersedia dan menyebabkan error Out of Memory (OOM).

Ingesti Data

Metrik	Deskripsi	Unit	Skenario	Versi yang didukung
isSnapshotting	Menunjukkan apakah pekerjaan berada dalam fase snapshot. Nilai 1 berarti pekerjaan berada dalam fase ini.	N/A	Menentukan fase pemrosesan saat ini dari pekerjaan.	Realtime Compute for Apache Flink VVR 8.0.9 atau lebih baru.
isBinlogReading	Menunjukkan apakah pekerjaan berada dalam fase inkremental. Nilai 1 berarti pekerjaan berada dalam fase ini.	N/A	Menentukan fase pemrosesan saat ini dari pekerjaan.
Jumlah tabel yang tersisa	Jumlah tabel yang menunggu diproses dalam fase snapshot.	Tabel	Memantau antrian tabel untuk pemrosesan snapshot.
Jumlah tabel yang telah di-snapshot	Jumlah tabel yang telah diproses dalam fase snapshot.	Tabel	Memantau jumlah snapshot tabel yang telah selesai.
Jumlah SnapshotSplits yang tersisa	Jumlah split yang menunggu diproses dalam fase snapshot.	Split	Memantau antrian split data untuk pemrosesan snapshot.
Jumlah SnapshotSplits yang telah diproses	Jumlah split yang telah diproses dalam fase snapshot.	Pembagian	Memantau jumlah split data yang telah selesai dari fase snapshot.
currentFetchEventTimeLag	Latensi antara saat event dibuat di database dan saat dibaca oleh konektor.	ms	Mengukur latensi ingesti data dari log biner database.
currentReadTimestampMs	Cap waktu dari catatan data terbaru yang dibaca.	ms	Mengidentifikasi titik waktu dari catatan terbaru yang diingesti.
numRecordsIn	Jumlah total catatan data yang dibaca.	Catatan	Melacak jumlah total catatan data yang dibaca oleh sumber.
numRecordsInPerTable	Jumlah catatan data yang dibaca dari setiap tabel.	Catatan	Melacak jumlah total catatan data yang dibaca dari setiap tabel.
numSnapshotRecords	Jumlah catatan data yang diproses selama fase snapshot.	Catatan	Memantau total catatan yang diproses selama fase snapshot.
numSnapshotRecordsPerTable	Jumlah catatan data yang diproses untuk setiap tabel selama fase snapshot.	Catatan	Memantau jumlah catatan per tabel yang diproses selama fase snapshot.