全部产品
Search
文档中心

Realtime Compute for Apache Flink:Metrik Pemantauan

更新时间:Jan 22, 2026

Topik ini menjelaskan metrik yang didukung oleh Flink yang sepenuhnya dikelola.

Catatan

Ketidaksesuaian data antara Cloud Monitor dan konsol Flink

  1. Perbedaan dalam dimensi tampilan
    Konsol Flink menggunakan kueri Prometheus Query Language (PromQL) untuk menampilkan hanya latensi maksimum. Dalam skenario komputasi real-time, latensi rata-rata dapat dengan mudah menyembunyikan masalah kritis seperti kesenjangan data atau pemblokiran pada partisi tunggal. Oleh karena itu, hanya latensi maksimum yang memberikan informasi bernilai untuk operasi dan pemeliharaan (O&M).

  2. Deviasi nilai
    Cloud Monitor menggunakan mekanisme pra-agregasi untuk menghitung metrik. Karena perbedaan dalam jendela agregasi, waktu pengambilan sampel, atau logika perhitungan, nilai maksimum yang ditampilkan di Cloud Monitor mungkin sedikit berbeda dari nilai real-time yang ditampilkan di konsol Flink. Saat troubleshooting, gunakan data dari konsol Flink sebagai acuan.

Latensi data dan konfigurasi Watermark

  1. Logika perhitungan latensi
    Metrik pemantauan saat ini, Emit Delay, dihitung berdasarkan event time. Rumusnya adalah sebagai berikut:

    Delay = Waktu sistem saat ini - Bidang waktu logis dalam muatan data (misalnya, PriceData.time)

    Artinya, metrik ini mencerminkan kesegaran data, bukan kecepatan pemrosesan sistem. Nilai metrik akan tinggi jika datanya sendiri sudah lama atau jika sistem menghentikan sementara output untuk menunggu penyelarasan watermark.

  2. Penyesuaian yang direkomendasikan

    Skenario 1: Logika bisnis sangat bergantung pada watermark untuk keakuratan, tetapi sumber data bersifat lama

    • Situasi khas:

      • Transmisi data hulu memiliki latensi bawaan, seperti pelaporan instrumen yang lambat.

      • Data historis sedang diisi ulang, memproses data dari hari sebelumnya.

      • Logika bisnis harus bergantung pada watermark untuk menangani event yang tidak berurutan dan tidak dapat dinonaktifkan.

    • Gejala: Peringatan pemantauan menunjukkan latensi tinggi, tetapi kelompok konsumen Kafka tidak memiliki akumulasi pesan (Lag ≈ 0) dan beban CPU rendah.

    • Rekomendasi:

      1. Abaikan metrik latensi ini: Delay tinggi dalam kasus ini merupakan perilaku bisnis normal karena mencerminkan bahwa datanya memang lama. Ini bukan indikasi kesalahan sistem.

      2. Ubah metrik pemantauan: Insinyur O&M sebaiknya memantau Kafka Consumer Lag (akumulasi pesan) sebagai gantinya. Selama akumulasi tidak terus meningkat, kemampuan pemrosesan sistem normal dan tidak diperlukan intervensi.

    Skenario 2: Kinerja real-time diprioritaskan, dan event yang tidak berurutan atau kehilangan data dalam jumlah kecil dapat ditoleransi

    • Situasi khas:

      • Untuk dasbor atau kontrol risiko real-time, output menjadi lambat karena data menunggu watermark.

      • Bisnis lebih peduli pada 'kapan data diterima' daripada 'timestamp dalam data'.

    • Gejala: Aliran data bersifat real-time, tetapi karena watermark dikonfigurasi dengan jendela toleransi besar—misalnya, memungkinkan delay 10 detik—output data tertunda selama 10 detik.

    • Rekomendasi:

      1. Hapus atau nonaktifkan watermark: Anda dapat beralih ke processing time untuk perhitungan atau mengatur ambang batas tunggu watermark menjadi 0.

      2. Hasil yang diharapkan: Metrik latensi akan turun secara instan, mendekati waktu pemrosesan fisik, dan data akan diproses serta dioutput sesaat setelah tiba tanpa menunggu penyelarasan.

Karakteristik metrik dalam skenario khas

Metrik hanya mencerminkan status komponen saat ini dan tidak cukup untuk menentukan akar penyebab masalah. Anda harus selalu menggunakan fitur deteksi tekanan balik di UI Flink dan alat pendukung lainnya untuk diagnosis menyeluruh.

1. Tekanan balik Operator

Gejala: Kapasitas pemrosesan hilir yang tidak mencukupi menyebabkan laju pengiriman sumber menurun.

  • Metode deteksi: Gunakan panel pemantauan tekanan balik di UI Flink.

  • Karakteristik metrik:

    • sourceIdleTime meningkat secara periodik.

    • currentFetchEventTimeLag dan currentEmitEventTimeLag terus meningkat.

    • Kasus ekstrem: Jika suatu operator benar-benar macet, sourceIdleTime akan terus meningkat.

2. Bottleneck performa sumber

Gejala: Kecepatan baca sumber telah mencapai batasnya tetapi masih belum memenuhi permintaan pemrosesan data.

  • Metode deteksi: Tidak ada tekanan balik yang terdeteksi dalam pekerjaan.

  • Karakteristik metrik:

    • sourceIdleTime tetap pada nilai yang sangat rendah, yang mengindikasikan bahwa sumber beroperasi pada kapasitas penuh.

    • currentFetchEventTimeLag dan currentEmitEventTimeLag memiliki nilai yang mirip dan tinggi.

3. Kesenjangan data atau partisi kosong

Gejala: Data tersebar tidak merata di seluruh partisi Kafka hulu, atau terdapat partisi kosong.

  • Metode deteksi: Amati perbedaan metrik antara berbagai sumber.

  • Karakteristik metrik:

    • sourceIdleTime dari sumber tertentu jauh lebih tinggi dibandingkan yang lain, yang mengindikasikan bahwa tingkat paralelismenya idle.

4. Analisis latensi data

Gejala: Latensi pekerjaan secara keseluruhan tinggi, dan Anda perlu menentukan apakah bottleneck berada di sumber atau di sistem eksternal.

  • Metode deteksi: Analisis kombinasi waktu idle, selisih lag, dan akumulasi pesan.

  • Karakteristik metrik:

    • sourceIdleTime tinggi:
      Ini mengindikasikan bahwa sumber sedang idle. Biasanya berarti bahwa laju output data dari sistem eksternal rendah, bukan karena pemrosesan Flink yang lambat.

    • Analisis selisih lag:
      Bandingkan selisih antara currentEmitEventTimeLag dan currentFetchEventTimeLag, yaitu waktu data berada di dalam operator sumber:

      • Selisih kecil (kedua metrik saling berdekatan): Kemampuan tarik tidak mencukupi. Bottleneck berada pada bandwidth I/O jaringan atau tingkat paralelisme sumber yang tidak mencukupi.

      • Selisih besar: Kemampuan pemrosesan tidak mencukupi. Bottleneck disebabkan oleh penguraian data yang tidak efisien atau keterbatasan akibat tekanan balik dari hilir.

    • pendingRecords (jika didukung oleh konektor):
      Metrik ini secara langsung mencerminkan jumlah data yang tertahan secara eksternal. Nilai yang lebih tinggi mengindikasikan akumulasi data yang lebih parah di sistem eksternal.

Ikhtisar

Metrik

Definisi

Rincian

Satuan

Konektor yang didukung

Num of Restarts

Jumlah kali pekerjaan dimulai ulang karena error.

Jumlah kali pekerjaan dimulai ulang karena error, tidak termasuk failover JobManager (JM). Gunakan ini untuk memeriksa ketersediaan dan status pekerjaan.

Hitungan

Tidak berlaku

current Emit Event Time Lag

Latensi bisnis.

Nilai tinggi mengindikasikan potensi latensi dalam penarikan atau pemrosesan data.

ms

  • Kafka

  • RocketMQ

  • SLS

  • DataHub

  • Postgres CDC

  • Hologres (Binlog Source)

current Fetch Event Time Lag

Latensi transmisi.

Nilai tinggi mengindikasikan potensi latensi dalam penarikan data. Periksa bandwidth I/O jaringan atau sistem hulu. Dengan membandingkan ini dengan currentEmitEventTimeLag, Anda dapat menganalisis kemampuan pemrosesan sumber berdasarkan selisihnya (waktu data berada di sumber). Detailnya sebagai berikut:

  • Jika kedua nilai latensi sangat berdekatan, kemampuan sumber untuk menarik data dari sistem eksternal tidak mencukupi karena masalah bandwidth I/O atau konkurensi.

  • Jika selisih antara kedua nilai latensi besar, kemampuan pemrosesan pekerjaan tidak mencukupi, sehingga data tertahan di sumber. Di halaman detail pekerjaan target, klik tab Status. Di halaman BackPressure, temukan topologi Vertex yang bermasalah. Lalu, buka halaman Thread Dump untuk menganalisis stack dan mengidentifikasi bottleneck.

ms

  • Kafka

  • RocketMQ

  • SLS

  • DataHub

  • Postgres CDC

  • Hologres (Binlog Source)

numRecordsIn

Total jumlah catatan input untuk semua operator.

Jika nilai numRecordsIn untuk suatu operator tidak meningkat dalam waktu lama, hulu mungkin telah mengonsumsi semua data. Periksa data hulu.

Item

Semua konektor bawaan didukung.

numRecordsOut

Total jumlah catatan output.

Jika nilai numRecordsOut untuk suatu operator tidak meningkat dalam waktu lama, mungkin terdapat error logika dalam kode pekerjaan yang menyebabkan data dibuang. Periksa logika kode pekerjaan.

Items

Didukung oleh semua konektor bawaan.

numRecordsInofSource

Catatan input hanya untuk operator sumber.

Periksa status input data hulu.

Items

  • Kafka

  • MaxCompute

  • MaxCompute Inkremental

  • RocketMQ

  • SLS

  • DataHub

  • ElasticSearch

  • Hologres

numRecordsOutOfSink

Total jumlah catatan output dari sink.

Periksa status output data.

Hitungan

  • Kafka

  • SLS

  • DataHub

  • Hologres

  • HBase

  • Tablestore

  • Redis

numRecordsInPerSecond

Jumlah catatan input per detik untuk seluruh aliran data.

Gunakan ini untuk skenario yang memerlukan pemantauan kecepatan pemrosesan seluruh aliran data. Misalnya, Anda dapat menggunakan numRecordsInPerSecond untuk mengamati apakah kecepatan pemrosesan seluruh aliran data sesuai harapan dan bagaimana kinerja berubah di bawah beban data input yang berbeda.

records/s

Semua konektor bawaan didukung.

numRecordsOutPerSecond

Jumlah catatan output per detik untuk seluruh aliran data.

Mengukur jumlah catatan yang dioutput per detik untuk seluruh aliran data. Gunakan ini untuk skenario yang memerlukan pemantauan kecepatan output seluruh aliran data.

Misalnya, Anda dapat menggunakan numRecordsOutPerSecond untuk mengamati apakah kecepatan output seluruh aliran data sesuai harapan dan bagaimana kinerja berubah di bawah beban data output yang berbeda.

records/s

Semua konektor didukung.

numRecordsInOfSourcePerSecond (IN RPS)

Jumlah catatan input per detik di sumber data.

Mengukur jumlah catatan yang dihasilkan per detik oleh setiap sumber data. Ini berguna untuk memahami kecepatan generasi setiap sumber. Misalnya, dalam suatu aliran data, sumber data yang berbeda mungkin menghasilkan jumlah catatan yang berbeda. Gunakan numRecordsInOfSourcePerSecond untuk memahami kecepatan generasi setiap sumber data dan menyesuaikan aliran data demi kinerja yang lebih baik. Data ini juga digunakan untuk pemantauan dan peringatan.

Jika nilai ini 0, hulu mungkin telah mengonsumsi semua data, atau output diblokir karena data hulu belum dikonsumsi. Periksa data hulu.

records/s

  • Kafka

  • MaxCompute

  • Inkremental MaxCompute

  • RocketMQ

  • SLS

  • DataHub

  • ElasticSearch

  • Hologres

numRecordsOutOfSinkPerSecond (OUT RPS)

Jumlah catatan output per detik di sink data.

Mengukur jumlah catatan yang dioutput per detik oleh setiap sink. Ini berguna untuk memahami kecepatan output setiap sink. Misalnya, dalam suatu aliran data, sink yang berbeda mungkin mengoutput jumlah catatan yang berbeda.

Gunakan numRecordsOutOfSinkPerSecond untuk memahami kecepatan output setiap sink dan menyesuaikan aliran data demi kinerja yang lebih baik. Data ini digunakan untuk pemantauan dan peringatan. Jika nilai ini 0, mungkin terdapat error logika dalam kode pekerjaan yang menyaring semua data. Periksa logika kode pekerjaan.

records/s

  • Kafka

  • MaxCompute

  • MaxCompute Inkremental

  • SLS

  • DataHub

  • Hologres

  • HBase

  • Tablestore

  • Redis

pendingRecords

Jumlah catatan yang belum dibaca di sumber.

Jumlah catatan data di sistem eksternal yang belum ditarik oleh sumber.

Item

  • Kafka

  • ElasticSearch

sourceIdleTime

Durasi data tetap belum diproses di sumber.

Metrik ini mengindikasikan apakah sumber sedang idle. Nilai besar mengindikasikan bahwa laju generasi data di sistem eksternal rendah.

ms

  • Kafka

  • RocketMQ

  • Postgres CDC

  • Hologres (Binlog Source)

Checkpoint sistem

Metrik

Definisi

Rincian

Satuan

Num of Checkpoints

Jumlah checkpoint.

Memberikan ikhtisar status checkpoint untuk membantu Anda menyiapkan peringatan checkpoint.

Item

lastCheckpointDuration

Durasi checkpoint terakhir.

Jika checkpoint memakan waktu terlalu lama atau timeout, hal ini mungkin disebabkan oleh state yang besar, masalah jaringan temporary, barrier yang tidak selaras, atau tekanan balik data.

ms

lastCheckpointSize

Ukuran checkpoint terakhir.

Ukuran aktual yang diupload pada checkpoint terakhir. Ini membantu menganalisis kinerja checkpoint saat terjadi bottleneck.

Bytes

State

Catatan

Metrik latensi state hanya tersedia setelah Anda mengaktifkannya. Di konfigurasi Flink advanced, atur state.backend.latency-track.keyed-state-enabled: true. Mengaktifkan metrik latensi state dapat memengaruhi kinerja waktu proses pekerjaan.

Metrik

Definisi

Rincian

Satuan

Batasan versi

State Clear Latency

Latensi maksimum dari satu operasi pembersihan state.

Lihat kinerja pembersihan state.

Nanosecond (ns)

VVR 4.0.0 atau lebih baru.

Value State Latency

Latensi maksimum dari satu akses Value State.

Lihat kinerja akses Value State.

ns

Aggregating State Latency

Latensi maksimum dari satu akses Aggregating State.

Lihat kinerja akses Aggregating State.

ns

Reducing State Latency

Latensi maksimum dari satu akses Reducing State.

Lihat kinerja akses Reducing State.

ns

Map State Latency

Latensi maksimum dari satu akses Map State.

Lihat kinerja akses Map State.

ns

List State Latency

Latensi maksimum dari satu akses List State.

Lihat kinerja akses List State.

ns

Sorted Map State Latency

Latensi maksimum dari satu akses Sorted Map State.

Lihat kinerja akses Sorted Map State.

ns

State Size

Ukuran data state.

Dengan mengamati metrik ini, Anda dapat:

  • Langsung atau proaktif menemukan node yang mungkin memiliki bottleneck state.

  • Menentukan apakah TTL efektif.

Bytes

VVR 4.0.12 atau lebih baru.

State File Size

Ukuran file data state.

Dengan mengamati metrik ini, Anda dapat:

  • Memantau ruang disk yang ditempati oleh state di disk lokal dan mengambil tindakan lebih awal jika ukurannya besar.

  • Menentukan apakah ruang disk lokal yang tidak mencukupi disebabkan oleh data state yang terlalu besar.

Byte

VVR 4.0.13 atau lebih baru.

I/O

Metrik

Definisi

Detail

Satuan

Konektor yang didukung

numBytesIn

Total byte input.

Lihat throughput input dari hulu untuk mengamati traffic pekerjaan.

Byte

  • Kafka

  • MaxCompute

  • MaxCompute Inkremental

  • RocketMQ

numBytesInPerSecond

Total byte input per detik.

Lihat laju aliran input dari hulu untuk mengamati traffic pekerjaan.

Byte/detik

  • Kafka

  • MaxCompute

  • Inkremental MaxCompute

  • RocketMQ

numBytesOut

Total byte output.

Lihat throughput output untuk mengamati traffic pekerjaan.

Byte

  • Kafka

  • RocketMQ

  • DataHub

  • HBase

numBytesOutPerSecond

Total byte output per detik.

Lihat laju throughput output untuk mengamati traffic pekerjaan.

Byte/detik

  • Kafka

  • RocketMQ

  • DataHub

  • HBase

Task numRecords I/O

Total volume data yang diterima dan dioutput oleh setiap Subtask.

Gunakan metrik ini untuk menentukan apakah pekerjaan memiliki bottleneck I/O.

Items

  • Kafka

  • MaxCompute

  • MaxCompute Inkremental

  • SLS

  • DataHub

  • ElasticSearch

  • Hologres

  • HBase

  • Tablestore

  • Redis

Task numRecords I/O PerSecond

Total volume data yang diterima dan dikirim oleh setiap Subtask per detik.

Tentukan apakah pekerjaan memiliki bottleneck I/O dan nilai keparahannya berdasarkan laju tersebut.

records/s

  • Kafka

  • MaxCompute

  • MaxCompute Inkremental

  • SLS

  • DataHub

  • ElasticSearch

  • Hologres

  • HBase

  • Tablestore

  • Redis

currentSendTime

Waktu yang dibutuhkan setiap subtask untuk mengirim catatan terakhir ke sistem hilir.

Nilai kecil untuk metrik ini mengindikasikan bahwa output subtask lambat.

ms

  • Kafka

  • MaxCompute

  • MaxCompute Inkremental

  • RocketMQ

  • SLS

  • DataHub

  • Hologres

    Catatan

    Didukung dalam mode JDBC dan RPC. Tidak didukung dalam mode BHClient.

  • HBase

  • Tablestore

  • Redis

Watermark

Metrik

Definisi

Rincian

Satuan

Konektor yang didukung

Task InputWatermark

Waktu setiap task menerima watermark terbaru.

Mengindikasikan latensi penerimaan data di TM.

None

Tidak berlaku untuk konektor

watermarkLag

Latensi watermark.

Tentukan latensi pekerjaan di tingkat subtask.

ms

  • Kafka

  • RocketMQ

  • SLS

  • DataHub

  • Hologres (Binlog Source)

CPU

Metrik

Definisi

Rincian

Satuan

JM CPU Usage

Penggunaan CPU satu JM.

Nilai ini mencerminkan penggunaan Flink terhadap irisan waktu CPU. 100% berarti satu core CPU digunakan penuh. 400% berarti empat core digunakan penuh. Jika nilai ini konsisten di atas 100%, CPU sedang sibuk. Jika beban tinggi tetapi penggunaan CPU rendah, hal ini mungkin disebabkan oleh terlalu banyak proses dalam keadaan sleep yang tidak dapat diinterupsi akibat operasi I/O yang sering.

Catatan

Metrik ini hanya didukung di VVR 6.0.6 atau lebih baru.

None

TM CPU Usage

Penggunaan CPU satu TM.

Nilai ini mencerminkan penggunaan Flink terhadap irisan waktu CPU. 100% berarti satu core CPU digunakan penuh. 400% berarti empat core digunakan penuh. Jika nilai ini konsisten di atas 100%, CPU sedang sibuk. Jika beban tinggi tetapi penggunaan CPU rendah, hal ini mungkin disebabkan oleh terlalu banyak proses dalam keadaan sleep yang tidak dapat diinterupsi akibat operasi I/O yang sering.

None

Memory

Metrik

Definisi

Rincian

Satuan

JM Heap Memory

Memori heap JM.

Lihat perubahan memori heap JM.

Byte

JM NonHeap Memory

Memori non-heap JM.

Lihat perubahan memori non-heap JM.

Byte

TM Heap Memory

Memori heap TM.

Lihat perubahan memori heap TM.

Bytes

TM nonHeap Memory

Memori non-heap TM.

Lihat perubahan memori non-heap TM.

Bytes

TM Mem (RSS)

Memori seluruh proses, diperoleh melalui Linux.

Lihat perubahan memori proses.

Byte

JVM

Metrik

Definisi

Rincian

Satuan

JM Threads

Jumlah thread JM.

Terlalu banyak thread JM dapat mengonsumsi memori berlebihan dan mengurangi stabilitas pekerjaan.

Item

TM Threads

Jumlah thread TM.

Terlalu banyak thread TM dapat mengonsumsi memori berlebihan dan mengurangi stabilitas pekerjaan.

Unit

JM GC Count

Jumlah event GC JM.

Terlalu banyak event GC dapat mengonsumsi memori berlebihan dan memengaruhi kinerja pekerjaan. Metrik ini membantu Anda mendiagnosis pekerjaan dan troubleshooting kegagalan tingkat pekerjaan.

Times

JM GC Time

Durasi setiap event GC JM.

Waktu GC yang lama dapat mengonsumsi memori berlebihan dan memengaruhi kinerja pekerjaan. Metrik ini membantu Anda mendiagnosis pekerjaan dan troubleshooting kegagalan tingkat pekerjaan.

ms

TM GC Count

Jumlah event GC TM.

Terlalu banyak event GC dapat mengonsumsi memori berlebihan dan memengaruhi kinerja pekerjaan. Metrik ini membantu Anda mendiagnosis pekerjaan dan troubleshooting kegagalan tingkat tugas.

Count

TM GC Time

Durasi setiap event GC TM.

Waktu GC yang lama dapat mengonsumsi memori berlebihan dan memengaruhi kinerja pekerjaan. Metrik ini membantu Anda mendiagnosis pekerjaan dan troubleshooting kegagalan tingkat pekerjaan.

ms

JM ClassLoader

Total jumlah kelas yang dimuat atau dilepas oleh JVM JM sejak pembuatannya.

Jika total jumlah kelas yang dimuat atau dilepas oleh JVM JM terlalu besar, hal ini dapat mengonsumsi memori berlebihan dan memengaruhi kinerja pekerjaan.

None

TM ClassLoader

Total jumlah kelas yang dimuat atau dilepas oleh JVM TM sejak pembuatannya.

Memuat atau melepas banyak kelas di JVM untuk JM dapat menyebabkan konsumsi memori berlebihan dan menurunkan kinerja pekerjaan.

None

Connector - Mysql

Metrik

Definisi

Satuan

Skema Aplikasi

Batasan Versi

isSnapshotting

Mengindikasikan apakah pekerjaan berada dalam fase pemrosesan data penuh (1 berarti iya).

None

Tentukan fase pemrosesan pekerjaan.

VVR 8.0.9 atau lebih baru.

isBinlogReading

Mengindikasikan apakah pekerjaan berada dalam fase pemrosesan data inkremental (1 berarti iya).

None

Tentukan fase pemrosesan pekerjaan.

Num of remaining tables

Jumlah tabel yang menunggu diproses dalam fase data penuh.

Hitungan

Lihat jumlah tabel yang belum diproses.

Num of snapshotted tables

Jumlah tabel yang telah diproses dalam fase data penuh.

Unit

Lihat jumlah tabel yang telah diproses.

Num of remaining SnapshotSplits

Jumlah shard yang menunggu diproses dalam fase data penuh.

Item

Lihat jumlah shard yang telah diproses

Num of processed SnapshotSplits

Jumlah shard yang telah diproses dalam fase data penuh.

Unit

Periksa jumlah shard yang belum diproses

currentFetchEventTimeLag

Latensi antara generasi data dan pembacaan dari database.

ms

Lihat latensi pembacaan log biner dari database.

currentReadTimestampMs

Timestamp catatan data terbaru yang dibaca.

ms

Lihat waktu pembacaan data terbaru.

numRecordsIn

Jumlah catatan yang telah dibaca.

Items

Lihat total volume data yang diproses.

numSnapshotRecords

Jumlah catatan yang diproses dalam fase data penuh.

Items

Lihat volume data yang diproses dalam fase data penuh.

numRecordsInPerTable

Jumlah catatan yang dibaca dari setiap tabel.

Hitungan

Lihat total volume data yang diproses untuk setiap tabel.

numSnapshotRecordsPerTable

Jumlah catatan yang diproses untuk setiap tabel dalam fase data penuh.

Hitungan

Lihat volume data yang diproses untuk setiap tabel dalam fase data penuh.

Connector - Kafka

Metrik

Definisi

Satuan

Skenario Aplikasi

Batasan

commitsSucceeded

Jumlah commit offset yang berhasil

Hitungan

Verifikasi bahwa commit offset berhasil.

VVR 8.0.9 atau lebih baru.

commitsFailed

Jumlah commit offset yang gagal.

Hitungan

Verifikasi bahwa commit offset berhasil.

Fetch Rate

Frekuensi tarik data.

times/s

Tentukan latensi dan kecepatan tarik data.

Fetch Latency Avg

Rata-rata latensi operasi tarik data.

ms

Tentukan latensi dan kecepatan tarik data.

Fetch Size Avg

Rata-rata byte per tarik.

Bytes

Tentukan latensi dan kecepatan tarik data.

Avg Records In Per-Request

Rata-rata jumlah pesan per tarik

Items

Tentukan latensi dan kecepatan tarik data.

currentSendTime

Waktu pengiriman catatan terakhir.

None

Tentukan progres konsumsi.

batchSizeAvg

Rata-rata byte per batch.

Bytes

Tentukan latensi dan kecepatan tulis data.

requestLatencyAvg

Rata-rata latensi permintaan.

ms

Tentukan latensi dan kecepatan tulis data.

requestsInFlight

Jumlah permintaan yang sedang berlangsung.

None

Tentukan latensi dan kecepatan tulis data.

recordsPerRequestAvg

Rata-rata pesan per permintaan

Items

Tentukan latensi dan kecepatan tulis data.

recordSizeAvg

Rata-rata ukuran pesan (dalam byte)

Byte

Tentukan latensi dan kecepatan tulis data.

Connector - Paimon

Metrik

Definisi

Satuan

Skenario Aplikasi

Batasan

Number of Writers

Jumlah instance writer.

Hitungan

Mengindikasikan berapa banyak bucket yang sedang ditulis saat ini. Jumlah besar dapat memengaruhi efisiensi tulis dan meningkatkan konsumsi memori. Analisis apakah jumlah bucket atau pengaturan kunci partisi sudah wajar.

VVR 8.0.9 atau lebih baru.

Max Compaction Thread Busy

Tingkat kesibukan maksimum thread kompaksi file kecil.

Rasio

Di antara bucket yang sedang ditulis saat ini, ini adalah persentase maksimum waktu thread kompaksi aktif dalam satu menit terakhir. Ini mencerminkan tekanan pada kompaksi file kecil.

Average Compaction Thread Busy

Tingkat kesibukan rata-rata thread kompaksi file kecil.

Rasio

Di antara bucket yang sedang ditulis saat ini, ini adalah persentase rata-rata waktu thread kompaksi aktif dalam satu menit terakhir. Ini mencerminkan tekanan pada kompaksi file kecil.

Max Number of Level 0 Files

Jumlah maksimum file Level 0.

Item

Jumlah maksimum file Level 0 (file kecil) di antara bucket yang sedang ditulis saat ini. Ini hanya berarti untuk tabel kunci primer dan mencerminkan apakah efisiensi kompaksi dapat mengimbangi efisiensi tulis.

Average Number of Level 0 Files

Jumlah rata-rata file Level 0.

Jumlah

Jumlah rata-rata file Level 0 (file kecil) di antara bucket yang sedang ditulis saat ini. Ini hanya berarti untuk tabel kunci primer dan mencerminkan apakah efisiensi kompaksi dapat mengimbangi efisiensi tulis.

Last Commit Duration

Durasi commit terakhir.

ms

Jika durasi terlalu lama, periksa apakah terlalu banyak bucket ditulis secara simultan.

Number of Partitions Last Committed

Jumlah partisi yang ditulis dalam commit terakhir.

Item

Jumlah besar dapat memengaruhi efisiensi tulis dan meningkatkan konsumsi memori. Analisis apakah jumlah bucket atau pengaturan kunci partisi sudah wajar.

Number of Buckets Last Committed

Jumlah bucket yang ditulis dalam commit terakhir.

Item

Jumlah besar dapat memengaruhi efisiensi tulis dan meningkatkan konsumsi memori. Analisis apakah jumlah bucket atau pengaturan kunci partisi sudah wajar.

Used Write Buffer

Ukuran memori buffer penulisan yang digunakan.

Byte

Ukuran buffer yang digunakan untuk node writer di seluruh task manager. Buffer ini menempati memori heap Java. Jika diatur terlalu besar, dapat menyebabkan error kehabisan memori (OOM).

Total Write Buffer

Ukuran total memori buffer penulisan yang dialokasikan.

Byte

Ukuran buffer yang dikonfigurasi untuk node writer di seluruh task manager. Buffer ini menempati memori heap Java. Jika diatur terlalu besar, dapat menyebabkan error OOM.

Ingesti Data

Metrik

Definisi

Satuan

Skenario Aplikasi

Batasan versi

isSnapshotting

Mengindikasikan apakah pekerjaan berada dalam fase pemrosesan data penuh (1 berarti iya).

None

Tentukan fase pemrosesan pekerjaan.

VVR 8.0.9 atau lebih baru.

isBinlogReading

Mengindikasikan apakah pekerjaan berada dalam fase pemrosesan data inkremental (1 berarti iya).

None

Tentukan fase pemrosesan pekerjaan.

Num of remaining tables

Jumlah tabel yang menunggu diproses dalam fase data penuh.

Item

Lihat jumlah tabel yang belum diproses.

Num of snapshotted tables

Jumlah tabel yang telah diproses dalam fase data penuh.

Hitungan

Lihat jumlah tabel yang telah diproses.

Num of remaining SnapshotSplits

Jumlah shard yang menunggu diproses dalam fase data penuh.

Unit

Lihat jumlah shard yang telah diproses

Num of processed SnapshotSplits

Jumlah shard yang telah diproses dalam fase data penuh.

item

Periksa jumlah shard yang belum diproses

currentFetchEventTimeLag

Latensi antara generasi data dan pembacaan dari database.

ms

Lihat latensi pembacaan log biner dari database.

currentReadTimestampMs

Timestamp catatan data terbaru yang dibaca.

ms

Lihat waktu pembacaan data terbaru.

numRecordsIn

Jumlah catatan yang telah dibaca.

Items

Lihat total volume data yang diproses.

numRecordsInPerTable

Jumlah catatan yang dibaca dari setiap tabel.

Item

Lihat total volume data yang diproses untuk setiap tabel.

numSnapshotRecords

Jumlah catatan yang diproses dalam fase data penuh.

Items

Lihat volume data yang diproses dalam fase data penuh.

numSnapshotRecordsPerTable

Jumlah catatan yang diproses untuk setiap tabel dalam fase data penuh.

Entries

Lihat volume data yang diproses untuk setiap tabel dalam fase data penuh.