Ringkasan metrik dan panel monitoring dasbor Fluid-ACK-Alibaba Cloud

Dasbor Fluid menampilkan metrik observabilitas untuk framework akselerasi data Fluid yang berjalan di kluster ACK Anda. Tersedia dua dasbor:

Dasbor Lapisan Kontrol Fluid — memantau kesehatan dan kinerja komponen lapisan kontrol Fluid: pengontrol dataset, pengontrol runtime, webhook, dan plug-in CSI.
Dasbor Cache Fluid JindoRuntime — memantau efisiensi cache dan penggunaan sumber daya sistem cache JindoRuntime tertentu.

Gunakan dasbor ini untuk mendeteksi kegagalan komponen, mendiagnosis masalah kinerja cache, dan mengidentifikasi peluang optimasi sebelum memengaruhi beban kerja.

Prasyarat

Sebelum memulai, pastikan Anda telah:

Managed Service for Prometheus diaktifkan untuk komponen Fluid. Untuk informasi selengkapnya, lihat Langkah 2: Melihat dasbor Fluid.

Dasbor lapisan kontrol Fluid

Variabel dasbor

Variabel mengatur cakupan dan granularitas data yang ditampilkan di semua panel. Mengubah variabel akan memperbarui semua panel terkait secara bersamaan.

Variabel	Nilai yang valid	Deskripsi
`interval`	1m, 5m, 10m, 30m, 1h, 6h	Durasi siklus pemantauan. Interval yang lebih pendek menunjukkan tren dengan granularitas lebih halus; interval yang lebih panjang meratakan lonjakan.
`quantile`	0.5, 0.75, 0.90, 0.95, 0.99	Persentil yang digunakan oleh panel latensi dan waktu pemrosesan. Misalnya, 0.90 = P90.
`runtime`	JindoRuntime, AlluxioRuntime, JuiceFSRuntime	Jenis runtime yang dipantau. Mengubah variabel ini menyaring semua panel terkait runtime ke runtime yang dipilih.

Jenis runtime:

JindoRuntime — mesin eksekusi JindoFS, dikembangkan oleh tim Alibaba Cloud Elastic MapReduce (EMR). Dibangun dalam C++, JindoRuntime menyediakan manajemen dataset, caching, dan dukungan Object Storage Service (OSS).
AlluxioRuntime — mesin eksekusi Alluxio open source. Mendukung manajemen dataset, caching, dan akses dipercepat ke persistent volume claims (PVCs), Ceph, dan Cloud Parallel File System (CPFS). Cocok untuk skenario cloud hibrida.
JuiceFSRuntime — mesin akselerasi cache terdistribusi berbasis JuiceFS. Mendukung caching dan akselerasi data berdasarkan skenario. Untuk informasi selengkapnya, lihat Pengenalan JuiceFS.

Panel

Dasbor lapisan kontrol diorganisir menjadi empat kelompok panel. Mulailah dengan Status Berjalan Komponen untuk pemeriksaan kesehatan cepat. Jika ada yang tampak tidak normal, telusuri Indikator Detail Pengontrol Fluid atau Indikator Detail Webhook Fluid untuk mengidentifikasi penyebabnya. Penggunaan Sumber Daya menyediakan data pendukung CPU, memori, dan jaringan untuk semua pod pengontrol.

Status berjalan komponen

Kelompok ini menunjukkan apakah setiap komponen Fluid sedang berjalan dan seberapa sering pod melakukan restart. Restart yang sering merupakan tanda pertama ketidakstabilan.

Panel	Deskripsi
Dataset Controller Ready Replicas	Jumlah pod pengontrol dataset dalam status Running. Jika jumlah ini turun di bawah jumlah replika yang diharapkan, operasi dataset mungkin terhenti.
History of Dataset controller restarts	Jumlah restart pod pengontrol dataset.
Runtime Number of ready copies of controller	Jumlah pod pengontrol runtime dalam status Running.
History Runtime Controller Restart Times	Jumlah restart pod pengontrol runtime.
Fluid Webhook ready copies	Jumlah pod webhook Fluid dalam status Running.
Number of historical fluid Webhook restarts	Jumlah restart pod webhook Fluid.
Fluid CSI Plug-in Ready Copies	Jumlah pod plug-in CSI Fluid dalam status Running.
Historical Fluid CSI plug-in restarts	Jumlah restart pod plug-in CSI Fluid.
Fluid Component Restart	Lima komponen Fluid teratas dengan jumlah restart terbanyak dalam siklus pemantauan 2 menit terakhir. Gunakan panel ini untuk mengidentifikasi komponen yang perlu diperhatikan.

Indikator Detail Pengontrol Fluid

Kelompok ini menampilkan metrik kinerja internal pengontrol runtime dan DataLoad. Gunakan saat Anda mengamati rekonsiliasi dataset yang lambat atau peningkatan beban server API Kubernetes.

Panel	Deskripsi
Runtime Controller processing time	Waktu yang dihabiskan pengontrol runtime untuk menangani resource runtime dalam satu siklus pemantauan, ditampilkan sebagai nilai persentil. Nilai tinggi yang berkelanjutan dapat mengindikasikan overload pengontrol.
Number of Runtime controller processing failures	Jenis dan jumlah kegagalan selama penanganan resource runtime: kegagalan penerapan runtime dan kegagalan pemeriksaan kesehatan runtime. Nilai bukan nol perlu diselidiki.
Runtime Number of controller threads	Jumlah thread aktif saat ini dan jumlah maksimum thread yang didukung oleh pengontrol runtime. Jika jumlah thread aktif mendekati maksimum, pengontrol dapat menjadi bottleneck.
DataLoad Controller Threads	Jumlah thread aktif saat ini dan jumlah maksimum thread yang didukung oleh pengontrol DataLoad.
Controller Queue Length	Panjang workqueue setiap pengontrol Fluid. Antrean yang terus bertambah mengindikasikan pengontrol tidak mampu mengimbangi permintaan rekonsiliasi.
Total number of Kubernetes API requests	Total permintaan yang dikirim oleh semua pod pengontrol Fluid ke server API Kubernetes dalam satu siklus pemantauan. Lonjakan mendadak dapat menyebabkan pembatasan kecepatan pada server API.
Runtime Controller Kubernetes API requests	Permintaan dari pengontrol runtime ke server API Kubernetes, dipecah berdasarkan kode status HTTP. Proporsi tinggi respons 4xx atau 5xx mengindikasikan kesalahan konfigurasi atau masalah izin.
Total time consumed by unfinished processing of controller	Waktu kumulatif yang dihabiskan setiap pengontrol Fluid untuk tugas yang sedang berlangsung. Nilai tinggi yang terus-menerus menunjukkan tugas tersangkut.

Indikator detail webhook Fluid

Kelompok ini memantau webhook Fluid, yang mencegat permintaan pembuatan pod untuk menyuntikkan sidecar FUSE. Latensi webhook secara langsung memengaruhi waktu yang dibutuhkan pod baru untuk mulai berjalan.

Panel	Deskripsi
Fluid Webhook Pod CPU Usage	Utilisasi CPU setiap pod webhook Fluid dalam satu siklus pemantauan.
Fluid Webhook Pod Memory Usage	Penggunaan memori setiap pod webhook Fluid dalam satu siklus pemantauan.
Total number of requests processed in Fluid Webhook	Total permintaan yang ditangani oleh webhook Fluid dalam satu siklus pemantauan.
The number of requests processed in each Fluid Webhook Pod	Permintaan yang ditangani oleh setiap pod webhook Fluid individual dalam satu siklus pemantauan. Gunakan ini untuk mendeteksi ketidakseimbangan beban antar replika.
Fluid Webhook Request Processing Delay	Latensi pemrosesan permintaan keseluruhan webhook Fluid, sebagai nilai persentil. Latensi P99 yang tinggi memperlambat startup pod di seluruh kluster.
Request processing delay of each Fluid Webhook Pod	Latensi pemrosesan permintaan per pod, sebagai nilai persentil. Berguna untuk mengidentifikasi satu pod lambat yang menyebabkan tail latency.

Penggunaan sumber daya

Kelompok ini menyediakan metrik CPU, memori, dan jaringan untuk semua pod pengontrol Fluid. Gunakan untuk mendeteksi tekanan sumber daya yang dapat menyebabkan masalah yang terlihat di kelompok panel lainnya.

Panel	Deskripsi
CPU usage	Utilisasi CPU setiap pod pengontrol Fluid dalam satu siklus pemantauan.
Memory usage	Penggunaan memori setiap pod pengontrol Fluid dalam satu siklus pemantauan.
Network Send Rate per Pod	Laju transmisi jaringan setiap pod pengontrol Fluid dalam satu siklus pemantauan.
Network Receive Rate per Pod	Laju penerimaan jaringan setiap pod pengontrol Fluid dalam satu siklus pemantauan.

Dasbor cache Fluid JindoRuntime

Variabel dasbor

Pilih dataset berdasarkan namespace dan nama untuk membatasi semua panel ke sistem cache dataset tersebut.

Variabel	Deskripsi
`namespace`	Namespace dataset target di kluster.
`fluid_dataset`	Nama dataset Fluid target di kluster.

Panel

Dasbor cache JindoRuntime diorganisir menjadi tiga kelompok panel. Mulailah dengan Ikhtisar Dataset untuk memastikan semua pod cache dalam kondisi sehat. Lalu periksa Cache system metrics untuk efisiensi cache dan bandwidth. Jika Anda mencurigai masalah tingkat FUSE — seperti latensi tinggi yang dilaporkan aplikasi — gunakan Metrik FUSE untuk mengisolasi masalah tersebut.

Ikhtisar dataset

Panel	Deskripsi
Ready Pod Num	Jumlah pod siap di setiap komponen sistem cache yang dipilih, termasuk komponen master, worker, dan FUSE.
Pod Overview	Informasi dasar tentang pod di setiap komponen: jumlah restart dalam satu jam terakhir, permintaan dan batas sumber daya CPU, serta permintaan dan batas sumber daya memori.

Metrik sistem cache

Kelompok ini mencakup indikator kesehatan inti cache: seberapa penuh cache tersebut, seberapa efektif data dilayani dari cache, dan berapa banyak bandwidth yang disediakan ke aplikasi.

Panel	Deskripsi
Cache Capacity Usage (%)	Proporsi kapasitas cache yang sedang digunakan.
Cache Capacity Usage	Kapasitas cache maksimum yang tersedia beserta penggunaan saat ini, dalam nilai absolut.
Cache Hit Ratio Per Minute	Tingkat hit cache per menit dari sistem cache yang dipilih.
Read Bytes Per Minute	Pembacaan data per menit, dibagi menjadi hit cache (Cache Hit) dan cache miss yang dilayani dari penyimpanan backend (From Backend). Proporsi From Backend yang tinggi berarti sebagian besar pembacaan melewati cache.
Cache System Aggregated Bandwidth	Jumlah lalu lintas outbound di semua antarmuka jaringan pod worker, merepresentasikan total bandwidth yang dikirimkan sistem cache ke aplikasi. Catatan Jika pod worker berjalan di jaringan host, nilai ini mungkin membengkak. Untuk pembacaan akurat, jalankan pod worker di jaringan kontainer.
Cache Worker Pod Network I/O	I/O jaringan per pod worker. Catatan Jika pod worker berjalan di jaringan host, nilai ini mungkin membengkak. Untuk pembacaan akurat, jalankan pod worker di jaringan kontainer.
Cache System Pod Memory Usage	Penggunaan memori pod master dan worker. Jika pod worker menggunakan memori proses sebagai media cache, kapasitas cache yang dikonsumsi termasuk dalam angka ini.
Cache System Pod CPU Usage by Cores	Penggunaan CPU pod master dan worker.
Aggregated File Operation Requests	Frekuensi permintaan operasi metadata file yang diagregasi di seluruh sistem cache. Hanya operasi GetAttr dan ReadDir yang dihitung.

Metrik FUSE (melalui CSI)

Panel ini memantau pod FUSE yang disuntikkan melalui CSI Driver. Gunakan saat aplikasi melaporkan latensi akses file tinggi atau operasi metadata lambat.

Panel	Deskripsi
FUSE Network I/O	I/O jaringan per pod FUSE. Catatan Jika pod FUSE berjalan di jaringan host, nilai ini mungkin membengkak. Untuk pembacaan akurat, jalankan pod FUSE di jaringan kontainer.
FUSE Memory Usage/Limit (%)	Persentase penggunaan memori saat ini relatif terhadap batas memori untuk setiap pod FUSE. Kosong jika tidak ada batas memori yang ditetapkan.
FUSE CPU Throttled Percent	Persentase pembatasan kecepatan CPU di setiap pod FUSE. Kosong jika tidak ada batas CPU yang ditetapkan.
Meta Ops Per Second	Frekuensi operasi metadata file (GetAttr, ReadDir, Open) per detik pada setiap pod FUSE.
Meta Ops P99 Latency	Latensi P99 operasi metadata (GetAttr, ReadDir, Open) pada setiap pod FUSE.
Read/Write Ops Per Second	Frekuensi operasi baca dan tulis file per detik pada setiap pod FUSE.
Read/Write Ops P99 Latency	Latensi P99 operasi baca dan tulis file pada setiap pod FUSE.

Metrik FUSE (melalui sidecar)

Panel ini memantau kontainer sidecar FUSE yang disuntikkan langsung ke dalam pod aplikasi. Metriknya setara dengan varian CSI, tetapi dibatasi pada kontainer sidecar.

Panel	Deskripsi
FUSE Memory Usage/Limit (%)	Persentase penggunaan memori saat ini relatif terhadap batas memori untuk setiap kontainer sidecar FUSE. Kosong jika tidak ada batas memori yang ditetapkan.
FUSE CPU Throttled Percent	Persentase pembatasan kecepatan CPU di setiap kontainer sidecar FUSE. Kosong jika tidak ada batas CPU yang ditetapkan.
Meta Ops Per Second	Frekuensi operasi metadata (GetAttr, ReadDir, Open) per detik per kontainer sidecar FUSE.
Meta Ops P99 Latency	Latensi P99 operasi metadata (GetAttr, ReadDir, Open) per kontainer sidecar FUSE.
Read/Write Ops Per Second	Frekuensi operasi baca dan tulis file per detik per kontainer sidecar FUSE.
Read/Write Ops P99 Latency	Latensi P99 operasi baca dan tulis file per kontainer sidecar FUSE.