Dasbor Fluid menampilkan metrik observabilitas untuk framework akselerasi data Fluid yang berjalan di kluster ACK Anda. Tersedia dua dasbor:
Dasbor Lapisan Kontrol Fluid — memantau kesehatan dan kinerja komponen lapisan kontrol Fluid: pengontrol dataset, pengontrol runtime, webhook, dan plug-in CSI.
Dasbor Cache Fluid JindoRuntime — memantau efisiensi cache dan penggunaan sumber daya sistem cache JindoRuntime tertentu.
Gunakan dasbor ini untuk mendeteksi kegagalan komponen, mendiagnosis masalah kinerja cache, dan mengidentifikasi peluang optimasi sebelum memengaruhi beban kerja.
Prasyarat
Sebelum memulai, pastikan Anda telah:
Managed Service for Prometheus diaktifkan untuk komponen Fluid. Untuk informasi selengkapnya, lihat Langkah 2: Melihat dasbor Fluid.
Dasbor lapisan kontrol Fluid
Variabel dasbor
Variabel mengatur cakupan dan granularitas data yang ditampilkan di semua panel. Mengubah variabel akan memperbarui semua panel terkait secara bersamaan.
| Variabel | Nilai yang valid | Deskripsi |
|---|---|---|
interval | 1m, 5m, 10m, 30m, 1h, 6h | Durasi siklus pemantauan. Interval yang lebih pendek menunjukkan tren dengan granularitas lebih halus; interval yang lebih panjang meratakan lonjakan. |
quantile | 0.5, 0.75, 0.90, 0.95, 0.99 | Persentil yang digunakan oleh panel latensi dan waktu pemrosesan. Misalnya, 0.90 = P90. |
runtime | JindoRuntime, AlluxioRuntime, JuiceFSRuntime | Jenis runtime yang dipantau. Mengubah variabel ini menyaring semua panel terkait runtime ke runtime yang dipilih. |
Jenis runtime:
JindoRuntime — mesin eksekusi JindoFS, dikembangkan oleh tim Alibaba Cloud Elastic MapReduce (EMR). Dibangun dalam C++, JindoRuntime menyediakan manajemen dataset, caching, dan dukungan Object Storage Service (OSS).
AlluxioRuntime — mesin eksekusi Alluxio open source. Mendukung manajemen dataset, caching, dan akses dipercepat ke persistent volume claims (PVCs), Ceph, dan Cloud Parallel File System (CPFS). Cocok untuk skenario cloud hibrida.
JuiceFSRuntime — mesin akselerasi cache terdistribusi berbasis JuiceFS. Mendukung caching dan akselerasi data berdasarkan skenario. Untuk informasi selengkapnya, lihat Pengenalan JuiceFS.
Panel
Dasbor lapisan kontrol diorganisir menjadi empat kelompok panel. Mulailah dengan Status Berjalan Komponen untuk pemeriksaan kesehatan cepat. Jika ada yang tampak tidak normal, telusuri Indikator Detail Pengontrol Fluid atau Indikator Detail Webhook Fluid untuk mengidentifikasi penyebabnya. Penggunaan Sumber Daya menyediakan data pendukung CPU, memori, dan jaringan untuk semua pod pengontrol.
Status berjalan komponen
Kelompok ini menunjukkan apakah setiap komponen Fluid sedang berjalan dan seberapa sering pod melakukan restart. Restart yang sering merupakan tanda pertama ketidakstabilan.
| Panel | Deskripsi |
|---|---|
| Dataset Controller Ready Replicas | Jumlah pod pengontrol dataset dalam status Running. Jika jumlah ini turun di bawah jumlah replika yang diharapkan, operasi dataset mungkin terhenti. |
| History of Dataset controller restarts | Jumlah restart pod pengontrol dataset. |
| Runtime Number of ready copies of controller | Jumlah pod pengontrol runtime dalam status Running. |
| History Runtime Controller Restart Times | Jumlah restart pod pengontrol runtime. |
| Fluid Webhook ready copies | Jumlah pod webhook Fluid dalam status Running. |
| Number of historical fluid Webhook restarts | Jumlah restart pod webhook Fluid. |
| Fluid CSI Plug-in Ready Copies | Jumlah pod plug-in CSI Fluid dalam status Running. |
| Historical Fluid CSI plug-in restarts | Jumlah restart pod plug-in CSI Fluid. |
| Fluid Component Restart | Lima komponen Fluid teratas dengan jumlah restart terbanyak dalam siklus pemantauan 2 menit terakhir. Gunakan panel ini untuk mengidentifikasi komponen yang perlu diperhatikan. |
Indikator Detail Pengontrol Fluid
Kelompok ini menampilkan metrik kinerja internal pengontrol runtime dan DataLoad. Gunakan saat Anda mengamati rekonsiliasi dataset yang lambat atau peningkatan beban server API Kubernetes.
| Panel | Deskripsi |
|---|---|
| Runtime Controller processing time | Waktu yang dihabiskan pengontrol runtime untuk menangani resource runtime dalam satu siklus pemantauan, ditampilkan sebagai nilai persentil. Nilai tinggi yang berkelanjutan dapat mengindikasikan overload pengontrol. |
| Number of Runtime controller processing failures | Jenis dan jumlah kegagalan selama penanganan resource runtime: kegagalan penerapan runtime dan kegagalan pemeriksaan kesehatan runtime. Nilai bukan nol perlu diselidiki. |
| Runtime Number of controller threads | Jumlah thread aktif saat ini dan jumlah maksimum thread yang didukung oleh pengontrol runtime. Jika jumlah thread aktif mendekati maksimum, pengontrol dapat menjadi bottleneck. |
| DataLoad Controller Threads | Jumlah thread aktif saat ini dan jumlah maksimum thread yang didukung oleh pengontrol DataLoad. |
| Controller Queue Length | Panjang workqueue setiap pengontrol Fluid. Antrean yang terus bertambah mengindikasikan pengontrol tidak mampu mengimbangi permintaan rekonsiliasi. |
| Total number of Kubernetes API requests | Total permintaan yang dikirim oleh semua pod pengontrol Fluid ke server API Kubernetes dalam satu siklus pemantauan. Lonjakan mendadak dapat menyebabkan pembatasan kecepatan pada server API. |
| Runtime Controller Kubernetes API requests | Permintaan dari pengontrol runtime ke server API Kubernetes, dipecah berdasarkan kode status HTTP. Proporsi tinggi respons 4xx atau 5xx mengindikasikan kesalahan konfigurasi atau masalah izin. |
| Total time consumed by unfinished processing of controller | Waktu kumulatif yang dihabiskan setiap pengontrol Fluid untuk tugas yang sedang berlangsung. Nilai tinggi yang terus-menerus menunjukkan tugas tersangkut. |
Indikator detail webhook Fluid
Kelompok ini memantau webhook Fluid, yang mencegat permintaan pembuatan pod untuk menyuntikkan sidecar FUSE. Latensi webhook secara langsung memengaruhi waktu yang dibutuhkan pod baru untuk mulai berjalan.
| Panel | Deskripsi |
|---|---|
| Fluid Webhook Pod CPU Usage | Utilisasi CPU setiap pod webhook Fluid dalam satu siklus pemantauan. |
| Fluid Webhook Pod Memory Usage | Penggunaan memori setiap pod webhook Fluid dalam satu siklus pemantauan. |
| Total number of requests processed in Fluid Webhook | Total permintaan yang ditangani oleh webhook Fluid dalam satu siklus pemantauan. |
| The number of requests processed in each Fluid Webhook Pod | Permintaan yang ditangani oleh setiap pod webhook Fluid individual dalam satu siklus pemantauan. Gunakan ini untuk mendeteksi ketidakseimbangan beban antar replika. |
| Fluid Webhook Request Processing Delay | Latensi pemrosesan permintaan keseluruhan webhook Fluid, sebagai nilai persentil. Latensi P99 yang tinggi memperlambat startup pod di seluruh kluster. |
| Request processing delay of each Fluid Webhook Pod | Latensi pemrosesan permintaan per pod, sebagai nilai persentil. Berguna untuk mengidentifikasi satu pod lambat yang menyebabkan tail latency. |
Penggunaan sumber daya
Kelompok ini menyediakan metrik CPU, memori, dan jaringan untuk semua pod pengontrol Fluid. Gunakan untuk mendeteksi tekanan sumber daya yang dapat menyebabkan masalah yang terlihat di kelompok panel lainnya.
| Panel | Deskripsi |
|---|---|
| CPU usage | Utilisasi CPU setiap pod pengontrol Fluid dalam satu siklus pemantauan. |
| Memory usage | Penggunaan memori setiap pod pengontrol Fluid dalam satu siklus pemantauan. |
| Network Send Rate per Pod | Laju transmisi jaringan setiap pod pengontrol Fluid dalam satu siklus pemantauan. |
| Network Receive Rate per Pod | Laju penerimaan jaringan setiap pod pengontrol Fluid dalam satu siklus pemantauan. |
Dasbor cache Fluid JindoRuntime
Variabel dasbor
Pilih dataset berdasarkan namespace dan nama untuk membatasi semua panel ke sistem cache dataset tersebut.
| Variabel | Deskripsi |
|---|---|
namespace | Namespace dataset target di kluster. |
fluid_dataset | Nama dataset Fluid target di kluster. |
Panel
Dasbor cache JindoRuntime diorganisir menjadi tiga kelompok panel. Mulailah dengan Ikhtisar Dataset untuk memastikan semua pod cache dalam kondisi sehat. Lalu periksa Cache system metrics untuk efisiensi cache dan bandwidth. Jika Anda mencurigai masalah tingkat FUSE — seperti latensi tinggi yang dilaporkan aplikasi — gunakan Metrik FUSE untuk mengisolasi masalah tersebut.
Ikhtisar dataset
| Panel | Deskripsi |
|---|---|
| Ready Pod Num | Jumlah pod siap di setiap komponen sistem cache yang dipilih, termasuk komponen master, worker, dan FUSE. |
| Pod Overview | Informasi dasar tentang pod di setiap komponen: jumlah restart dalam satu jam terakhir, permintaan dan batas sumber daya CPU, serta permintaan dan batas sumber daya memori. |
Metrik sistem cache
Kelompok ini mencakup indikator kesehatan inti cache: seberapa penuh cache tersebut, seberapa efektif data dilayani dari cache, dan berapa banyak bandwidth yang disediakan ke aplikasi.
| Panel | Deskripsi |
|---|---|
| Cache Capacity Usage (%) | Proporsi kapasitas cache yang sedang digunakan. |
| Cache Capacity Usage | Kapasitas cache maksimum yang tersedia beserta penggunaan saat ini, dalam nilai absolut. |
| Cache Hit Ratio Per Minute | Tingkat hit cache per menit dari sistem cache yang dipilih. |
| Read Bytes Per Minute | Pembacaan data per menit, dibagi menjadi hit cache (Cache Hit) dan cache miss yang dilayani dari penyimpanan backend (From Backend). Proporsi From Backend yang tinggi berarti sebagian besar pembacaan melewati cache. |
| Cache System Aggregated Bandwidth | Jumlah lalu lintas outbound di semua antarmuka jaringan pod worker, merepresentasikan total bandwidth yang dikirimkan sistem cache ke aplikasi. Catatan Jika pod worker berjalan di jaringan host, nilai ini mungkin membengkak. Untuk pembacaan akurat, jalankan pod worker di jaringan kontainer. |
| Cache Worker Pod Network I/O | I/O jaringan per pod worker. Catatan Jika pod worker berjalan di jaringan host, nilai ini mungkin membengkak. Untuk pembacaan akurat, jalankan pod worker di jaringan kontainer. |
| Cache System Pod Memory Usage | Penggunaan memori pod master dan worker. Jika pod worker menggunakan memori proses sebagai media cache, kapasitas cache yang dikonsumsi termasuk dalam angka ini. |
| Cache System Pod CPU Usage by Cores | Penggunaan CPU pod master dan worker. |
| Aggregated File Operation Requests | Frekuensi permintaan operasi metadata file yang diagregasi di seluruh sistem cache. Hanya operasi GetAttr dan ReadDir yang dihitung. |
Metrik FUSE (melalui CSI)
Panel ini memantau pod FUSE yang disuntikkan melalui CSI Driver. Gunakan saat aplikasi melaporkan latensi akses file tinggi atau operasi metadata lambat.
| Panel | Deskripsi |
|---|---|
| FUSE Network I/O | I/O jaringan per pod FUSE. Catatan Jika pod FUSE berjalan di jaringan host, nilai ini mungkin membengkak. Untuk pembacaan akurat, jalankan pod FUSE di jaringan kontainer. |
| FUSE Memory Usage/Limit (%) | Persentase penggunaan memori saat ini relatif terhadap batas memori untuk setiap pod FUSE. Kosong jika tidak ada batas memori yang ditetapkan. |
| FUSE CPU Throttled Percent | Persentase pembatasan kecepatan CPU di setiap pod FUSE. Kosong jika tidak ada batas CPU yang ditetapkan. |
| Meta Ops Per Second | Frekuensi operasi metadata file (GetAttr, ReadDir, Open) per detik pada setiap pod FUSE. |
| Meta Ops P99 Latency | Latensi P99 operasi metadata (GetAttr, ReadDir, Open) pada setiap pod FUSE. |
| Read/Write Ops Per Second | Frekuensi operasi baca dan tulis file per detik pada setiap pod FUSE. |
| Read/Write Ops P99 Latency | Latensi P99 operasi baca dan tulis file pada setiap pod FUSE. |
Metrik FUSE (melalui sidecar)
Panel ini memantau kontainer sidecar FUSE yang disuntikkan langsung ke dalam pod aplikasi. Metriknya setara dengan varian CSI, tetapi dibatasi pada kontainer sidecar.
| Panel | Deskripsi |
|---|---|
| FUSE Memory Usage/Limit (%) | Persentase penggunaan memori saat ini relatif terhadap batas memori untuk setiap kontainer sidecar FUSE. Kosong jika tidak ada batas memori yang ditetapkan. |
| FUSE CPU Throttled Percent | Persentase pembatasan kecepatan CPU di setiap kontainer sidecar FUSE. Kosong jika tidak ada batas CPU yang ditetapkan. |
| Meta Ops Per Second | Frekuensi operasi metadata (GetAttr, ReadDir, Open) per detik per kontainer sidecar FUSE. |
| Meta Ops P99 Latency | Latensi P99 operasi metadata (GetAttr, ReadDir, Open) per kontainer sidecar FUSE. |
| Read/Write Ops Per Second | Frekuensi operasi baca dan tulis file per detik per kontainer sidecar FUSE. |
| Read/Write Ops P99 Latency | Latensi P99 operasi baca dan tulis file per kontainer sidecar FUSE. |