Topik ini menjelaskan variabel dan panel dalam dashboard control plane Fluid serta dashboard cache JindoRuntime Fluid. Variabel dashboard menyediakan dimensi berbeda untuk metrik observabilitas Fluid, seperti durasi periode pemantauan, namespace, dan nama dataset. Panel-panel tersebut membantu Anda memahami kesehatan dan performa komponen-komponen Fluid. Anda dapat menggunakan dashboard untuk mengidentifikasi dan menyelesaikan masalah potensial secara cepat serta menemukan peluang optimisasi dalam sistem cache untuk skenario bisnis tertentu.
Prasyarat
Managed Service for Prometheus harus diaktifkan untuk komponen Fluid. Untuk informasi lebih lanjut, lihat Langkah 2: Lihat dashboard Fluid.
Dashboard control plane Fluid
Variabel dashboard
Data pemantauan yang ditampilkan pada panel dashboard Fluid bervariasi berdasarkan nilai variabel dalam dashboard. Anda dapat menyesuaikan nilai-nilai variabel sesuai kebutuhan bisnis. Sebagai contoh, jika Anda mengubah nilai variabel Runtime dari AlluxioRuntime menjadi JindoRuntime, semua panel terkait akan beralih untuk menampilkan data terkait JindoRuntime.
Variabel | Nilai valid | Deskripsi |
interval | 1m, 5m, 10m, 30m, 1h, dan 6h | Durasi siklus pemantauan. |
quantile | 0.5, 0.75, 0.90, 0.95, dan 0.99 | Kuantil yang digunakan oleh beberapa panel saat panel-panel tersebut memvisualisasikan metrik. Sebagai contoh, nilai 0.90 menunjukkan P90. |
runtime |
| Tipe runtime yang digunakan dalam Fluid. Setelah Anda mengubah nilai variabel ini, perubahan tersebut berlaku untuk semua panel terkait runtime.
|
Panel
Grup panel | Panel | Deskripsi |
Component running status | Dataset Controller Ready Replicas | Jumlah pod controller dataset yang berstatus Running di kluster. |
History of Dataset controller restarts | Jumlah kali pod controller dataset telah di-restart di kluster. | |
Runtime Number of ready copies of controller | Jumlah pod controller runtime yang berstatus Running di kluster. | |
History Runtime Controller Restart Times | Jumlah kali pod controller runtime telah di-restart di kluster. | |
Fluid Webhook ready copies | Jumlah pod webhook Fluid yang berstatus Running di kluster. | |
Number of historical fluid Webhook restarts | Jumlah kali pod webhook Fluid telah di-restart di kluster. | |
Fluid CSI Plug-in Ready Copies | Jumlah pod plug-in CSI Fluid yang berstatus Running di kluster. | |
Historical Fluid CSI plug-in restarts | Jumlah kali pod plug-in CSI Fluid telah di-restart di kluster. | |
Fluid Component Restart | Lima komponen Fluid teratas yang paling sering di-restart dalam siklus pemantauan 2 menit. | |
Fluid Controller Detailed Indicator | Runtime Controller processing time | Jumlah waktu yang dihabiskan oleh controller runtime untuk menangani sumber daya runtime dalam siklus pemantauan. Panel menampilkan nilai persentil. |
Number of Runtime controller processing failures | Jenis dan jumlah kegagalan yang terjadi saat controller runtime menangani sumber daya runtime. Jenis kegagalan yang ditampilkan meliputi:
| |
Runtime Number of controller threads | Jumlah thread aktif saat ini dari controller runtime dan jumlah maksimum thread yang didukung oleh controller runtime. | |
DataLoad Controller Threads | Jumlah thread aktif saat ini dari controller DataLoad dan jumlah maksimum thread yang didukung oleh controller DataLoad. | |
Controller Queue Length | Panjang workqueue setiap controller Fluid di kluster. | |
Total number of Kubernetes API requests | Jumlah total permintaan yang dikirim oleh pod controller Fluid ke server API Kubernetes dalam siklus pemantauan. | |
Runtime Controller Kubernetes API requests | Jumlah permintaan yang dikirim oleh controller runtime ke server API Kubernetes dalam siklus pemantauan. Permintaan diklasifikasikan dan ditampilkan berdasarkan kode status yang dikembalikan. | |
Total time consumed by unfinished processing of controller | Jumlah total waktu yang dihabiskan oleh setiap controller Fluid untuk tugas-tugas yang sedang berlangsung. | |
Fluid Webhook Detailed Indicators | Fluid Webhook Pod CPU Usage | Penggunaan CPU setiap pod webhook Fluid dalam siklus pemantauan. |
Fluid Webhook Pod Memory Usage | Penggunaan memori setiap pod webhook Fluid dalam siklus pemantauan. | |
Total number of requests processed in Fluid Webhook | Jumlah total permintaan yang diproses oleh webhook Fluid dalam siklus pemantauan. | |
The number of requests processed in each Fluid Webhook Pod | Jumlah permintaan yang diproses oleh setiap pod webhook Fluid dalam siklus pemantauan. | |
Fluid Webhook Request Processing Delay | Latensi pemrosesan permintaan webhook Fluid dalam siklus pemantauan. Latensi adalah nilai persentil. | |
Request processing delay of each Fluid Webhook Pod | Latensi pemrosesan permintaan setiap pod webhook Fluid dalam siklus pemantauan. Latensi adalah nilai persentil. | |
Resource usage | CPU usage | Penggunaan CPU setiap pod controller Fluid dalam siklus pemantauan. |
Memory usage | Penggunaan memori setiap pod controller Fluid dalam siklus pemantauan. | |
Network Send Rate per Pod | Tingkat pengiriman jaringan setiap pod controller Fluid dalam siklus pemantauan. | |
Network Receive Rate per Pod | Tingkat penerimaan jaringan setiap pod controller Fluid dalam siklus pemantauan. |
Dashboard cache JindoRuntime Fluid
Variabel dashboard
Dashboard cache JindoRuntime Fluid memungkinkan Anda memilih dataset tertentu berdasarkan variabel dashboard dan melihat metrik relevan dari sistem cache JindoRuntime yang terkait dengan dataset tersebut.
Variabel | Deskripsi |
namespace | Namespace yang ada di kluster. |
fluid_dataset | Nama dataset Fluid yang ada di kluster. |
Panel
Grup panel | Panel | Deskripsi |
Dataset Overview | Ready Pod Num
| Jumlah pod siap pakai di setiap komponen sistem cache yang dipilih, termasuk komponen master, worker, dan FUSE sistem cache. |
Pod Overview
| Informasi dasar tentang pod di setiap komponen sistem cache yang dipilih, termasuk jumlah restart dalam satu jam terakhir, permintaan dan batas sumber daya CPU, serta permintaan dan batas sumber daya memori. | |
Cache System Metrics
| Cache Capacity Usage (%)
| Proporsi kapasitas cache yang digunakan oleh sistem cache yang dipilih. |
Cache Capacity Usage
| Kapasitas cache maksimum yang tersedia dan penggunaan kapasitas saat ini dari sistem cache yang dipilih. | |
Cache Hit Ratio Per Minute | Tingkat hit cache akses data sistem cache yang dipilih per menit. | |
Read Bytes Per Minute | Jumlah pembacaan data per menit yang dihitung oleh sistem cache yang dipilih, termasuk jumlah total pembacaan data saat cache hit (Cache Hit) dan jumlah total pembacaan data saat cache miss (From Backend). | |
Cache System Aggregated Bandwidth | Bandwidth agregat yang disediakan oleh sistem cache yang dipilih untuk aplikasi. Bandwidth agregat adalah jumlah lalu lintas keluar dari setiap network interface controller pod worker. Jika pod worker berjalan di jaringan host, nilainya mungkin meningkat. Untuk mendapatkan data bandwidth agregat aktual sistem cache, pastikan pod worker berjalan di jaringan kontainer. | |
Cache Worker Pod Network I/O | Status I/O jaringan setiap pod worker dalam sistem cache yang dipilih. Jika pod worker berjalan di jaringan host, nilainya mungkin meningkat. Untuk mendapatkan data bandwidth agregat aktual sistem cache, pastikan pod worker berjalan di jaringan kontainer. | |
Cache System Pod Memory Usage | Penggunaan memori pod master dan worker dalam sistem cache yang dipilih. Jika memori proses pod worker digunakan sebagai media cache, kapasitas cache yang ditempati oleh setiap komponen worker termasuk dalam penggunaan memori pod. | |
Cache System Pod CPU Usage by Cores | Penggunaan CPU pod master dan worker dalam sistem cache yang dipilih. | |
Aggregated File Operation Requests | Frekuensi permintaan operasi metadata file yang dihitung oleh sistem cache yang dipilih. Hanya frekuensi permintaan operasi metadata GetAttr dan ReadDir yang dihitung. | |
FUSE Metrics (via CSI)
| FUSE Network I/O | Status I/O jaringan setiap pod FUSE dalam sistem cache yang dipilih. Jika pod FUSE berjalan di jaringan host, nilainya mungkin meningkat. Untuk mendapatkan data bandwidth agregat aktual sistem cache, pastikan pod FUSE berjalan di jaringan kontainer. |
FUSE Memory Usage/Limit (%) | Persentase penggunaan memori saat ini setiap pod FUSE relatif terhadap batas sumber daya memori dalam sistem cache yang dipilih. Jika tidak ada batas memori yang ditentukan untuk pod FUSE, nilainya dibiarkan kosong. | |
FUSE CPU Throttled Percent | Persentase throttling CPU di setiap pod FUSE dalam sistem cache yang dipilih. Jika tidak ada batas sumber daya CPU yang ditentukan untuk pod FUSE, nilainya dibiarkan kosong. | |
Meta Ops Per Second | Frekuensi operasi metadata file per detik untuk setiap pod FUSE dalam sistem cache yang dipilih. Hanya frekuensi permintaan operasi metadata GetAttr, ReadDir, dan Open yang dihitung. | |
Meta Ops P99 Latency | Latensi P99 operasi metadata pada setiap pod FUSE dalam sistem cache yang dipilih. Hanya frekuensi permintaan operasi metadata GetAttr, ReadDir, dan Open yang dihitung. | |
Read/Write Ops Per Second | Frekuensi operasi baca/tulis file per detik untuk setiap pod FUSE dalam sistem cache yang dipilih. | |
Read/Write Ops P99 Latency | Latensi P99 operasi baca/tulis file untuk setiap pod FUSE dalam sistem cache yang dipilih. | |
FUSE Metrics (via Sidecar) | FUSE Memory Usage/Limit (%) | Persentase penggunaan memori saat ini setiap kontainer sidecar FUSE relatif terhadap batas sumber daya memori dalam sistem cache yang dipilih. Jika tidak ada batas sumber daya memori kontainer sidecar FUSE yang ditentukan, nilainya dibiarkan kosong. |
FUSE CPU Throttled Percent | Persentase throttling CPU di setiap kontainer sidecar FUSE dalam sistem cache yang dipilih. Jika tidak ada batas sumber daya CPU kontainer sidecar FUSE yang ditentukan, nilainya dibiarkan kosong. | |
Meta Ops Per Second | Frekuensi operasi metadata file per detik yang dihitung untuk setiap kontainer sidecar FUSE dalam sistem cache yang dipilih. Hanya frekuensi permintaan operasi metadata GetAttr, ReadDir, dan Open yang dihitung. | |
Meta Ops P99 Latency | Latensi P99 operasi metadata pada setiap kontainer sidecar FUSE dalam sistem cache yang dipilih. Hanya frekuensi permintaan operasi metadata GetAttr, ReadDir, dan Open yang dihitung. | |
Read/Write Ops Per Second | Frekuensi operasi baca/tulis file per detik yang dihitung oleh setiap kontainer sidecar FUSE dalam sistem cache yang dipilih. | |
Read/Write Ops P99 Latency | Latensi P99 operasi baca/tulis file yang dihitung untuk setiap kontainer sidecar FUSE dalam sistem cache yang dipilih. |