All Products
Search
Document Center

Container Service for Kubernetes:Parameter dasbor Fluid

Last Updated:Mar 26, 2026

Dasbor Fluid menampilkan metrik observabilitas untuk framework akselerasi data Fluid yang berjalan di kluster ACK Anda. Tersedia dua dasbor:

  • Dasbor Lapisan Kontrol Fluid — memantau kesehatan dan kinerja komponen lapisan kontrol Fluid: pengontrol dataset, pengontrol runtime, webhook, dan plug-in CSI.

  • Dasbor Cache Fluid JindoRuntime — memantau efisiensi cache dan penggunaan sumber daya sistem cache JindoRuntime tertentu.

Gunakan dasbor ini untuk mendeteksi kegagalan komponen, mendiagnosis masalah kinerja cache, dan mengidentifikasi peluang optimasi sebelum memengaruhi beban kerja.

Prasyarat

Sebelum memulai, pastikan Anda telah:

Dasbor lapisan kontrol Fluid

Variabel dasbor

Variabel mengatur cakupan dan granularitas data yang ditampilkan di semua panel. Mengubah variabel akan memperbarui semua panel terkait secara bersamaan.

VariabelNilai yang validDeskripsi
interval1m, 5m, 10m, 30m, 1h, 6hDurasi siklus pemantauan. Interval yang lebih pendek menunjukkan tren dengan granularitas lebih halus; interval yang lebih panjang meratakan lonjakan.
quantile0.5, 0.75, 0.90, 0.95, 0.99Persentil yang digunakan oleh panel latensi dan waktu pemrosesan. Misalnya, 0.90 = P90.
runtimeJindoRuntime, AlluxioRuntime, JuiceFSRuntimeJenis runtime yang dipantau. Mengubah variabel ini menyaring semua panel terkait runtime ke runtime yang dipilih.

Jenis runtime:

  • JindoRuntime — mesin eksekusi JindoFS, dikembangkan oleh tim Alibaba Cloud Elastic MapReduce (EMR). Dibangun dalam C++, JindoRuntime menyediakan manajemen dataset, caching, dan dukungan Object Storage Service (OSS).

  • AlluxioRuntime — mesin eksekusi Alluxio open source. Mendukung manajemen dataset, caching, dan akses dipercepat ke persistent volume claims (PVCs), Ceph, dan Cloud Parallel File System (CPFS). Cocok untuk skenario cloud hibrida.

  • JuiceFSRuntime — mesin akselerasi cache terdistribusi berbasis JuiceFS. Mendukung caching dan akselerasi data berdasarkan skenario. Untuk informasi selengkapnya, lihat Pengenalan JuiceFS.

Panel

Dasbor lapisan kontrol diorganisir menjadi empat kelompok panel. Mulailah dengan Status Berjalan Komponen untuk pemeriksaan kesehatan cepat. Jika ada yang tampak tidak normal, telusuri Indikator Detail Pengontrol Fluid atau Indikator Detail Webhook Fluid untuk mengidentifikasi penyebabnya. Penggunaan Sumber Daya menyediakan data pendukung CPU, memori, dan jaringan untuk semua pod pengontrol.

Status berjalan komponen

Kelompok ini menunjukkan apakah setiap komponen Fluid sedang berjalan dan seberapa sering pod melakukan restart. Restart yang sering merupakan tanda pertama ketidakstabilan.

PanelDeskripsi
Dataset Controller Ready ReplicasJumlah pod pengontrol dataset dalam status Running. Jika jumlah ini turun di bawah jumlah replika yang diharapkan, operasi dataset mungkin terhenti.
History of Dataset controller restartsJumlah restart pod pengontrol dataset.
Runtime Number of ready copies of controllerJumlah pod pengontrol runtime dalam status Running.
History Runtime Controller Restart TimesJumlah restart pod pengontrol runtime.
Fluid Webhook ready copiesJumlah pod webhook Fluid dalam status Running.
Number of historical fluid Webhook restartsJumlah restart pod webhook Fluid.
Fluid CSI Plug-in Ready CopiesJumlah pod plug-in CSI Fluid dalam status Running.
Historical Fluid CSI plug-in restartsJumlah restart pod plug-in CSI Fluid.
Fluid Component RestartLima komponen Fluid teratas dengan jumlah restart terbanyak dalam siklus pemantauan 2 menit terakhir. Gunakan panel ini untuk mengidentifikasi komponen yang perlu diperhatikan.

Indikator Detail Pengontrol Fluid

Kelompok ini menampilkan metrik kinerja internal pengontrol runtime dan DataLoad. Gunakan saat Anda mengamati rekonsiliasi dataset yang lambat atau peningkatan beban server API Kubernetes.

PanelDeskripsi
Runtime Controller processing timeWaktu yang dihabiskan pengontrol runtime untuk menangani resource runtime dalam satu siklus pemantauan, ditampilkan sebagai nilai persentil. Nilai tinggi yang berkelanjutan dapat mengindikasikan overload pengontrol.
Number of Runtime controller processing failuresJenis dan jumlah kegagalan selama penanganan resource runtime: kegagalan penerapan runtime dan kegagalan pemeriksaan kesehatan runtime. Nilai bukan nol perlu diselidiki.
Runtime Number of controller threadsJumlah thread aktif saat ini dan jumlah maksimum thread yang didukung oleh pengontrol runtime. Jika jumlah thread aktif mendekati maksimum, pengontrol dapat menjadi bottleneck.
DataLoad Controller ThreadsJumlah thread aktif saat ini dan jumlah maksimum thread yang didukung oleh pengontrol DataLoad.
Controller Queue LengthPanjang workqueue setiap pengontrol Fluid. Antrean yang terus bertambah mengindikasikan pengontrol tidak mampu mengimbangi permintaan rekonsiliasi.
Total number of Kubernetes API requestsTotal permintaan yang dikirim oleh semua pod pengontrol Fluid ke server API Kubernetes dalam satu siklus pemantauan. Lonjakan mendadak dapat menyebabkan pembatasan kecepatan pada server API.
Runtime Controller Kubernetes API requestsPermintaan dari pengontrol runtime ke server API Kubernetes, dipecah berdasarkan kode status HTTP. Proporsi tinggi respons 4xx atau 5xx mengindikasikan kesalahan konfigurasi atau masalah izin.
Total time consumed by unfinished processing of controllerWaktu kumulatif yang dihabiskan setiap pengontrol Fluid untuk tugas yang sedang berlangsung. Nilai tinggi yang terus-menerus menunjukkan tugas tersangkut.

Indikator detail webhook Fluid

Kelompok ini memantau webhook Fluid, yang mencegat permintaan pembuatan pod untuk menyuntikkan sidecar FUSE. Latensi webhook secara langsung memengaruhi waktu yang dibutuhkan pod baru untuk mulai berjalan.

PanelDeskripsi
Fluid Webhook Pod CPU UsageUtilisasi CPU setiap pod webhook Fluid dalam satu siklus pemantauan.
Fluid Webhook Pod Memory UsagePenggunaan memori setiap pod webhook Fluid dalam satu siklus pemantauan.
Total number of requests processed in Fluid WebhookTotal permintaan yang ditangani oleh webhook Fluid dalam satu siklus pemantauan.
The number of requests processed in each Fluid Webhook PodPermintaan yang ditangani oleh setiap pod webhook Fluid individual dalam satu siklus pemantauan. Gunakan ini untuk mendeteksi ketidakseimbangan beban antar replika.
Fluid Webhook Request Processing DelayLatensi pemrosesan permintaan keseluruhan webhook Fluid, sebagai nilai persentil. Latensi P99 yang tinggi memperlambat startup pod di seluruh kluster.
Request processing delay of each Fluid Webhook PodLatensi pemrosesan permintaan per pod, sebagai nilai persentil. Berguna untuk mengidentifikasi satu pod lambat yang menyebabkan tail latency.

Penggunaan sumber daya

Kelompok ini menyediakan metrik CPU, memori, dan jaringan untuk semua pod pengontrol Fluid. Gunakan untuk mendeteksi tekanan sumber daya yang dapat menyebabkan masalah yang terlihat di kelompok panel lainnya.

PanelDeskripsi
CPU usageUtilisasi CPU setiap pod pengontrol Fluid dalam satu siklus pemantauan.
Memory usagePenggunaan memori setiap pod pengontrol Fluid dalam satu siklus pemantauan.
Network Send Rate per PodLaju transmisi jaringan setiap pod pengontrol Fluid dalam satu siklus pemantauan.
Network Receive Rate per PodLaju penerimaan jaringan setiap pod pengontrol Fluid dalam satu siklus pemantauan.

Dasbor cache Fluid JindoRuntime

Variabel dasbor

Pilih dataset berdasarkan namespace dan nama untuk membatasi semua panel ke sistem cache dataset tersebut.

VariabelDeskripsi
namespaceNamespace dataset target di kluster.
fluid_datasetNama dataset Fluid target di kluster.

Panel

Dasbor cache JindoRuntime diorganisir menjadi tiga kelompok panel. Mulailah dengan Ikhtisar Dataset untuk memastikan semua pod cache dalam kondisi sehat. Lalu periksa Cache system metrics untuk efisiensi cache dan bandwidth. Jika Anda mencurigai masalah tingkat FUSE — seperti latensi tinggi yang dilaporkan aplikasi — gunakan Metrik FUSE untuk mengisolasi masalah tersebut.

Ikhtisar dataset

PanelDeskripsi
Ready Pod NumJumlah pod siap di setiap komponen sistem cache yang dipilih, termasuk komponen master, worker, dan FUSE.
Pod OverviewInformasi dasar tentang pod di setiap komponen: jumlah restart dalam satu jam terakhir, permintaan dan batas sumber daya CPU, serta permintaan dan batas sumber daya memori.

Metrik sistem cache

Kelompok ini mencakup indikator kesehatan inti cache: seberapa penuh cache tersebut, seberapa efektif data dilayani dari cache, dan berapa banyak bandwidth yang disediakan ke aplikasi.

PanelDeskripsi
Cache Capacity Usage (%)Proporsi kapasitas cache yang sedang digunakan.
Cache Capacity UsageKapasitas cache maksimum yang tersedia beserta penggunaan saat ini, dalam nilai absolut.
Cache Hit Ratio Per MinuteTingkat hit cache per menit dari sistem cache yang dipilih.
Read Bytes Per MinutePembacaan data per menit, dibagi menjadi hit cache (Cache Hit) dan cache miss yang dilayani dari penyimpanan backend (From Backend). Proporsi From Backend yang tinggi berarti sebagian besar pembacaan melewati cache.
Cache System Aggregated BandwidthJumlah lalu lintas outbound di semua antarmuka jaringan pod worker, merepresentasikan total bandwidth yang dikirimkan sistem cache ke aplikasi.
Catatan

Jika pod worker berjalan di jaringan host, nilai ini mungkin membengkak. Untuk pembacaan akurat, jalankan pod worker di jaringan kontainer.

Cache Worker Pod Network I/OI/O jaringan per pod worker.
Catatan

Jika pod worker berjalan di jaringan host, nilai ini mungkin membengkak. Untuk pembacaan akurat, jalankan pod worker di jaringan kontainer.

Cache System Pod Memory UsagePenggunaan memori pod master dan worker. Jika pod worker menggunakan memori proses sebagai media cache, kapasitas cache yang dikonsumsi termasuk dalam angka ini.
Cache System Pod CPU Usage by CoresPenggunaan CPU pod master dan worker.
Aggregated File Operation RequestsFrekuensi permintaan operasi metadata file yang diagregasi di seluruh sistem cache. Hanya operasi GetAttr dan ReadDir yang dihitung.

Metrik FUSE (melalui CSI)

Panel ini memantau pod FUSE yang disuntikkan melalui CSI Driver. Gunakan saat aplikasi melaporkan latensi akses file tinggi atau operasi metadata lambat.

PanelDeskripsi
FUSE Network I/OI/O jaringan per pod FUSE.
Catatan

Jika pod FUSE berjalan di jaringan host, nilai ini mungkin membengkak. Untuk pembacaan akurat, jalankan pod FUSE di jaringan kontainer.

FUSE Memory Usage/Limit (%)Persentase penggunaan memori saat ini relatif terhadap batas memori untuk setiap pod FUSE. Kosong jika tidak ada batas memori yang ditetapkan.
FUSE CPU Throttled PercentPersentase pembatasan kecepatan CPU di setiap pod FUSE. Kosong jika tidak ada batas CPU yang ditetapkan.
Meta Ops Per SecondFrekuensi operasi metadata file (GetAttr, ReadDir, Open) per detik pada setiap pod FUSE.
Meta Ops P99 LatencyLatensi P99 operasi metadata (GetAttr, ReadDir, Open) pada setiap pod FUSE.
Read/Write Ops Per SecondFrekuensi operasi baca dan tulis file per detik pada setiap pod FUSE.
Read/Write Ops P99 LatencyLatensi P99 operasi baca dan tulis file pada setiap pod FUSE.

Metrik FUSE (melalui sidecar)

Panel ini memantau kontainer sidecar FUSE yang disuntikkan langsung ke dalam pod aplikasi. Metriknya setara dengan varian CSI, tetapi dibatasi pada kontainer sidecar.

PanelDeskripsi
FUSE Memory Usage/Limit (%)Persentase penggunaan memori saat ini relatif terhadap batas memori untuk setiap kontainer sidecar FUSE. Kosong jika tidak ada batas memori yang ditetapkan.
FUSE CPU Throttled PercentPersentase pembatasan kecepatan CPU di setiap kontainer sidecar FUSE. Kosong jika tidak ada batas CPU yang ditetapkan.
Meta Ops Per SecondFrekuensi operasi metadata (GetAttr, ReadDir, Open) per detik per kontainer sidecar FUSE.
Meta Ops P99 LatencyLatensi P99 operasi metadata (GetAttr, ReadDir, Open) per kontainer sidecar FUSE.
Read/Write Ops Per SecondFrekuensi operasi baca dan tulis file per detik per kontainer sidecar FUSE.
Read/Write Ops P99 LatencyLatensi P99 operasi baca dan tulis file per kontainer sidecar FUSE.