All Products
Search
Document Center

Container Service for Kubernetes:Aktifkan pemantauan komponen Fluid

Last Updated:Apr 03, 2026

Fluid adalah mesin orkestrasi dan akselerasi dataset terdistribusi open-source yang native untuk Kubernetes, dirancang untuk aplikasi berintensitas data di lingkungan cloud-native, seperti data besar dan artificial intelligence. Fluid menyediakan abstraksi dataset terpadu, plugin engine data yang dapat diperluas, operasi data otomatis, akselerasi data umum, serta independensi runtime. Managed Service for Prometheus mendukung instalasi satu klik komponen Fluid dan mencakup dasbor pemantauan siap pakai. Topik ini menjelaskan cara menggunakan Managed Service for Prometheus untuk memantau Fluid.

Prasyarat

  • Managed Service for Prometheus telah diaktifkan untuk kluster ACK atau kluster ACK Serverless Anda. Untuk informasi selengkapnya, lihat Managed Service for Prometheus.

  • Suite AI cloud-native telah dideploy, dan akselerasi data Fluid telah diaktifkan. Untuk informasi selengkapnya, lihat Deploy suite AI cloud-native.

    • Untuk menggunakan semua fitur dasbor lapisan kontrol Fluid, pastikan versi ack-fluid 0.9.7 atau lebih baru sedang berjalan di kluster.

    • Untuk menggunakan semua fitur dasbor sistem cache Fluid JindoRuntime, pastikan versi ack-fluid 1.0.11 atau lebih baru sedang berjalan di kluster.

Batasan

Dasbor sistem cache hanya dapat memantau komponen runtime cache JindoRuntime (yang menggunakan engine cache JindoCache).

Langkah 1: Integrasikan Fluid

  1. Masuk ke ARMS console.

  2. Di panel navigasi kiri, klik integration center. Di bagian artificial intelligence, klik kartu Fluid.

  3. Di halaman Fluid, pada bagian select container service cluster, pilih kluster target. Jika komponen Fluid sudah terinstal, Anda tidak perlu menginstalnya kembali.

  4. Di bagian Configuration Information, atur parameter dan klik OK.

    Parameter

    Deskripsi

    integration name (optional)

    Nama unik untuk instans pemantauan Fluid. Anda dapat mengosongkan bidang ini.

    metric collection interval (s)

    Interval pengumpulan metrik.

  5. Anda dapat melihat komponen yang telah diintegrasikan di halaman integration management di ARMS console.

    1. Masuk ke ARMS console.

    2. Di panel navigasi kiri, klik integration management. Di tab integrated components, klik kartu Fluid.

    3. Di tab environment list, klik View Details di kolom Actions untuk kluster target guna melihat detail seperti komponen Fluid dan aturan alert dasbor.

Langkah 2: Lihat dasbor Fluid

ACK console

  1. Masuk ke ACK console. Di panel navigasi kiri, klik Clusters.

  2. Di halaman Clusters, klik kluster ACK atau kluster ACK Serverless yang berisi komponen Fluid. Di panel navigasi sisi kiri, pilih Operations > Prometheus Monitoring.

  3. Di halaman Prometheus Monitoring, pilih Others untuk melihat dasbor lapisan kontrol Fluid.

    Dasbor ini menampilkan metrik dari Prometheus Monitoring, termasuk status berjalan komponen Fluid, latensi pemrosesan untuk controller Fluid, QPS dan latensi permintaan webhook Fluid, serta penggunaan sumber daya setiap komponen. Untuk informasi selengkapnya, lihat parameter dasbor pemantauan Fluid.

    • Bagian Component Running Status menunjukkan jumlah pod yang siap, jumlah restart historis, dan waktu restart untuk komponen lapisan kontrol Fluid.组件运行状态

    • Bagian Fluid Controller Detailed Metrics menunjukkan tingkat beban kerja, kegagalan pemrosesan, dan permintaan API Kubernetes dari komponen controller Fluid.控制器详细指标

    • Bagian Fluid Webhook Detailed Metrics menunjukkan penggunaan sumber daya, jumlah permintaan yang diproses, dan latensi pemrosesan permintaan untuk komponen webhook Fluid.webhook详细指标

    • Bagian Resource Usage menunjukkan penggunaan sumber daya dan laju lalu lintas jaringan untuk semua komponen lapisan kontrol Fluid.资源使用

  4. Di halaman Prometheus Monitoring, pilih Others untuk melihat dasbor sistem cache Fluid JindoRuntime.

    Dasbor sistem cache Fluid JindoRuntime menampilkan detail tentang sistem cache Fluid JindoRuntime. Dasbor ini mencakup ikhtisar dataset, metrik sistem cache, dan metrik klien FUSE. Untuk informasi selengkapnya, lihat parameter dasbor pemantauan Fluid.

    • Bagian Dataset Overview memberikan ikhtisar dataset Fluid yang dipilih, termasuk jumlah pod komponen Master, Worker, dan FUSE yang sedang berjalan dalam sistem cache, serta konfigurasi sumber daya setiap pod.

      image

    • Bagian Cache System Metrics menampilkan metrik sisi server untuk sistem cache yang dipilih, termasuk kapasitas cache yang digunakan, tingkat hit cache, bandwidth agregat, dan QPS untuk operasi metadata.

      image

    • Bagian FUSE Metrics (via CSI) menampilkan metrik sisi klien untuk sistem file FUSE yang dimount dengan plugin Fluid CSI di pod FUSE. Metrik tersebut mencakup I/O jaringan, latensi dan QPS operasi metadata, serta latensi dan QPS operasi baca/tulis untuk setiap pod FUSE.

      image

    • Bagian FUSE Metrics (via Sidecar) menampilkan metrik sisi klien untuk sistem file FUSE yang dimount di kontainer sidecar FUSE Fluid. Metrik tersebut mencakup latensi dan QPS operasi metadata, serta latensi dan QPS operasi baca/tulis.

      image

ARMS console

  1. Masuk ke ARMS console.

  2. Di panel navigasi sisi kiri, klik Integration Center. Di bagian Component Type, pilih Fluid, klik tab Dashboard, lalu klik Fluid Control Plane di bagian bawah halaman untuk melihat dasbor lapisan kontrol Fluid.

    Dasbor ini menampilkan metrik dari Prometheus Monitoring, termasuk status berjalan komponen Fluid, latensi pemrosesan untuk controller Fluid, QPS dan latensi permintaan webhook Fluid, serta penggunaan sumber daya setiap komponen. Untuk informasi selengkapnya, lihat parameter dasbor pemantauan Fluid.

    • Bagian Component Running Status menunjukkan jumlah pod yang siap, jumlah restart historis, dan waktu restart untuk komponen lapisan kontrol Fluid.

    • Bagian Fluid Controller Detailed Metrics menunjukkan tingkat beban kerja, kegagalan pemrosesan, dan permintaan API Kubernetes dari komponen controller Fluid.

    • Bagian Fluid Webhook Detailed Metrics menunjukkan penggunaan sumber daya, jumlah permintaan yang diproses, dan latensi pemrosesan permintaan untuk komponen webhook Fluid.

    • Bagian Resource Usage menunjukkan penggunaan sumber daya dan laju lalu lintas jaringan untuk semua komponen lapisan kontrol Fluid.

  3. Di panel navigasi sisi kiri, klik Integration Center. Di bagian Component Type, pilih Fluid, klik tab Dashboard, lalu klik Fluid JindoRuntime Dashboard di bagian bawah halaman untuk melihat dasbor sistem cache Fluid JindoRuntime.

    • Bagian Dataset Overview memberikan ikhtisar dataset Fluid yang dipilih, termasuk jumlah pod komponen Master, Worker, dan FUSE yang sedang berjalan dalam sistem cache, serta konfigurasi sumber daya setiap pod.

    • Bagian Cache System Metrics menampilkan metrik sisi server untuk sistem cache yang dipilih, termasuk kapasitas cache yang digunakan, tingkat hit cache, bandwidth agregat, dan QPS untuk operasi metadata.

    • Bagian FUSE Metrics (via CSI) menampilkan metrik sisi klien untuk sistem file FUSE yang dimount dengan plugin Fluid CSI di pod FUSE. Metrik tersebut mencakup I/O jaringan, latensi dan QPS operasi metadata, serta latensi dan QPS operasi baca/tulis untuk setiap pod FUSE.

    • Bagian FUSE Metrics (via Sidecar) menampilkan metrik sisi klien untuk sistem file FUSE yang dimount di kontainer sidecar FUSE Fluid. Metrik tersebut mencakup latensi dan QPS operasi metadata, serta latensi dan QPS operasi baca/tulis.

Metrik

Tabel berikut mencantumkan metrik yang digunakan oleh komponen lapisan kontrol Fluid.

Metric

Tipe

Deskripsi

dataset_ufs_total_size

Gauge

Total ukuran dataset yang dimount oleh resource Dataset aktif di kluster.

dataset_ufs_file_num

Gauge

Jumlah file dalam dataset yang dimount oleh resource Dataset aktif di kluster.

runtime_setup_error_total

Counter

Total jumlah operasi setup runtime yang gagal selama reconciliasi controller.

runtime_sync_healthcheck_error_total

Counter

Total jumlah operasi pemeriksaan kesehatan runtime yang gagal selama reconciliasi controller.

controller_runtime_reconcile_time_seconds_bucket

Histogram

Durasi loop reconciliasi controller.

controller_runtime_reconcile_errors_total

Counter

Total jumlah kegagalan reconciliasi controller.

controller_runtime_reconcile_total

Counter

Total jumlah loop reconciliasi controller yang telah selesai.

controller_runtime_max_concurrent_reconciles

Gauge

Jumlah maksimum korutin reconciliasi yang tersedia di controller.

controller_runtime_active_workers

Gauge

Jumlah korutin reconciliasi yang sedang aktif di controller.

workqueue_adds_total

Counter

Total jumlah event add yang diproses oleh workqueue controller.

workqueue_depth

Gauge

Kedalaman saat ini dari workqueue controller.

workqueue_queue_duration_seconds_bucket

Histogram

Waktu yang dihabiskan suatu item menunggu di workqueue controller sebelum diproses.

workqueue_work_duration_seconds_bucket

Histogram

Distribusi waktu yang dibutuhkan untuk memproses item dari workqueue.

workqueue_unfinished_work_seconds

Gauge

Total durasi tugas yang belum selesai yang sedang diproses oleh workqueue.

workqueue_longest_running_processor_seconds

Gauge

Waktu pemrosesan terpanjang yang tercatat untuk satu tugas.

rest_client_requests_total

Counter

Jumlah permintaan HTTP, dipecah berdasarkan kode status, metode, dan host.

rest_client_request_duration_seconds_bucket

Histogram

Latensi permintaan HTTP, dipecah berdasarkan verb dan URL.

controller_runtime_webhook_requests_in_flight

Gauge

Jumlah permintaan webhook yang sedang diproses.

controller_runtime_webhook_requests_total

Counter

Total jumlah permintaan yang diproses oleh webhook.

controller_runtime_webhook_latency_seconds_bucket

Histogram

Latensi permintaan yang diproses oleh webhook.

process_cpu_seconds_total

Counter

Total waktu CPU yang dikonsumsi oleh proses, dalam detik.

process_resident_memory_bytes

Gauge

Ukuran memori resident proses, dalam byte.

Tabel berikut mencantumkan metrik yang diekspos oleh server JindoCache untuk dasbor cache Fluid JindoRuntime.

Metric

Tipe

Deskripsi

jindocache_server_total_stsnodes_num

Gauge

Jumlah replika komponen worker aktif dalam cache terdistribusi.

jindocache_server_total_disk_cap

Gauge

Kapasitas cache maksimum untuk media berbasis disk (termasuk RAM disk seperti tmpfs) dalam cache terdistribusi.

jindocache_server_total_used_disk_cap

Gauge

Total ruang cache yang digunakan pada media berbasis disk (termasuk RAM disk seperti tmpfs) dalam cache terdistribusi.

jindocache_server_total_mem_cap

Gauge

Kapasitas cache maksimum yang disimpan dalam memori proses di dalam cache terdistribusi.

jindocache_server_total_used_mem_cap

Gauge

Total ruang cache yang digunakan dalam memori proses di dalam cache terdistribusi.

jindocache_server_total_used_rocksdb_cap

Gauge

Kapasitas RocksDB yang digunakan dalam cache terdistribusi.

jindocache_server_backend_read_bytes_total

Gauge

Total jumlah data yang dibaca dari penyimpanan backend selama pengambilan asal, dalam byte.

Pengambilan asal terjadi ketika data yang diminta tidak ditemukan di cache terdistribusi JindoCache dan harus diambil dari sistem penyimpanan backend.

jindocache_server_backend_read_time_total

Gauge

Total waktu yang dihabiskan untuk membaca data dari penyimpanan backend selama pengambilan asal, dalam mikrodetik.

jindocache_server_backend_readop_num_total

Gauge

Total jumlah operasi baca dari penyimpanan backend selama pengambilan asal. Jumlah ini sesuai dengan jumlah blok di JindoCache.

jindocache_server_backend_read_bytes_time_total_window

Gauge

Waktu yang dihabiskan untuk membaca data dari penyimpanan backend selama pengambilan asal dalam jendela satu menit, dalam satuan mikrodetik.

jindocache_server_backend_read_bytes_total_window

Gauge

Total jumlah data yang dibaca dari penyimpanan backend selama pengambilan asal dalam jendela satu menit, dalam byte.

jindocache_server_remote_read_bytes_total

Gauge

Total jumlah data yang dibaca dari hit cache jarak jauh dalam kluster yang sama, dalam byte.

Hit cache jarak jauh terjadi ketika data yang diminta ada di cache terdistribusi JindoCache tetapi berada di node yang berbeda dari aplikasi.

jindocache_server_remote_read_time_total

Gauge

Total waktu yang dihabiskan untuk operasi baca hit cache jarak jauh dalam kluster yang sama, dalam mikrodetik.

jindocache_server_remote_readop_num_total

Gauge

Total jumlah operasi baca hit cache jarak jauh dalam kluster yang sama.

jindocache_server_remote_read_bytes_time_total_window

Gauge

Waktu yang dihabiskan untuk operasi baca hit cache jarak jauh dalam jendela satu menit, dalam mikrodetik.

jindocache_server_remote_read_bytes_total_window

Gauge

Total jumlah data yang dibaca dari hit cache jarak jauh dalam jendela satu menit, dalam byte.

jindocache_server_local_read_bytes_total

Gauge

Total jumlah data yang dibaca dari hit cache lokal dalam kluster yang sama, dalam byte.

Hit cache lokal terjadi ketika data yang diminta ada di cache terdistribusi JindoCache pada node yang sama dengan aplikasi.

jindocache_server_local_read_time_total

Gauge

Total waktu yang dihabiskan untuk operasi baca hit cache lokal dalam kluster yang sama, dalam mikrodetik.

jindocache_server_local_readop_num_total

Gauge

Total jumlah operasi baca hit cache lokal dalam kluster yang sama.

jindocache_server_local_read_bytes_time_total_window

Gauge

Waktu yang dihabiskan untuk operasi baca hit cache lokal dalam jendela satu menit, dalam mikrodetik.

jindocache_server_local_read_bytes_total_window

Gauge

Total jumlah data yang dibaca dari hit cache lokal dalam jendela satu menit, dalam byte.

jindocache_server_ns_filelet_op_count_total

Gauge

Total jumlah operasi metadata file (termasuk getAttr dan listStatus) yang dilacak oleh komponen master JindoCache.

jindocache_server_ns_filelet_op_time_total

Gauge

Total waktu yang dihabiskan untuk memproses operasi metadata file (termasuk getAttr dan listStatus) oleh komponen master JindoCache.

jindocache_server_ns_get_attr_op_total

Gauge

Total jumlah operasi getAttr yang dilacak oleh komponen master JindoCache.

jindocache_server_ns_get_attr_time_total

Gauge

Total waktu yang dihabiskan untuk memproses operasi getAttr oleh komponen master JindoCache.

jindocache_server_ns_get_attr_fallback_op_total

Gauge

Total jumlah kali komponen master JindoCache melakukan pengambilan asal dari penyimpanan backend untuk mengambil metadata file.

jindocache_server_ns_list_status_op_total

Gauge

Total jumlah operasi listStatus yang dilacak oleh komponen master JindoCache.

jindocache_server_ns_list_status_time_total

Gauge

Total waktu yang dihabiskan untuk memproses operasi listStatus oleh komponen master JindoCache.

jindocache_server_ns_list_status_fallback_op_total

Gauge

Total jumlah kali komponen master JindoCache melakukan pengambilan asal ke sistem penyimpanan backend untuk mengambil daftar file.

jindocache_server_dist_get_attr_op_num_total

Gauge

Total jumlah operasi getAttr yang dilacak oleh klien JindoCache.

jindocache_server_dist_get_attr_time_total

Gauge

Total waktu yang dihabiskan untuk memproses operasi getAttr oleh klien JindoCache.

jindocache_server_dist_list_dir_op_num_total

Gauge

Total jumlah operasi daftar direktori yang dilacak oleh klien JindoCache.

jindocache_server_dist_list_dir_time_total

Gauge

Total waktu yang dihabiskan untuk memproses operasi daftar direktori oleh klien JindoCache.

Tabel berikut mencantumkan metrik yang diekspos oleh klien FUSE JindoCache untuk dasbor cache Fluid JindoRuntime.

Metric

Tipe

Deskripsi

jindo_fuse_open_count

Gauge

Jumlah operasi open yang dilakukan oleh klien Jindo FUSE.

jindo_fuse_open_latency

Gauge

Latensi P50 (persentil ke-50) operasi open untuk klien Jindo FUSE.

jindo_fuse_open_latency_80

Gauge

Latensi P80 (persentil ke-80) operasi open untuk klien Jindo FUSE.

jindo_fuse_open_latency_90

Gauge

Latensi P90 (persentil ke-90) operasi open untuk klien Jindo FUSE.

jindo_fuse_open_latency_99

Gauge

Latensi P99 (persentil ke-99) operasi open untuk klien Jindo FUSE.

jindo_fuse_open_latency_999

Gauge

Latensi P99.9 (persentil ke-99,9) operasi open untuk klien Jindo FUSE.

jindo_fuse_open_latency_9999

Gauge

Latensi P99.99 (persentil ke-99,99) operasi open untuk klien Jindo FUSE.

jindo_fuse_getattr_count

Gauge

Jumlah operasi getAttr yang dilakukan oleh klien Jindo FUSE.

jindo_fuse_getattr_latency

Gauge

Latensi P50 (persentil ke-50) operasi getAttr untuk klien Jindo FUSE.

jindo_fuse_getattr_latency_80

Gauge

Latensi P80 (persentil ke-80) operasi getAttr untuk klien Jindo FUSE.

jindo_fuse_getattr_latency_90

Gauge

Latensi P90 (persentil ke-90) operasi getAttr untuk klien Jindo FUSE.

jindo_fuse_getattr_latency_99

Gauge

Latensi P99 (persentil ke-99) operasi getAttr untuk klien Jindo FUSE.

jindo_fuse_getattr_latency_999

Gauge

Latensi P99.9 (persentil ke-99,9) operasi getAttr untuk klien Jindo FUSE.

jindo_fuse_getattr_latency_9999

Gauge

Latensi P99.99 (persentil ke-99,99) operasi getAttr untuk klien Jindo FUSE.

jindo_fuse_readdir_count

Gauge

Jumlah operasi readdir yang dilakukan oleh klien Jindo FUSE.

jindo_fuse_readdir_latency

Gauge

Latensi P50 (persentil ke-50) operasi readdir untuk klien Jindo FUSE.

jindo_fuse_readdir_latency_80

Gauge

Latensi P80 (persentil ke-80) operasi readdir untuk klien Jindo FUSE.

jindo_fuse_readdir_latency_90

Gauge

Latensi P90 (persentil ke-90) operasi readdir untuk klien Jindo FUSE.

jindo_fuse_readdir_latency_99

Gauge

Latensi P99 (persentil ke-99) operasi readdir untuk klien Jindo FUSE.

jindo_fuse_readdir_latency_999

Gauge

Latensi P99.9 (persentil ke-99,9) operasi readdir untuk klien Jindo FUSE.

jindo_fuse_readdir_latency_9999

Gauge

Latensi P99.99 (persentil ke-99,99) operasi readdir untuk klien Jindo FUSE.

jindo_fuse_read_count

Gauge

Jumlah operasi baca yang dilakukan oleh klien Jindo FUSE.

jindo_fuse_read_latency

Gauge

Latensi P50 (persentil ke-50) operasi baca untuk klien Jindo FUSE.

jindo_fuse_read_latency_80

Gauge

Latensi P80 (persentil ke-80) operasi baca untuk klien Jindo FUSE.

jindo_fuse_read_latency_90

Gauge

Latensi P90 (persentil ke-90) operasi baca untuk klien Jindo FUSE.

jindo_fuse_read_latency_99

Gauge

Latensi P99 (persentil ke-99) operasi baca untuk klien Jindo FUSE.

jindo_fuse_read_latency_999

Gauge

Latensi P99.9 (persentil ke-99,9) operasi baca untuk klien Jindo FUSE.

jindo_fuse_read_latency_9999

Gauge

Latensi P99.99 (persentil ke-99,99) operasi baca untuk klien Jindo FUSE.

jindo_fuse_write_count

Gauge

Jumlah operasi tulis yang dilakukan oleh klien Jindo FUSE.

jindo_fuse_write_latency

Gauge

Latensi P50 (persentil ke-50) operasi tulis untuk klien Jindo FUSE.

jindo_fuse_write_latency_80

Gauge

Latensi P80 (persentil ke-80) operasi tulis untuk klien Jindo FUSE.

jindo_fuse_write_latency_90

Gauge

Latensi P90 (persentil ke-90) operasi tulis untuk klien Jindo FUSE.

jindo_fuse_write_latency_99

Gauge

Latensi P99 (persentil ke-99) operasi tulis untuk klien Jindo FUSE.

jindo_fuse_write_latency_999

Gauge

Latensi P99.9 (persentil ke-99,9) operasi tulis untuk klien Jindo FUSE.

jindo_fuse_write_latency_9999

Gauge

Latensi P99.99 (persentil ke-99,99) operasi tulis untuk klien Jindo FUSE.

Referensi