Fluid adalah mesin orkestrasi dan akselerasi dataset terdistribusi open-source yang native untuk Kubernetes, dirancang untuk aplikasi berintensitas data di lingkungan cloud-native, seperti data besar dan artificial intelligence. Fluid menyediakan abstraksi dataset terpadu, plugin engine data yang dapat diperluas, operasi data otomatis, akselerasi data umum, serta independensi runtime. Managed Service for Prometheus mendukung instalasi satu klik komponen Fluid dan mencakup dasbor pemantauan siap pakai. Topik ini menjelaskan cara menggunakan Managed Service for Prometheus untuk memantau Fluid.
Prasyarat
-
Managed Service for Prometheus telah diaktifkan untuk kluster ACK atau kluster ACK Serverless Anda. Untuk informasi selengkapnya, lihat Managed Service for Prometheus.
-
Suite AI cloud-native telah dideploy, dan akselerasi data Fluid telah diaktifkan. Untuk informasi selengkapnya, lihat Deploy suite AI cloud-native.
-
Untuk menggunakan semua fitur dasbor lapisan kontrol Fluid, pastikan versi ack-fluid 0.9.7 atau lebih baru sedang berjalan di kluster.
-
Untuk menggunakan semua fitur dasbor sistem cache Fluid JindoRuntime, pastikan versi ack-fluid 1.0.11 atau lebih baru sedang berjalan di kluster.
-
Batasan
Dasbor sistem cache hanya dapat memantau komponen runtime cache JindoRuntime (yang menggunakan engine cache JindoCache).
Langkah 1: Integrasikan Fluid
-
Masuk ke ARMS console.
-
Di panel navigasi kiri, klik integration center. Di bagian artificial intelligence, klik kartu Fluid.
-
Di halaman Fluid, pada bagian select container service cluster, pilih kluster target. Jika komponen Fluid sudah terinstal, Anda tidak perlu menginstalnya kembali.
-
Di bagian Configuration Information, atur parameter dan klik OK.
Parameter
Deskripsi
integration name (optional)
Nama unik untuk instans pemantauan Fluid. Anda dapat mengosongkan bidang ini.
metric collection interval (s)
Interval pengumpulan metrik.
-
Anda dapat melihat komponen yang telah diintegrasikan di halaman integration management di ARMS console.
-
Masuk ke ARMS console.
-
Di panel navigasi kiri, klik integration management. Di tab integrated components, klik kartu Fluid.
-
Di tab environment list, klik View Details di kolom Actions untuk kluster target guna melihat detail seperti komponen Fluid dan aturan alert dasbor.
-
Langkah 2: Lihat dasbor Fluid
ACK console
Masuk ke ACK console. Di panel navigasi kiri, klik Clusters.
-
Di halaman Clusters, klik kluster ACK atau kluster ACK Serverless yang berisi komponen Fluid. Di panel navigasi sisi kiri, pilih .
-
Di halaman Prometheus Monitoring, pilih untuk melihat dasbor lapisan kontrol Fluid.
Dasbor ini menampilkan metrik dari Prometheus Monitoring, termasuk status berjalan komponen Fluid, latensi pemrosesan untuk controller Fluid, QPS dan latensi permintaan webhook Fluid, serta penggunaan sumber daya setiap komponen. Untuk informasi selengkapnya, lihat parameter dasbor pemantauan Fluid.
-
Bagian Component Running Status menunjukkan jumlah pod yang siap, jumlah restart historis, dan waktu restart untuk komponen lapisan kontrol Fluid.

-
Bagian Fluid Controller Detailed Metrics menunjukkan tingkat beban kerja, kegagalan pemrosesan, dan permintaan API Kubernetes dari komponen controller Fluid.

-
Bagian Fluid Webhook Detailed Metrics menunjukkan penggunaan sumber daya, jumlah permintaan yang diproses, dan latensi pemrosesan permintaan untuk komponen webhook Fluid.

-
Bagian Resource Usage menunjukkan penggunaan sumber daya dan laju lalu lintas jaringan untuk semua komponen lapisan kontrol Fluid.

-
-
Di halaman Prometheus Monitoring, pilih untuk melihat dasbor sistem cache Fluid JindoRuntime.
Dasbor sistem cache Fluid JindoRuntime menampilkan detail tentang sistem cache Fluid JindoRuntime. Dasbor ini mencakup ikhtisar dataset, metrik sistem cache, dan metrik klien FUSE. Untuk informasi selengkapnya, lihat parameter dasbor pemantauan Fluid.
-
Bagian Dataset Overview memberikan ikhtisar dataset Fluid yang dipilih, termasuk jumlah pod komponen Master, Worker, dan FUSE yang sedang berjalan dalam sistem cache, serta konfigurasi sumber daya setiap pod.

-
Bagian Cache System Metrics menampilkan metrik sisi server untuk sistem cache yang dipilih, termasuk kapasitas cache yang digunakan, tingkat hit cache, bandwidth agregat, dan QPS untuk operasi metadata.

-
Bagian FUSE Metrics (via CSI) menampilkan metrik sisi klien untuk sistem file FUSE yang dimount dengan plugin Fluid CSI di pod FUSE. Metrik tersebut mencakup I/O jaringan, latensi dan QPS operasi metadata, serta latensi dan QPS operasi baca/tulis untuk setiap pod FUSE.

-
Bagian FUSE Metrics (via Sidecar) menampilkan metrik sisi klien untuk sistem file FUSE yang dimount di kontainer sidecar FUSE Fluid. Metrik tersebut mencakup latensi dan QPS operasi metadata, serta latensi dan QPS operasi baca/tulis.

-
ARMS console
-
Masuk ke ARMS console.
-
Di panel navigasi sisi kiri, klik Integration Center. Di bagian Component Type, pilih Fluid, klik tab Dashboard, lalu klik Fluid Control Plane di bagian bawah halaman untuk melihat dasbor lapisan kontrol Fluid.
Dasbor ini menampilkan metrik dari Prometheus Monitoring, termasuk status berjalan komponen Fluid, latensi pemrosesan untuk controller Fluid, QPS dan latensi permintaan webhook Fluid, serta penggunaan sumber daya setiap komponen. Untuk informasi selengkapnya, lihat parameter dasbor pemantauan Fluid.
-
Bagian Component Running Status menunjukkan jumlah pod yang siap, jumlah restart historis, dan waktu restart untuk komponen lapisan kontrol Fluid.
-
Bagian Fluid Controller Detailed Metrics menunjukkan tingkat beban kerja, kegagalan pemrosesan, dan permintaan API Kubernetes dari komponen controller Fluid.
-
Bagian Fluid Webhook Detailed Metrics menunjukkan penggunaan sumber daya, jumlah permintaan yang diproses, dan latensi pemrosesan permintaan untuk komponen webhook Fluid.
-
Bagian Resource Usage menunjukkan penggunaan sumber daya dan laju lalu lintas jaringan untuk semua komponen lapisan kontrol Fluid.
-
-
Di panel navigasi sisi kiri, klik Integration Center. Di bagian Component Type, pilih Fluid, klik tab Dashboard, lalu klik Fluid JindoRuntime Dashboard di bagian bawah halaman untuk melihat dasbor sistem cache Fluid JindoRuntime.
-
Bagian Dataset Overview memberikan ikhtisar dataset Fluid yang dipilih, termasuk jumlah pod komponen Master, Worker, dan FUSE yang sedang berjalan dalam sistem cache, serta konfigurasi sumber daya setiap pod.
-
Bagian Cache System Metrics menampilkan metrik sisi server untuk sistem cache yang dipilih, termasuk kapasitas cache yang digunakan, tingkat hit cache, bandwidth agregat, dan QPS untuk operasi metadata.
-
Bagian FUSE Metrics (via CSI) menampilkan metrik sisi klien untuk sistem file FUSE yang dimount dengan plugin Fluid CSI di pod FUSE. Metrik tersebut mencakup I/O jaringan, latensi dan QPS operasi metadata, serta latensi dan QPS operasi baca/tulis untuk setiap pod FUSE.
-
Bagian FUSE Metrics (via Sidecar) menampilkan metrik sisi klien untuk sistem file FUSE yang dimount di kontainer sidecar FUSE Fluid. Metrik tersebut mencakup latensi dan QPS operasi metadata, serta latensi dan QPS operasi baca/tulis.
-
Metrik
Tabel berikut mencantumkan metrik yang digunakan oleh komponen lapisan kontrol Fluid.
|
Metric |
Tipe |
Deskripsi |
|
dataset_ufs_total_size |
Gauge |
Total ukuran dataset yang dimount oleh resource Dataset aktif di kluster. |
|
dataset_ufs_file_num |
Gauge |
Jumlah file dalam dataset yang dimount oleh resource Dataset aktif di kluster. |
|
runtime_setup_error_total |
Counter |
Total jumlah operasi setup runtime yang gagal selama reconciliasi controller. |
|
runtime_sync_healthcheck_error_total |
Counter |
Total jumlah operasi pemeriksaan kesehatan runtime yang gagal selama reconciliasi controller. |
|
controller_runtime_reconcile_time_seconds_bucket |
Histogram |
Durasi loop reconciliasi controller. |
|
controller_runtime_reconcile_errors_total |
Counter |
Total jumlah kegagalan reconciliasi controller. |
|
controller_runtime_reconcile_total |
Counter |
Total jumlah loop reconciliasi controller yang telah selesai. |
|
controller_runtime_max_concurrent_reconciles |
Gauge |
Jumlah maksimum korutin reconciliasi yang tersedia di controller. |
|
controller_runtime_active_workers |
Gauge |
Jumlah korutin reconciliasi yang sedang aktif di controller. |
|
workqueue_adds_total |
Counter |
Total jumlah event add yang diproses oleh workqueue controller. |
|
workqueue_depth |
Gauge |
Kedalaman saat ini dari workqueue controller. |
|
workqueue_queue_duration_seconds_bucket |
Histogram |
Waktu yang dihabiskan suatu item menunggu di workqueue controller sebelum diproses. |
|
workqueue_work_duration_seconds_bucket |
Histogram |
Distribusi waktu yang dibutuhkan untuk memproses item dari workqueue. |
|
workqueue_unfinished_work_seconds |
Gauge |
Total durasi tugas yang belum selesai yang sedang diproses oleh workqueue. |
|
workqueue_longest_running_processor_seconds |
Gauge |
Waktu pemrosesan terpanjang yang tercatat untuk satu tugas. |
|
rest_client_requests_total |
Counter |
Jumlah permintaan HTTP, dipecah berdasarkan kode status, metode, dan host. |
|
rest_client_request_duration_seconds_bucket |
Histogram |
Latensi permintaan HTTP, dipecah berdasarkan verb dan URL. |
|
controller_runtime_webhook_requests_in_flight |
Gauge |
Jumlah permintaan webhook yang sedang diproses. |
|
controller_runtime_webhook_requests_total |
Counter |
Total jumlah permintaan yang diproses oleh webhook. |
|
controller_runtime_webhook_latency_seconds_bucket |
Histogram |
Latensi permintaan yang diproses oleh webhook. |
|
process_cpu_seconds_total |
Counter |
Total waktu CPU yang dikonsumsi oleh proses, dalam detik. |
|
process_resident_memory_bytes |
Gauge |
Ukuran memori resident proses, dalam byte. |
Tabel berikut mencantumkan metrik yang diekspos oleh server JindoCache untuk dasbor cache Fluid JindoRuntime.
|
Metric |
Tipe |
Deskripsi |
|
jindocache_server_total_stsnodes_num |
Gauge |
Jumlah replika komponen worker aktif dalam cache terdistribusi. |
|
jindocache_server_total_disk_cap |
Gauge |
Kapasitas cache maksimum untuk media berbasis disk (termasuk RAM disk seperti tmpfs) dalam cache terdistribusi. |
|
jindocache_server_total_used_disk_cap |
Gauge |
Total ruang cache yang digunakan pada media berbasis disk (termasuk RAM disk seperti tmpfs) dalam cache terdistribusi. |
|
jindocache_server_total_mem_cap |
Gauge |
Kapasitas cache maksimum yang disimpan dalam memori proses di dalam cache terdistribusi. |
|
jindocache_server_total_used_mem_cap |
Gauge |
Total ruang cache yang digunakan dalam memori proses di dalam cache terdistribusi. |
|
jindocache_server_total_used_rocksdb_cap |
Gauge |
Kapasitas RocksDB yang digunakan dalam cache terdistribusi. |
|
jindocache_server_backend_read_bytes_total |
Gauge |
Total jumlah data yang dibaca dari penyimpanan backend selama pengambilan asal, dalam byte. Pengambilan asal terjadi ketika data yang diminta tidak ditemukan di cache terdistribusi JindoCache dan harus diambil dari sistem penyimpanan backend. |
|
jindocache_server_backend_read_time_total |
Gauge |
Total waktu yang dihabiskan untuk membaca data dari penyimpanan backend selama pengambilan asal, dalam mikrodetik. |
|
jindocache_server_backend_readop_num_total |
Gauge |
Total jumlah operasi baca dari penyimpanan backend selama pengambilan asal. Jumlah ini sesuai dengan jumlah blok di JindoCache. |
|
jindocache_server_backend_read_bytes_time_total_window |
Gauge |
Waktu yang dihabiskan untuk membaca data dari penyimpanan backend selama pengambilan asal dalam jendela satu menit, dalam satuan mikrodetik. |
|
jindocache_server_backend_read_bytes_total_window |
Gauge |
Total jumlah data yang dibaca dari penyimpanan backend selama pengambilan asal dalam jendela satu menit, dalam byte. |
|
jindocache_server_remote_read_bytes_total |
Gauge |
Total jumlah data yang dibaca dari hit cache jarak jauh dalam kluster yang sama, dalam byte. Hit cache jarak jauh terjadi ketika data yang diminta ada di cache terdistribusi JindoCache tetapi berada di node yang berbeda dari aplikasi. |
|
jindocache_server_remote_read_time_total |
Gauge |
Total waktu yang dihabiskan untuk operasi baca hit cache jarak jauh dalam kluster yang sama, dalam mikrodetik. |
|
jindocache_server_remote_readop_num_total |
Gauge |
Total jumlah operasi baca hit cache jarak jauh dalam kluster yang sama. |
|
jindocache_server_remote_read_bytes_time_total_window |
Gauge |
Waktu yang dihabiskan untuk operasi baca hit cache jarak jauh dalam jendela satu menit, dalam mikrodetik. |
|
jindocache_server_remote_read_bytes_total_window |
Gauge |
Total jumlah data yang dibaca dari hit cache jarak jauh dalam jendela satu menit, dalam byte. |
|
jindocache_server_local_read_bytes_total |
Gauge |
Total jumlah data yang dibaca dari hit cache lokal dalam kluster yang sama, dalam byte. Hit cache lokal terjadi ketika data yang diminta ada di cache terdistribusi JindoCache pada node yang sama dengan aplikasi. |
|
jindocache_server_local_read_time_total |
Gauge |
Total waktu yang dihabiskan untuk operasi baca hit cache lokal dalam kluster yang sama, dalam mikrodetik. |
|
jindocache_server_local_readop_num_total |
Gauge |
Total jumlah operasi baca hit cache lokal dalam kluster yang sama. |
|
jindocache_server_local_read_bytes_time_total_window |
Gauge |
Waktu yang dihabiskan untuk operasi baca hit cache lokal dalam jendela satu menit, dalam mikrodetik. |
|
jindocache_server_local_read_bytes_total_window |
Gauge |
Total jumlah data yang dibaca dari hit cache lokal dalam jendela satu menit, dalam byte. |
|
jindocache_server_ns_filelet_op_count_total |
Gauge |
Total jumlah operasi metadata file (termasuk getAttr dan listStatus) yang dilacak oleh komponen master JindoCache. |
|
jindocache_server_ns_filelet_op_time_total |
Gauge |
Total waktu yang dihabiskan untuk memproses operasi metadata file (termasuk getAttr dan listStatus) oleh komponen master JindoCache. |
|
jindocache_server_ns_get_attr_op_total |
Gauge |
Total jumlah operasi getAttr yang dilacak oleh komponen master JindoCache. |
|
jindocache_server_ns_get_attr_time_total |
Gauge |
Total waktu yang dihabiskan untuk memproses operasi getAttr oleh komponen master JindoCache. |
|
jindocache_server_ns_get_attr_fallback_op_total |
Gauge |
Total jumlah kali komponen master JindoCache melakukan pengambilan asal dari penyimpanan backend untuk mengambil metadata file. |
|
jindocache_server_ns_list_status_op_total |
Gauge |
Total jumlah operasi listStatus yang dilacak oleh komponen master JindoCache. |
|
jindocache_server_ns_list_status_time_total |
Gauge |
Total waktu yang dihabiskan untuk memproses operasi listStatus oleh komponen master JindoCache. |
|
jindocache_server_ns_list_status_fallback_op_total |
Gauge |
Total jumlah kali komponen master JindoCache melakukan pengambilan asal ke sistem penyimpanan backend untuk mengambil daftar file. |
|
jindocache_server_dist_get_attr_op_num_total |
Gauge |
Total jumlah operasi getAttr yang dilacak oleh klien JindoCache. |
|
jindocache_server_dist_get_attr_time_total |
Gauge |
Total waktu yang dihabiskan untuk memproses operasi getAttr oleh klien JindoCache. |
|
jindocache_server_dist_list_dir_op_num_total |
Gauge |
Total jumlah operasi daftar direktori yang dilacak oleh klien JindoCache. |
|
jindocache_server_dist_list_dir_time_total |
Gauge |
Total waktu yang dihabiskan untuk memproses operasi daftar direktori oleh klien JindoCache. |
Tabel berikut mencantumkan metrik yang diekspos oleh klien FUSE JindoCache untuk dasbor cache Fluid JindoRuntime.
|
Metric |
Tipe |
Deskripsi |
|
jindo_fuse_open_count |
Gauge |
Jumlah operasi open yang dilakukan oleh klien Jindo FUSE. |
|
jindo_fuse_open_latency |
Gauge |
Latensi P50 (persentil ke-50) operasi open untuk klien Jindo FUSE. |
|
jindo_fuse_open_latency_80 |
Gauge |
Latensi P80 (persentil ke-80) operasi open untuk klien Jindo FUSE. |
|
jindo_fuse_open_latency_90 |
Gauge |
Latensi P90 (persentil ke-90) operasi open untuk klien Jindo FUSE. |
|
jindo_fuse_open_latency_99 |
Gauge |
Latensi P99 (persentil ke-99) operasi open untuk klien Jindo FUSE. |
|
jindo_fuse_open_latency_999 |
Gauge |
Latensi P99.9 (persentil ke-99,9) operasi open untuk klien Jindo FUSE. |
|
jindo_fuse_open_latency_9999 |
Gauge |
Latensi P99.99 (persentil ke-99,99) operasi open untuk klien Jindo FUSE. |
|
jindo_fuse_getattr_count |
Gauge |
Jumlah operasi getAttr yang dilakukan oleh klien Jindo FUSE. |
|
jindo_fuse_getattr_latency |
Gauge |
Latensi P50 (persentil ke-50) operasi getAttr untuk klien Jindo FUSE. |
|
jindo_fuse_getattr_latency_80 |
Gauge |
Latensi P80 (persentil ke-80) operasi getAttr untuk klien Jindo FUSE. |
|
jindo_fuse_getattr_latency_90 |
Gauge |
Latensi P90 (persentil ke-90) operasi getAttr untuk klien Jindo FUSE. |
|
jindo_fuse_getattr_latency_99 |
Gauge |
Latensi P99 (persentil ke-99) operasi getAttr untuk klien Jindo FUSE. |
|
jindo_fuse_getattr_latency_999 |
Gauge |
Latensi P99.9 (persentil ke-99,9) operasi getAttr untuk klien Jindo FUSE. |
|
jindo_fuse_getattr_latency_9999 |
Gauge |
Latensi P99.99 (persentil ke-99,99) operasi getAttr untuk klien Jindo FUSE. |
|
jindo_fuse_readdir_count |
Gauge |
Jumlah operasi readdir yang dilakukan oleh klien Jindo FUSE. |
|
jindo_fuse_readdir_latency |
Gauge |
Latensi P50 (persentil ke-50) operasi readdir untuk klien Jindo FUSE. |
|
jindo_fuse_readdir_latency_80 |
Gauge |
Latensi P80 (persentil ke-80) operasi readdir untuk klien Jindo FUSE. |
|
jindo_fuse_readdir_latency_90 |
Gauge |
Latensi P90 (persentil ke-90) operasi readdir untuk klien Jindo FUSE. |
|
jindo_fuse_readdir_latency_99 |
Gauge |
Latensi P99 (persentil ke-99) operasi readdir untuk klien Jindo FUSE. |
|
jindo_fuse_readdir_latency_999 |
Gauge |
Latensi P99.9 (persentil ke-99,9) operasi readdir untuk klien Jindo FUSE. |
|
jindo_fuse_readdir_latency_9999 |
Gauge |
Latensi P99.99 (persentil ke-99,99) operasi readdir untuk klien Jindo FUSE. |
|
jindo_fuse_read_count |
Gauge |
Jumlah operasi baca yang dilakukan oleh klien Jindo FUSE. |
|
jindo_fuse_read_latency |
Gauge |
Latensi P50 (persentil ke-50) operasi baca untuk klien Jindo FUSE. |
|
jindo_fuse_read_latency_80 |
Gauge |
Latensi P80 (persentil ke-80) operasi baca untuk klien Jindo FUSE. |
|
jindo_fuse_read_latency_90 |
Gauge |
Latensi P90 (persentil ke-90) operasi baca untuk klien Jindo FUSE. |
|
jindo_fuse_read_latency_99 |
Gauge |
Latensi P99 (persentil ke-99) operasi baca untuk klien Jindo FUSE. |
|
jindo_fuse_read_latency_999 |
Gauge |
Latensi P99.9 (persentil ke-99,9) operasi baca untuk klien Jindo FUSE. |
|
jindo_fuse_read_latency_9999 |
Gauge |
Latensi P99.99 (persentil ke-99,99) operasi baca untuk klien Jindo FUSE. |
|
jindo_fuse_write_count |
Gauge |
Jumlah operasi tulis yang dilakukan oleh klien Jindo FUSE. |
|
jindo_fuse_write_latency |
Gauge |
Latensi P50 (persentil ke-50) operasi tulis untuk klien Jindo FUSE. |
|
jindo_fuse_write_latency_80 |
Gauge |
Latensi P80 (persentil ke-80) operasi tulis untuk klien Jindo FUSE. |
|
jindo_fuse_write_latency_90 |
Gauge |
Latensi P90 (persentil ke-90) operasi tulis untuk klien Jindo FUSE. |
|
jindo_fuse_write_latency_99 |
Gauge |
Latensi P99 (persentil ke-99) operasi tulis untuk klien Jindo FUSE. |
|
jindo_fuse_write_latency_999 |
Gauge |
Latensi P99.9 (persentil ke-99,9) operasi tulis untuk klien Jindo FUSE. |
|
jindo_fuse_write_latency_9999 |
Gauge |
Latensi P99.99 (persentil ke-99,99) operasi tulis untuk klien Jindo FUSE. |
Referensi
-
Untuk informasi selengkapnya tentang Fluid, lihat Dataset.
-
Untuk deskripsi parameter dasbor Fluid, lihat referensi parameter dasbor Fluid.