Fluid adalah mesin orkestrasi dan akselerasi dataset terdistribusi asli Kubernetes yang mendukung aplikasi intensif data, seperti aplikasi big data dan AI, dalam skenario cloud-native. Fluid menyediakan abstraksi dataset berorientasi aplikasi, plugin mesin data yang dapat diskalakan, operasi data otomatis, akselerasi data, serta runtime agnostik platform. Anda dapat menginstal komponen pemantauan Fluid pada instance Prometheus dari Managed Service for Prometheus dengan beberapa klik dan menggunakan dasbor siap pakai yang disediakan oleh Managed Service for Prometheus untuk memantau Fluid. Topik ini menjelaskan cara mengaktifkan Managed Service for Prometheus untuk Fluid.
Prasyarat
Managed Service for Prometheus diaktifkan untuk klaster Container Service for Kubernetes (ACK) atau Klaster ACK Serverless. Untuk informasi lebih lanjut, lihat Gunakan Managed Service for Prometheus.
Suite AI cloud-native telah diterapkan dan akselerasi data Fluid diaktifkan. Untuk informasi lebih lanjut, lihat Terapkan suite AI cloud-native.
Untuk menggunakan semua fitur dasbor bidang kontrol Fluid, pastikan bahwa ack-fluid versi 0.9.7 atau yang lebih baru telah diinstal di klaster.
Untuk menggunakan semua fitur dasbor sistem cache JindoRuntime Fluid, pastikan bahwa ack-fluid versi 1.0.11 atau yang lebih baru telah diinstal.
Batasan
Dasbor sistem cache hanya mendukung komponen runtime cache bertipe JindoRuntime (mesin JindoCache).
Langkah 1: Integrasikan Fluid dengan ARMS
Masuk ke Konsol ARMS.
Di panel navigasi kiri, klik Integration Center. Di bagian AI, klik kartu Fluid.
Di bagian Select a Kubernetes cluster halaman Fluid, pilih klaster yang diinginkan. Jika halaman menunjukkan bahwa Fluid sudah diinstal, lewati langkah-langkah di bagian ini.
Di bagian Configuration Information, atur parameter yang diperlukan dan klik OK.
Parameter
Deskripsi
Name (Not required)
Nama unik eksportir Fluid. Anda bisa membiarkannya kosong.
metrics collection interval (seconds)
Interval waktu Anda ingin layanan mengumpulkan data pemantauan.
Anda dapat melihat komponen terintegrasi di halaman Integration Management konsol ARMS.
Masuk ke Konsol ARMS.
Di panel navigasi sebelah kiri, klik Integration Management. Pada tab Integrated Addons, klik kartu Fluid.
Pada tab Environments, klik View Details di kolom Actions untuk melihat komponen Fluid di klaster dan aturan peringatan.
Langkah 2: Lihat dasbor Fluid
Lihat dasbor Fluid dari konsol ACK (direkomendasikan)
Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.
Pada halaman Clusters, klik klaster ACK atau Klaster ACK Serverless di mana komponen Fluid diinstal. Di panel kiri, pilih .
Pada halaman Prometheus Monitoring, pilih untuk melihat data pemantauan bidang kontrol Fluid.
Di dasbor bidang kontrol Fluid, Anda dapat melihat informasi rinci tentang komponen bidang kontrol Fluid, seperti status komponen, waktu pemrosesan controller Fluid, QPS webhook Fluid, latensi pemrosesan permintaan, dan penggunaan sumber daya setiap komponen. Untuk informasi lebih lanjut, lihat Parameter dasbor Fluid.
Di bagian Component running status, Anda dapat melihat jumlah pod bidang kontrol Fluid yang berada dalam status Running, jumlah restart, dan waktu setiap restart.

Di bagian Fluid Controller Detailed Indicators, Anda dapat memeriksa apakah controller Fluid sibuk dan melihat informasi tentang kegagalan pemrosesan dan permintaan API Kubernetes.

Di bagian Fluid Webhook Detailed Indicators, Anda dapat melihat penggunaan sumber daya webhook Fluid, jumlah permintaan yang diproses, dan latensi pemrosesan permintaan.

Di bagian Resource usage, Anda dapat melihat penggunaan sumber daya setiap komponen bidang kontrol Fluid, laju transmisi jaringan, dan laju penerimaan jaringan.

Pada halaman Prometheus Monitoring, pilih untuk melihat data pemantauan sistem cache Fluid JindoRuntime.
Di dasbor sistem cache Fluid JindoRuntime, Anda dapat melihat gambaran umum Dataset Fluid, metrik sistem cache, dan metrik klien FUSE. Untuk informasi lebih lanjut, lihat Parameter dasbor Fluid.
Di bagian Dataset Overview, Anda dapat melihat informasi gambaran umum Dataset Fluid, termasuk jumlah pod sehat untuk komponen master, worker, dan FUSE serta konfigurasi sumber daya setiap pod.

Di bagian Cache System Metrics, Anda dapat melihat metrik sistem cache yang dipilih, termasuk penggunaan cache saat ini, rasio hit cache, bandwidth agregat, dan QPS sistem cache untuk memproses metadata file.

Di bagian FUSE Metrics (via CSI), Anda dapat melihat metrik klien FUSE yang dipasang melalui plugin Fluid CSI dan pod FUSE, termasuk input/output setiap pod FUSE, latensi dan QPS operasi metadata, serta latensi dan QPS operasi baca/tulis.

Di bagian FUSE Metrics (via Sidecar), Anda dapat melihat metrik klien FUSE yang dipasang melalui Fluid FUSE sidecar, termasuk latensi dan QPS operasi metadata serta latensi dan QPS operasi baca/tulis.

Lihat dasbor Fluid dari konsol ARMS
Masuk ke Konsol ARMS.
Di panel navigasi kiri, klik Integration Management. Klik tab Query Dashboards, pilih Fluid dari daftar drop-down komponen, dan klik Fluid Control Plane di bagian bawah halaman. Anda dapat melihat data pemantauan bidang kontrol Fluid di dasbor.
Di dasbor Fluid, Anda dapat melihat informasi rinci tentang komponen bidang kontrol Fluid, seperti status komponen, waktu pemrosesan controller Fluid, QPS webhook Fluid, latensi pemrosesan permintaan, dan penggunaan sumber daya setiap komponen. Untuk informasi lebih lanjut, lihat Parameter dasbor Fluid.
Di bagian Component running status, Anda dapat melihat jumlah pod bidang kontrol Fluid yang berada dalam status Running, jumlah restart, dan waktu setiap restart.
Di bagian Fluid Controller Detailed Indicators, Anda dapat memeriksa apakah controller Fluid sibuk dan melihat informasi tentang kegagalan pemrosesan dan permintaan API Kubernetes.
Di bagian Fluid Webhook Detailed Indicators, Anda dapat melihat penggunaan sumber daya webhook Fluid, jumlah permintaan yang diproses, dan latensi pemrosesan permintaan.
Di bagian Resource usage, Anda dapat melihat penggunaan sumber daya setiap komponen bidang kontrol Fluid, laju transmisi jaringan, dan laju penerimaan jaringan.
Di panel navigasi kiri, klik Integration Management. Klik tab Query Dashboards, pilih Fluid dari daftar drop-down komponen, dan klik Fluid JindoRuntime Dashboard di bagian bawah halaman. Anda dapat melihat data pemantauan sistem cache Fluid JindoRuntime di dasbor.
Di bagian Dataset Overview, Anda dapat melihat informasi gambaran umum Dataset Fluid, termasuk jumlah pod sehat untuk komponen master, worker, dan FUSE serta konfigurasi sumber daya setiap pod.
Di bagian Cache System Metrics, Anda dapat melihat metrik sistem cache yang dipilih, termasuk penggunaan cache saat ini, rasio hit cache, bandwidth agregat, dan QPS sistem cache untuk memproses metadata file.
Di bagian FUSE Metrics (via CSI), Anda dapat melihat metrik klien FUSE yang dipasang melalui plugin Fluid CSI dan pod FUSE, termasuk input/output setiap pod FUSE, latensi dan QPS operasi metadata, serta latensi dan QPS operasi baca/tulis.
Di bagian FUSE Metrics (via Sidecar), Anda dapat melihat metrik klien FUSE yang dipasang melalui Fluid FUSE sidecar, termasuk latensi dan QPS operasi metadata serta latensi dan QPS operasi baca/tulis.
Pengenalan metrik
Tabel berikut menjelaskan metrik pemantauan untuk komponen bidang kontrol Fluid.
Metrik | Tipe | Deskripsi |
dataset_ufs_total_size | Gauge | Ukuran dataset yang dipasang ke objek Dataset yang ada di klaster saat ini. |
dataset_ufs_file_num | Gauge | Jumlah dataset yang dipasang ke objek Dataset yang ada di klaster saat ini. |
runtime_setup_error_total | Counter | Jumlah kegagalan untuk memulai runtime ketika controller melakukan rekonsiliasi. |
runtime_sync_healthcheck_error_total | Counter | Jumlah kegagalan pemeriksaan kesehatan runtime yang terjadi ketika controller melakukan rekonsiliasi. |
controller_runtime_reconcile_time_seconds_bucket | Histogram | Durasi proses rekonsiliasi. |
controller_runtime_reconcile_errors_total | Counter | Jumlah kegagalan rekonsiliasi. |
controller_runtime_reconcile_total | Counter | Jumlah rekonsiliasi yang berhasil. |
controller_runtime_max_concurrent_reconciles | Gauge | Jumlah maksimum rekonsiliasi bersamaan yang didukung oleh controller. |
controller_runtime_active_workers | Gauge | Jumlah rekonsiliasi aktif dari controller. |
workqueue_adds_total | Counter | Jumlah acara Adds yang diproses oleh workqueue controller. |
workqueue_depth | Gauge | Panjang workqueue controller. |
workqueue_queue_duration_seconds_bucket | Histogram | Jumlah waktu objek tertunda telah menunggu di workqueue controller. |
workqueue_work_duration_seconds_bucket | Histogram | Distribusi durasi tugas yang telah diselesaikan oleh controller. |
workqueue_unfinished_work_seconds | Gauge | Total durasi semua tugas yang sedang diproses di workqueue controller. |
workqueue_longest_running_processor_seconds | Gauge | Durasi terlama yang dihabiskan controller untuk memproses tugas. |
rest_client_requests_total | Counter | Jumlah permintaan HTTP yang dihitung berdasarkan kode status, metode, dan host. |
rest_client_request_duration_seconds_bucket | Histogram | Latensi respons HTTP yang dihitung berdasarkan Verbs dan URL. |
controller_runtime_webhook_requests_in_flight | Gauge | Jumlah permintaan yang sedang diproses oleh webhook. |
controller_runtime_webhook_requests_total | Counter | Jumlah total permintaan yang diproses oleh webhook. |
controller_runtime_webhook_latency_seconds_bucket | Histogram | Latensi pemrosesan permintaan webhook. |
process_cpu_seconds_total | Counter | Waktu aktif CPU. |
process_resident_memory_bytes | Gauge | Jumlah memori yang digunakan. |
Tabel berikut menjelaskan metrik server JindoCache yang ditampilkan di dasbor sistem cache Fluid JindoRuntime.
Metrik | Tipe | Deskripsi |
jindocache_server_total_stsnodes_num | Gauge | Jumlah replika hidup untuk komponen worker dalam sistem cache terdistribusi saat ini. |
jindocache_server_total_disk_cap | Gauge | Ukuran maksimum cache disk (termasuk disk RAM seperti tmpfs) dalam sistem cache terdistribusi. |
jindocache_server_total_used_disk_cap | Gauge | Jumlah penggunaan cache disk (termasuk disk RAM seperti tmpfs) dalam sistem cache terdistribusi. |
jindocache_server_total_mem_cap | Gauge | Ukuran maksimum cache RAM dalam sistem cache terdistribusi. |
jindocache_server_total_used_mem_cap | Gauge | Jumlah penggunaan cache RAM dalam sistem cache terdistribusi. |
jindocache_server_total_used_rocksdb_cap | Gauge | Penggunaan RocksDB dalam sistem cache terdistribusi. |
jindocache_server_backend_read_bytes_total | Gauge | Jumlah total data yang dibaca dari sistem penyimpanan dasar. Unit: byte. Data dibaca dari sistem penyimpanan dasar ketika data tidak ditemukan di JindoCache. |
jindocache_server_backend_read_time_total | Gauge | Durasi membaca data dari sistem penyimpanan dasar. Unit: mikrodetik. |
jindocache_server_backend_readop_num_total | Gauge | Jumlah total kali data dibaca dari sistem penyimpanan dasar, yang sama dengan jumlah blok di JindoCache. |
jindocache_server_backend_read_bytes_time_total_window | Gauge | Durasi membaca data dari sistem penyimpanan dasar dalam satu menit. Unit: mikrodetik. |
jindocache_server_backend_read_bytes_total_window | Gauge | Jumlah total data yang dibaca dari sistem penyimpanan dasar dalam satu menit. Unit: byte. |
jindocache_server_remote_read_bytes_total | Gauge | Jumlah total data yang dibaca melalui hit cache jarak jauh di klaster yang sama. Unit: byte. Hit cache jarak jauh terjadi ketika permintaan ditemukan di JindoCache tetapi data cache dan aplikasi berada di node yang berbeda. |
jindocache_server_remote_read_time_total | Gauge | Total durasi hit cache jarak jauh di klaster yang sama. Unit: mikrodetik. |
jindocache_server_remote_readop_num_total | Gauge | Jumlah hit cache jarak jauh di klaster yang sama. |
jindocache_server_remote_read_bytes_time_total_window | Gauge | Total durasi hit cache jarak jauh dalam satu menit. Unit: mikrodetik. |
jindocache_server_remote_read_bytes_total_window | Gauge | Jumlah total data yang dibaca melalui hit cache jarak jauh dalam satu menit. Unit: byte. |
jindocache_server_local_read_bytes_total | Gauge | Jumlah total data yang dibaca melalui hit cache lokal di klaster yang sama. Unit: byte. Hit cache lokal terjadi ketika data yang diminta ditemukan di JindoCache dan data cache serta aplikasi berada di node yang sama. |
jindocache_server_local_read_time_total | Gauge | Total durasi hit cache lokal di klaster yang sama. Unit: mikrodetik. |
jindocache_server_local_readop_num_total | Gauge | Jumlah total hit cache lokal di klaster yang sama. |
jindocache_server_local_read_bytes_time_total_window | Gauge | Total durasi hit cache lokal dalam satu menit. Unit: mikrodetik. |
jindocache_server_local_read_bytes_total_window | Gauge | Jumlah total data yang dibaca melalui hit cache lokal dalam satu menit. Unit: byte. |
jindocache_server_ns_filelet_op_count_total | Gauge | Jumlah total operasi metadata file yang dilakukan pada sisi komponen master JindoCache, termasuk operasi getAttr dan listStatus. |
jindocache_server_ns_filelet_op_time_total | Gauge | Total durasi operasi metadata file yang dilakukan pada sisi komponen master JindoCache, termasuk operasi getAttr dan listStatus. |
jindocache_server_ns_get_attr_op_total | Gauge | Jumlah operasi getAttr yang dilakukan pada sisi komponen master JindoCache. |
jindocache_server_ns_get_attr_time_total | Gauge | Durasi operasi getAttr yang dilakukan pada sisi komponen master JindoCache. |
jindocache_server_ns_get_attr_fallback_op_total | Gauge | Jumlah kali komponen master JindoCache membaca metadata file dari sistem penyimpanan dasar. |
jindocache_server_ns_list_status_op_total | Gauge | Jumlah operasi listStatus yang dilakukan pada sisi komponen master JindoCache. |
jindocache_server_ns_list_status_time_total | Gauge | Durasi operasi listStatus yang dilakukan pada sisi komponen master JindoCache. |
jindocache_server_ns_list_status_fallback_op_total | Gauge | Jumlah kali komponen master JindoCache membaca daftar file dari sistem penyimpanan dasar. |
jindocache_server_dist_get_attr_op_num_total | Gauge | Jumlah operasi getAttr yang dilakukan pada sisi klien JindoCache. |
jindocache_server_dist_get_attr_time_total | Gauge | Durasi operasi getAttr yang dilakukan pada sisi klien JindoCache. |
jindocache_server_dist_list_dir_op_num_total | Gauge | Jumlah operasi listStatus yang dilakukan pada sisi klien JindoCache. |
jindocache_server_dist_list_dir_time_total | Gauge | Durasi operasi listStatus yang dilakukan pada sisi klien JindoCache. |
Tabel berikut menjelaskan metrik klien FUSE JindoCache yang ditampilkan di dasbor Fluid JindoRuntime.
Metrik | Tipe | Deskripsi |
jindo_fuse_open_count | Gauge | Jumlah operasi open yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_open_latency | Gauge | Latensi P50 operasi open yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_open_latency_80 | Gauge | Latensi P80 operasi open yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_open_latency_90 | Gauge | Latensi P90 operasi open yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_open_latency_99 | Gauge | Latensi P99 operasi open yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_open_latency_999 | Gauge | Latensi P99.9 operasi open yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_open_latency_9999 | Gauge | Latensi P99.99 operasi open yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_getattr_count | Gauge | Jumlah operasi getAttr yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_getattr_latency | Gauge | Latensi P50 operasi getAttr yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_getattr_latency_80 | Gauge | Latensi P80 operasi getAttr yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_getattr_latency_90 | Gauge | Latensi P90 operasi getAttr yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_getattr_latency_99 | Gauge | Latensi P99 operasi getAttr yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_getattr_latency_999 | Gauge | Latensi P99.9 operasi getAttr yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_getattr_latency_9999 | Gauge | Latensi P99.99 operasi getAttr yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_readdir_count | Gauge | Jumlah operasi readDir yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_readdir_latency | Gauge | Latensi P50 operasi readDir yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_readdir_latency_80 | Gauge | Latensi P80 operasi readDir yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_readdir_latency_90 | Gauge | Latensi P90 operasi readDir yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_readdir_latency_99 | Gauge | Latensi P99 operasi readDir yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_readdir_latency_999 | Gauge | Latensi P99.9 operasi readDir yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_readdir_latency_9999 | Gauge | Latensi P99.99 operasi readDir yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_read_count | Gauge | Jumlah operasi read yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_read_latency | Gauge | Latensi P50 operasi read yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_read_latency_80 | Gauge | Latensi P80 operasi read yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_read_latency_90 | Gauge | Latensi P90 operasi read yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_read_latency_99 | Gauge | Latensi P99 operasi read yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_read_latency_999 | Gauge | Latensi P99.9 operasi read yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_read_latency_9999 | Gauge | Latensi P99.99 operasi read yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_write_count | Gauge | Jumlah operasi write yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_write_latency | Gauge | Latensi P50 operasi write yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_write_latency_80 | Gauge | Latensi P80 operasi write yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_write_latency_90 | Gauge | Latensi P90 operasi write yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_write_latency_99 | Gauge | Latensi P99 operasi write yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_write_latency_999 | Gauge | Latensi P99.9 operasi write yang dilakukan oleh klien Jindo FUSE. |
jindo_fuse_write_latency_9999 | Gauge | Latensi P99.99 operasi write yang dilakukan oleh klien Jindo FUSE. |
Referensi
Untuk informasi lebih lanjut tentang Fluid, lihat Dataset elastis.
Untuk informasi lebih lanjut tentang panel Fluid, lihat Parameter dasbor Fluid.