Fluid是开源Kubernetes原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例如大数据应用、AI应用等。Fluid提供面向应用的数据集统一抽象、可扩展的数据引擎插件、自动化数据操作、通用数据加速、运行时平台无关等核心功能。阿里云Prometheus监控支持一键安装Fluid组件,并提供开箱即用的监控大盘。本文介绍如何为Fluid开启Prometheus监控。
前提条件
已为ACK集群或ACK Serverless集群开启阿里云Prometheus监控。具体操作,请参见阿里云Prometheus监控。
已部署云原生AI套件(选择开启Fluid数据加速功能),并确保ack-fluid组件版本为0.9.7及以上。具体操作,请参见部署云原生AI套件。
使用限制
仅支持类型为Prometheus for 容器服务的Prometheus实例接入Fluid组件。
仅支持对Fluid控制面组件进行监控,例如Fluid控制器、Fluid Webhook等组件。
步骤一:接入Fluid
登录ARMS控制台。
在左侧导航栏单击接入中心,然后在人工智能区域单击Fluid卡片。
若显示已经安装Fluid组件,则无需再重复安装。
在Fluid页面的选择容器服务集群区域,选择目标集群。
在配置信息区域配置参数,然后单击确定,完成组件接入。
配置项
说明
接入名称(非必填)
当前Fluid监控唯一名称。
metrics采集间隔(秒)
监控数据采集时间间隔。
已接入的组件会在Fluid卡片显示已安装1个Exporter。单击该组件卡片,在弹出的面板中可以查看Targets、指标、大盘、告警、服务发现配置、Exporter等信息。
步骤二:查看Fluid大盘数据
(推荐)从容器服务控制台查看Fluid大盘数据
登录容器服务管理控制台,在左侧导航栏单击集群。
在集群列表页面,单击已接入Fluid组件的ACK集群或ACK Serverless集群,然后在左侧导航栏,选择 。
在Prometheus监控页面,选择
,查看其监控大盘的详情数据。在Fluid大盘中,您可以查看有关Fluid控制面组件的详情数据,Prometheus监控提供的Fluid大盘数据包括Fluid组件运行状态、Fluid控制器处理耗时、Fluid Webhook处理请求量QPS、请求处理时延,以及各组件资源使用量等等。更多详细信息,请参见Fluid监控大盘参数说明。
在组件运行状态区域,可查看Fluid控制面组件的就绪Pod数量,历史重启次数和历史重启时刻等信息。
在Fluid控制器详细指标区域,可查看Fluid控制器组件闲忙程度、处理失败情况、Kubernetes API请求等信息。
在Fluid Webhook详细指标区域,可查看Fluid Webhook组件资源使用、请求处理数量以及请求处理时延等信息。
在资源使用区域,可查看Fluid控制面的全部组件的资源使用和网络收发速率等信息。
从ARMS控制台查看Fluid大盘数据
登录ARMS控制台。
左侧导航栏单击接入管理,在组件类型区域选择Fluid,并单击右侧的大盘页签,然后单击页面底部的Fluid Control Plane,您可以查看其监控大盘的详情数据。
在Fluid大盘中,您可以查看有关Fluid控制面组件的详情数据,Prometheus监控提供的Fluid大盘数据包括Fluid组件运行状态、Fluid控制器处理耗时、Fluid Webhook处理请求量QPS、请求处理时延,以及各组件资源使用量等等。更多详细信息,请参见Fluid监控大盘参数说明。
在组件运行状态区域,可查看Fluid控制面组件的就绪Pod数量,历史重启次数和历史重启时刻等信息。
在Fluid控制器详细指标区域,可查看Fluid控制器组件闲忙程度、处理失败情况、Kubernetes API请求等信息。
在Fluid Webhook详细指标区域,可查看Fluid Webhook组件资源使用、请求处理数量以及请求处理时延等信息。
在资源使用区域,可查看Fluid控制面的全部组件的资源使用和网络收发速率等信息。
监控指标说明
Fluid控制面各组件使用的指标清单如下。
指标 | 类型 | 说明 |
dataset_ufs_total_size | Gauge | 当前集群内存活的Dataset资源对象挂载的数据集大小。 |
dataset_ufs_file_num | Gauge | 当前集群内存活的Dataset资源对象挂载的数据集文件数量。 |
runtime_setup_error_total | Counter | 控制器Reoncile过程中启动Runtime操作失败数量。 |
runtime_sync_healthcheck_error_total | Counter | 控制器Reconcile过程中Runtime健康检查操作失败数量。 |
controller_runtime_reconcile_time_seconds_bucket | Histogram | 控制器Reconcile流程耗时。 |
controller_runtime_reconcile_errors_total | Counter | 控制器Reconcile失败数量。 |
controller_runtime_reconcile_total | Counter | 控制器已完成的Reconcile过程总数。 |
controller_runtime_max_concurrent_reconciles | Gauge | 控制器的最大可用Reconcile协程数量。 |
controller_runtime_active_workers | Gauge | 控制器当前处于活跃状态的Reconcile协程数量。 |
workqueue_adds_total | Counter | 控制器Workqueue处理的Adds事件的数量。 |
workqueue_depth | Gauge | 控制器Workqueue当前队列深度。 |
workqueue_queue_duration_seconds_bucket | Histogram | 待处理对象在控制器Workqueue中等待时长。 |
workqueue_work_duration_seconds_bucket | Histogram | 控制器历史已完成的处理过程的时长分布。 |
workqueue_unfinished_work_seconds | Gauge | 控制器Workqueue中当前正在被处理,但还未处理完成的任务的总时长。 |
workqueue_longest_running_processor_seconds | Gauge | 控制器历史处理过程最大时长。 |
rest_client_requests_total | Counter | 从状态值(Status Code)、方法(Method)和主机(Host)维度分析的到的HTTP请求数。 |
rest_client_request_duration_seconds_bucket | Histogram | 从方法(Verb)和URL维度分析得到的HTTP请求时延。 |
controller_runtime_webhook_requests_in_flight | Gauge | Webhook当前正在处理的请求数量。 |
controller_runtime_webhook_requests_total | Counter | Webhook处理请求数量。 |
controller_runtime_webhook_latency_seconds_bucket | Histogram | Webhook处理请求时延。 |
process_cpu_seconds_total | Counter | CPU使用时长。 |
process_resident_memory_bytes | Gauge | 内存使用量。 |
相关文档
关于Fluid更多信息,请参见数据加速Fluid概述。
关于Fluid监控面板参数说明,请参见Fluid监控大盘参数说明。