监控 EAS 服务集群性能指标 - 人工智能平台 PAI -Alibaba Cloud

EAS大盘监控为用户提供了一个统一的监控面板，用于实时查看和管理该账号在特定地域内所有已部署的EAS服务的整体性能指标。通过大盘监控，用户可以快速掌握服务集群的整体状态，而无需逐一查看每个服务的详细信息。

主要用途

整体服务概览：快速了解当前账号在该地域的所有EAS服务的整体运行状况
性能监控：实时监控汇总的关键性能指标（QPS、响应时间、副本数等）
资源管理：了解资源占用情况，为扩缩容决策提供数据支撑
故障排查：通过监控数据识别性能异常或服务问题
容量规划：基于历史监控数据进行容量预估和规划

查看大盘监控

重要

大盘监控的数据是地域级别的，会聚合主账号在当前所选地域下所有工作空间的服务数据。切换工作空间仅影响控制台当前上下文，不会改变大盘监控的数据范围。

登录PAI控制台，在页面上方选择目标地域，并在右侧选择目标工作空间，然后单击进入EAS。
切换到大盘监控页签，查看监控指标。大盘监控页面主要提供以下功能：
- 时间范围选择：支持最近5分钟、15分钟等多种时间范围选择，默认最近6小时。
- 手动刷新：点击刷新按钮获取最新数据（可设置自动刷新频率）。
- 维度过滤：按User维度筛选数据（All或特定用户）。
- 图表交互：鼠标悬停查看数据、点击图例切换显示。

监控指标说明

Service监控仪表盘

下表展示了Service仪表盘的所有监控指标及其详细说明：

计算方式说明：加总表示主账号下该地域所有EAS服务实例该指标的总和。均值表示主账号下该地域所有EAS服务实例该指标的平均。

指标分类	指标名称	指标含义	计算方式	用途
请求性能	QPS	每秒请求数。	加总	评估服务集群的整体吞吐能力。结合错误率指标，判断业务高峰与故障风暴。
请求性能	Avg RT	平均响应时间：从请求到收到响应的平均时间。	均值	评估服务集群的整体响应速度。识别全局性的性能瓶颈。
实例规模	Replicas	实例数量。包含三个子指标： TotalReplicas（总数） PendingReplicas（待机） AvailableReplicas（可用）	加总	了解服务集群的实时规模。监控自动扩缩容行为是否符合预期。
实例规模	Replicas By Resource	按资源类型分解的实例数。	加总	了解资源分布。
CPU	CPU Total	服务可用的CPU总数。	加总	评估CPU资源预留总量。
	CPU Utilization	CPU利用率。	均值	评估集群整体CPU使用效率，为容量规划和成本优化提供依据。
	CPU Usage	CPU使用量。	均值	主要用于评估和估算CPU资源的消耗成本。
内存	Memory	内存使用量。 RSS：常驻内存使用量总和。 Cache：页面缓存使用量总和。	均值	监控系统内存占用情况，判断是否资源紧张、定位性能瓶颈。
内存	Memory Utilization	内存利用率。	均值	评估整体内存资源使用效率。
GPU	GPU Total	占用的GPU总数。	加总	评估GPU资源规模。
	GPU Utilization	GPU利用率。	均值	评估GPU资源使用效率。
	GPU Memory	GPU内存实际使用量。	均值	评估GPU内存消耗。
流量与调用	Traffic	所有服务网络进（In）出（Out）流量的总和。	加总	反映服务网络通信情况。
流量与调用	Daily Invoke	按HTTP状态码统计的每日调用数。	加总	用于观察长期的业务健康度和错误率趋势。

说明

QPS和Avg RT是最重要的性能指标；Replicas指标反映集群伸缩容情况；CPU、内存、GPU指标反映资源消耗；Traffic和Daily Invoke指标反映服务的整体流量和调用情况。

GPU监控仪表盘

GPU仪表盘专门针对使用GPU资源的服务提供详细的监控和分析，帮助用户优化GPU资源利用率。

指标分类	指标名称	指标含义	用途
总览指标	Total GPU usage	当前账号在该地域所有服务占用的GPU总数	反映GPU资源总体规模，用于资源容量规划
	Average GPU utilization	所有使用GPU服务的平均利用率百分比	衡量GPU资源整体使用效率，识别资源浪费风险
	Number of services using GPUs	当前正在使用GPU资源的服务总数	了解GPU服务分布，评估资源使用广度
服务利用率分别	Number of services with average GPU utilization below 10%	平均GPU利用率低于10%的服务数量	识别资源浪费严重的服务，优先进行资源优化或释放
	Number of services with average GPU utilization below 30%	平均GPU利用率低于30%的服务数量	识别资源利用不足的服务，考虑调整资源配置
	Number of services with average GPU utilization above 50%	平均GPU利用率高于50%的服务数量	识别GPU资源充分利用的服务，验证优化效果
GPU利用率分布	Number of GPUs with average utilization below 10%	平均利用率低于10%的GPU卡数量	识别闲置GPU资源，释放成本
	Number of GPUs with average utilization below 30%	平均利用率低于30%的GPU卡数量	识别利用率偏低的GPU，调整资源配置
	Number of GPUs with average utilization above 50%	平均利用率高于50%的GPU卡数量	识别GPU资源充分利用的服务，评估是否需要扩容
资源分布	Number of GPUs in dedicated resource groups(including Lingjun)	专属资源组（包含灵骏）中的GPU数量	监控专属资源变化，进行容量规划
	Number of GPUs in public resource groups	公共资源组中的GPU数量	监控公共资源使用情况，优化资源分配策略
	Number of GPUs in spot instances(including Lingjun)	抢占式实例（包含灵骏）中的GPU数量	监控低成本GPU资源，平衡成本与稳定性
详细利用率	Detailed GPU utilization per service	提供每个服务的GPU详细利用率信息无数据时显示"No data"	深入分析单个服务的GPU使用情况，定位性能问题

说明

GPU仪表盘特别适用于优化GPU资源成本。通过关注低利用率指标，可以及时发现和调整资源配置不合理的服务，避免GPU资源浪费。

注意事项

大盘监控数据基于该地域主账号下所有服务进行聚合计算，数据更新可能存在一定延迟
为了获得更详细的监控信息，可以结合单个服务的监控页面进行深入分析

常见问题

Q: 为什么大盘的CPU利用率很低，但我的服务却无法扩容或提示资源不足？

大盘监控展示的是所有服务聚合后的平均利用率，可能存在部分服务空闲拉低了平均值，但集群的物理资源已经耗尽。请检查 Pending_Replicas 指标，如果该值持续大于0，通常表明集群资源池已满，无法调度新的实例，此时需要对集群进行扩容或优化现有服务的资源配置。

Q: 如何查看特定服务的详细监控数据？

进入推理服务标签页，选择目标服务，进入服务详情页。
切换到监控页签查看该服务的详细监控图表。指标说明参见服务监控说明。