EAS大盘监控为用户提供了一个统一的监控面板,用于实时查看和管理该账号在特定地域内所有已部署的EAS服务的整体性能指标。通过大盘监控,用户可以快速掌握服务集群的整体状态,而无需逐一查看每个服务的详细信息。
主要用途
整体服务概览:快速了解当前账号在该地域的所有EAS服务的整体运行状况
性能监控:实时监控汇总的关键性能指标(QPS、响应时间、副本数等)
资源管理:了解资源占用情况,为扩缩容决策提供数据支撑
故障排查:通过监控数据识别性能异常或服务问题
容量规划:基于历史监控数据进行容量预估和规划
查看大盘监控
大盘监控的数据是地域级别的,会聚合主账号在当前所选地域下所有工作空间的服务数据。切换工作空间仅影响控制台当前上下文,不会改变大盘监控的数据范围。
登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS。
切换到大盘监控页签,查看监控指标。
大盘监控页面主要提供以下功能:时间范围选择:支持最近5分钟、15分钟等多种时间范围选择,默认最近6小时。
手动刷新:点击刷新按钮获取最新数据(可设置自动刷新频率)。
维度过滤:按User维度筛选数据(All或特定用户)。
图表交互:鼠标悬停查看数据、点击图例切换显示。
监控指标说明
Service监控仪表盘
下表展示了Service仪表盘的所有监控指标及其详细说明:
计算方式说明:加总表示主账号下该地域所有EAS服务实例该指标的总和。均值表示主账号下该地域所有EAS服务实例该指标的平均。
指标分类 | 指标名称 | 指标含义 | 计算方式 | 用途 |
请求性能 | QPS | 每秒请求数。 | 加总 |
|
Avg RT | 平均响应时间:从请求到收到响应的平均时间。 | 均值 |
| |
实例规模 | Replicas | 实例数量。包含三个子指标:
| 加总 |
|
Replicas By Resource | 按资源类型分解的实例数。 | 加总 | 了解资源分布。 | |
CPU | CPU Total | 服务可用的CPU总数。 | 加总 | 评估CPU资源预留总量。 |
CPU Utilization | CPU利用率。 | 均值 | 评估集群整体CPU使用效率,为容量规划和成本优化提供依据。 | |
CPU Usage | CPU使用量。 | 均值 | 主要用于评估和估算CPU资源的消耗成本。 | |
内存 | Memory | 内存使用量。
| 均值 | 监控系统内存占用情况,判断是否资源紧张、定位性能瓶颈。 |
Memory Utilization | 内存利用率。 | 均值 | 评估整体内存资源使用效率。 | |
GPU | GPU Total | 占用的GPU总数。 | 加总 | 评估GPU资源规模。 |
GPU Utilization | GPU利用率。 | 均值 | 评估GPU资源使用效率。 | |
GPU Memory | GPU内存实际使用量。 | 均值 | 评估GPU内存消耗。 | |
流量与调用 | Traffic | 所有服务网络进(In)出(Out)流量的总和。 | 加总 | 反映服务网络通信情况。 |
Daily Invoke | 按HTTP状态码统计的每日调用数。 | 加总 | 用于观察长期的业务健康度和错误率趋势。 |
QPS和Avg RT是最重要的性能指标;Replicas指标反映集群伸缩容情况;CPU、内存、GPU指标反映资源消耗;Traffic和Daily Invoke指标反映服务的整体流量和调用情况。
GPU监控仪表盘
GPU仪表盘专门针对使用GPU资源的服务提供详细的监控和分析,帮助用户优化GPU资源利用率。
指标分类 | 指标名称 | 指标含义 | 用途 |
总览指标 | Total GPU usage | 当前账号在该地域所有服务占用的GPU总数 | 反映GPU资源总体规模,用于资源容量规划 |
Average GPU utilization | 所有使用GPU服务的平均利用率百分比 | 衡量GPU资源整体使用效率,识别资源浪费风险 | |
Number of services using GPUs | 当前正在使用GPU资源的服务总数 | 了解GPU服务分布,评估资源使用广度 | |
服务利用率分别 | Number of services with average GPU utilization below 10% | 平均GPU利用率低于10%的服务数量 | 识别资源浪费严重的服务,优先进行资源优化或释放 |
Number of services with average GPU utilization below 30% | 平均GPU利用率低于30%的服务数量 | 识别资源利用不足的服务,考虑调整资源配置 | |
Number of services with average GPU utilization above 50% | 平均GPU利用率高于50%的服务数量 | 识别GPU资源充分利用的服务,验证优化效果 | |
GPU利用率分布 | Number of GPUs with average utilization below 10% | 平均利用率低于10%的GPU卡数量 | 识别闲置GPU资源,释放成本 |
Number of GPUs with average utilization below 30% | 平均利用率低于30%的GPU卡数量 | 识别利用率偏低的GPU,调整资源配置 | |
Number of GPUs with average utilization above 50% | 平均利用率高于50%的GPU卡数量 | 识别GPU资源充分利用的服务,评估是否需要扩容 | |
资源分布 | Number of GPUs in dedicated resource groups(including Lingjun) | 专属资源组(包含灵骏)中的GPU数量 | 监控专属资源变化,进行容量规划 |
Number of GPUs in public resource groups | 公共资源组中的GPU数量 | 监控公共资源使用情况,优化资源分配策略 | |
Number of GPUs in spot instances(including Lingjun) | 抢占式实例(包含灵骏)中的GPU数量 | 监控低成本GPU资源,平衡成本与稳定性 | |
详细利用率 | Detailed GPU utilization per service | 提供每个服务的GPU详细利用率信息 | 深入分析单个服务的GPU使用情况,定位性能问题 |
GPU仪表盘特别适用于优化GPU资源成本。通过关注低利用率指标,可以及时发现和调整资源配置不合理的服务,避免GPU资源浪费。
注意事项
大盘监控数据基于该地域主账号下所有服务进行聚合计算,数据更新可能存在一定延迟
为了获得更详细的监控信息,可以结合单个服务的监控页面进行深入分析
常见问题
Q: 为什么大盘的CPU利用率很低,但我的服务却无法扩容或提示资源不足?
大盘监控展示的是所有服务聚合后的 平均 利用率,可能存在部分服务空闲拉低了平均值,但集群的物理资源已经耗尽。请检查 Pending_Replicas 指标,如果该值持续大于0,通常表明集群资源池已满,无法调度新的实例,此时需要对集群进行扩容或优化现有服务的资源配置。
Q: 如何查看特定服务的详细监控数据?
进入推理服务标签页,选择目标服务,进入服务详情页。
切换到监控页签查看该服务的详细监控图表。指标说明参见服务监控说明。