介绍 Hologres AI 节点(GPU)与 AI 模型相关的监控指标,便于查看资源使用率、调用量与延迟,并配置告警。
AI指标一览表
AI 资源指标:购买 AI资源后,用于查看 AI 节点整体使用情况。
AI 模型指标:用于查看在 Hologres 中部署的每个模型的资源使用情况,包括模型级调用情况、各模型所分配 AI 资源的使用情况等,便于判断模型使用是否合理。模型部署说明请参见AI模型与部署。
分类 | 指标 | 指标描述 | 支持的实例类型 | 备注 |
AI资源 | AI 资源组 CPU 使用率 | AI 节点的总 CPU 使用率 |
| 仅购买 AI 资源并投入使用后,指标才有数据。购买方式参见AI资源定价与购买。 |
AI 资源组内存使用率 | AI 节点的总内存使用率 | |||
AI 资源组 GPU 使用率 | AI 节点的总 GPU 使用率 | |||
AI模型 | AI 模型服务 CPU 使用率 | 每个模型的 CPU 使用率 | 仅部署模型且使用 AI Function 调用模型后,指标才有数据。部署参见AI模型与部署,调用参见AI Function。 | |
AI 模型服务内存使用率 | 每个模型的内存使用率 | |||
AI 模型服务 GPU 使用率 | 每个模型的 GPU 使用率 | |||
AI 模型服务调用 QPS | 通过 AI Function 调用模型的 QPS | |||
AI 模型服务平均响应时间 | 通过 AI Function 调用模型的平均延迟 | |||
AI 模型服务最大响应时间 | 通过 AI Function 调用模型的最大延迟 | |||
AI 模型服务调用成功的 QPS | 通过 AI Function 调用模型的成功 QPS | |||
AI 模型服务调用失败的 QPS | 通过 AI Function 调用模型的失败 QPS | |||
AI 模型服务入流量 | 通过 AI Function 调用模型的入口流量 | |||
AI 模型服务出流量 | 通过 AI Function 调用模型的出口流量 |