AI节点资源监控 - 实时数仓Hologres

介绍 Hologres AI 节点（GPU）与 AI 模型相关的监控指标，便于查看资源使用率、调用量与延迟，并配置告警。

AI指标一览表

AI 资源指标：购买 AI资源后，用于查看 AI 节点整体使用情况。
AI 模型指标：用于查看在 Hologres 中部署的每个模型的资源使用情况，包括模型级调用情况、各模型所分配 AI 资源的使用情况等，便于判断模型使用是否合理。模型部署说明请参见AI模型与部署。

分类	指标	指标描述	支持的实例类型	备注
AI资源	AI 资源组 CPU 使用率	AI 节点的总 CPU 使用率	通用型计算组型主从实例	仅购买 AI 资源并投入使用后，指标才有数据。购买方式参见AI资源定价与购买。
	AI 资源组内存使用率	AI 节点的总内存使用率
	AI 资源组 GPU 使用率	AI 节点的总 GPU 使用率
AI模型	AI 模型服务 CPU 使用率	每个模型的 CPU 使用率		仅部署模型且使用 AI Function 调用模型后，指标才有数据。部署参见AI模型与部署，调用参见AI Function。
	AI 模型服务内存使用率	每个模型的内存使用率
	AI 模型服务 GPU 使用率	每个模型的 GPU 使用率
	AI 模型服务调用 QPS	通过 AI Function 调用模型的 QPS
	AI 模型服务平均响应时间	通过 AI Function 调用模型的平均延迟
	AI 模型服务最大响应时间	通过 AI Function 调用模型的最大延迟
	AI 模型服务调用成功的 QPS	通过 AI Function 调用模型的成功 QPS
	AI 模型服务调用失败的 QPS	通过 AI Function 调用模型的失败 QPS
	AI 模型服务入流量	通过 AI Function 调用模型的入口流量
	AI 模型服务出流量	通过 AI Function 调用模型的出口流量