阿里云Prometheus监控支持Agent副本数水平伸缩(HPA)自动扩容的能力。由于配置的Agent副本数量不足,导致Agent不断产生内存溢出发生重启。因此Prometheus监控新增Agent副本数的HPA自动扩容功能,可以自动调整Agent副本数。

表 1. Helm及Agent镜像版本号具备的自动扩容能力
Helm版本号 Agent镜像版本号 是否具备自动扩容能力
v1.0.0 arms-prom-operator:v3.0.0
≤v0.1.8 arms-prom-operator:v0.1
说明 Helm及Agent镜像版本的详细说明,请参见Helm版本说明

以下两种情况Agent副本数会进行自动扩容:

  • 当Agent单副本运行时:其Master副本既需要执行Targets服务发现又需要执行Targets抓取,如果因为Metrics量级过多导致Agent因为OOM而终止进程时,Agent副本数会一次性自动扩容为3个。
  • 当Agent多副本运行时:其Master副本仅需执行Targets服务发现,由Worker副本执行Targets抓取。当Worker副本内存使用超过60%时,会进行Targets抓取任务再分配,同时计算出所需的Worker副本数,实现自动扩容。
说明 每个Agent可以抓取的Metrics数量级上限为4,200,000,内存使用上限为60%。