日志服务Logtail支持采集主机CPU、内存、负载、磁盘、网络等监控数据。本文介绍通过Logtail采集主机监控数据的操作步骤。

前提条件

已创建Project和MetricStore。具体操作,请参见创建Project创建MetricStore

使用限制

  • 不支持Windows版本。
  • 不支持采集GPU、硬件状态等监控数据。
  • 只有Linux Logtail 0.16.40及以上版本的Logtail支持采集主机监控数据。如果您已在服务器上安装旧版本的Logtail,需先升级。具体操作,请参见在线升级Logtail

操作步骤

  1. 登录日志服务控制台
  2. 接入数据区域的监控数据页签下,单击主机监控
  3. 选择目标Project和MetricStore,单击下一步
  4. 创建机器组。
    • 如果您已有可用的机器组,请单击使用现有机器组
    • 如果您还没有可用的机器组,请执行以下操作(以ECS为例)。
      1. ECS机器页签中,通过手动选择实例方式选择目标ECS实例,单击创建
        具体操作,请参见安装Logtail(ECS实例)
        重要 如果您的服务器是与日志服务属于不同账号的ECS、其他云厂商的服务器和自建IDC时,您需要手动安装Logtail。具体操作,请参见安装Logtail(Linux系统)。手动安装Logtail后,您必须在该服务器上手动配置用户标识。具体操作,请参见配置用户标识
      2. 安装完成后,单击确认安装完毕
      3. 创建机器组页面,输入名称,单击下一步

        日志服务支持创建IP地址机器组和用户自定义标识机器组,详细参数说明请参见创建IP地址机器组创建用户自定义标识机器组

  5. 选中目标机器组,将该机器组从源机器组移动到应用机器组,单击下一步
    重要 创建机器组后立刻应用,可能因为连接未生效,导致心跳为FAIL,您可单击自动重试。如果还未解决,请参见Logtail机器组无心跳进行排查。
  6. 数据源设置页签中,设置配置名称插件配置,然后单击下一步
    inputs为数据源配置,必选项。
    重要 一个inputs中只允许配置一个类型的数据源。
    {
        "inputs": [
            {
                "detail": {
                    "IntervalMs": 30000
                },
                "type": "metric_system_v2"
            }
        ]
    }
    参数类型是否必选参数说明
    typestring数据源类型,固定为metric_system_v2。
    IntervalMsint每次请求的间隔,单位:ms。不能低于5000,建议设置为30000。

指标说明

主机CPU、内存、负载、磁盘、网络等指标说明如下:
  • CPU相关指标
    指标名说明单位示例
    cpu_countCPU核数2.0
    cpu_utilCPU使用率,计算方式为排除idle、wait、steal后的占比百分号(%)7.68
    cpu_guest_util客户时间(guest time)占比百分号(%)0.0
    cpu_guestnice_utilNice进程客户时间(nice guest time)占比百分号(%)0.0
    cpu_irq_util硬中断处理时间(Hard Irq time)占比百分号(%)0.0
    cpu_nice_utilNice时间(Nice time)占比百分号(%)0.0
    cpu_softirq_util软中断处理时间(Soft Irq time)占比百分号(%)0.06
    cpu_steal_util等待宿主机CPU时间(Steal time)占比百分号(%)0.0
    cpu_sys_util内核态(System time)占比百分号(%)2.77
    cpu_user_util用户态(User time)占比百分号(%)4.84
    cpu_wait_util等待IO(Waiting time)占比百分号(%)0.11
  • 内存相关指标
    指标名说明单位示例
    mem_util内存使用率百分号(%)51.03
    mem_cache已申请但未使用的内存byte3566386668.0
    mem_free未使用的内存byte177350084.0
    mem_available可用内存byte3699885553.0
    mem_used已使用内存byte4041510463.0
    mem_swap_utilswap内存使用率百分号(%)0.0
    mem_total内存总量byte7919128576.0
  • 磁盘相关指标
    指标名说明单位示例
    disk_rbps硬盘每秒读取流量byte/s8376.81
    disk_wbps硬盘每秒写入流量byte/s247633.58
    disk_riops硬盘每秒读取次数次/s0.22
    disk_wiops硬盘每秒写入次数次/s43.39
    disk_rlatency平均读延迟ms2.83
    disk_wlatency平均写延迟ms2.15
    disk_utilIO使用率百分号(%)0.27
    disk_space_usage磁盘使用百分比百分号(%)9.12
    disk_inode_usageinode使用率百分号(%)1.18
    disk_space_used磁盘已使用容量byte11068512238.59
    disk_space_total磁盘总量byte126692061184.0
    disk_inode_totalinode总量byte7864320.0
    disk_inode_usedinode已使用容量byte93054.78
  • NET相关指标
    指标名说明单位示例
    net_drop_util丢弃的数据包占总数据包的比值百分号(%)0.0
    net_err_util报错数据包占总数据包的比值百分号(%)0.0
    net_in网络接收速率byte/s8440.91
    net_in_pkt每秒接收的数据包个/s40.83
    net_out网络发送速率byte/s12446.53
    net_out_pkt每秒发送的数据包个/s39.95
  • TCP相关指标
    指标名说明单位示例
    protocol_tcp_established已建立连接数205.0
    protocol_tcp_insegs接收的所有报文数4654.0
    protocol_tcp_outsegs发送的报文数4870.0
    protocol_tcp_retran_segs重传报文数0.0
    protocol_tcp_retran_util重传报文占总发送报文数量的比值百分号(%)0.0
  • system相关指标
    指标名说明单位示例
    system_boot_time系统启动时间s1578461935.0
    system_load1系统平均负载,1分钟平均值不涉及0.58
    system_load5系统平均负载,5分钟平均值不涉及0.68
    system_load15系统平均负载,15分钟平均值不涉及0.60

后续步骤

  • 查询分析

    采集到数据后,您可以在MetricStore查询分析页面进行查询分析操作。更多信息,请参见查询和分析时序数据

  • 日志服务可视化
    日志服务自动在对应Project中生成主机监控仪表盘,您可以直接使用该仪表盘查看查询分析结果,及进行告警等相关操作。主机监控
  • Grafana可视化

    日志服务为主机监控数据提供Grafana模板,您可以使用Grafana仪表盘展示查询分析结果。更多信息,请参见使用Prometheus采集Kubernetes监控数据。Grafana模板详情请参见《1 SLS主机监控单机指标v2020.08.08》