本文介绍Kafka监控的概览和详细信息。

前提条件

已创建Kafka类型的集群,详情请参见创建集群

监控入口

  1. 登录阿里云E-MapReduce控制台
  2. 在顶部菜单栏处,根据实际情况选择地域和资源组
  3. 单击上方的监控大盘页签。

    概览页面,单击右上角的返回旧版监控大盘,默认进入仪表盘页面。

  4. 在左侧导航栏,单击集群监控
  5. 集群状态列表页面,单击待查看集群所在行的监控详情
  6. 在左侧导航栏中,选择服务监控 > Kafka

    即可进入Kafka服务监控页面。

Kafka服务监控概览页面

Kafka服务监控概览页面展示了Kafka基础指标图表、Kafka服务最近一天的异常、告警列表和Kafka broker状态列表。

Kafka broker状态列表列出了broker所在主机的CPU、内存、堆内存和非堆内存使用情况,以及文件描述符使用情况。可单击主机名称,进入 broker监控详情页面。

Kafka Broker监控详情页面

  • Kafka Broker进程JVM指标:展示堆内存和非堆内存使用情况。kafka_jvm
  • Kafka Broker进程文件描述符信息:展示了Broker进程可以使用的最大文件描述符数目和当前已经使用的文件描述符数目。kafka_broker
  • Kafka Broker核心指标。
    • 失败的请求数:包括每秒失败的Fetch请求数和每秒失败的Produce请求数。
    • Broker网络流量:包括Broker入方向网络流量和Broker出方向网络流量。
    • Offline Count:包括离线的日志目录、离线的副本数和离线的分区数。
    • Replica Manager Disk Usage:包括最大值、最小值、平均值和标准差。
    • Message:每秒流入的消息数。
    • Total Fetch Requests:每秒Fetch请求总数。
  • Kafka Broker进程启停历史。broker_history
    表格具体含义,请参见下表。
    参数 说明
    时间 操作发生的时间点。
    启动/重启/停止 说明本次对组件操作的类型,包括启动、停止和重启。
    是否自动拉起 说明本次操作是否由E-MapReduce的保活机制自动拉起,对于异常退出的组件,EMR Agent自动拉起保证服务的可用性。
    启动用户 本次操作的Linux用户,对于停止状态的进程无该信息。
    PID 本次操作产生的进程ID,对于停止状态的进程无该信息。
    PPID 本次操作产生的父进程ID,对于停止状态的进程无该信息。
    启动参数 本次操作产生的进程的详细启动参数,对于停止状态的进程无该信息。