本文介绍YARN监控的概览和详细信息。

前提条件

已创建Hadhoop或Flink类型的集群。

监控入口

  1. 登录阿里云 E-MapReduce 控制台
  2. 单击上方的监控大盘
  3. 在左侧导航栏中,单击集群监控
  4. 集群状态列表页面,单击待查看集群所在行的监控详情
  5. 在左侧导航栏中,单击服务监控 > YARN,进入YARN服务监控概览页面。

YARN监控概览页

YARN监控概览页面,展示了该集群YARN服务的基础指标图表、最近的告警和异常信息、ResourceManager状态列表、NodeManager状态列表、JobHistory状态列表、Queue Capacity Scheduler使用情况监控。状态列表均支持回放功能。

YARN_monitor_browse
  • YARN 基础指标数据图表:默认显示当天的告警数据、VCores、Memory、NodeManager分布数据统计、等待中的资源信息、应用数目、容器数目和ResourceManager主备状态。
  • YARN相关告警:展示该集群当天与YARN服务相关的严重异常事件。
  • ResourceManager状态列表:展示该集群当前最新的状态数据。
    参数 说明
    主机名称 当前ResourceManager的主机名称。单击主机名可查看该节点的监控详情信息。
    主机状态 当前ResourceManager的主备状态,HA集群会有Active和Standby区分,非HA集群正常都是Active状态。
    端口状态 显示当前ResourceManager进程的端口是否正常,绿色表示正常、红色表示异常。
    进程CPU使用率 当前ResourceManager进程的CPU使用率。
    Memory 当前NameNode进程的内存使用情况,包括Heap Committed、Heap Init、Heap Max、Heap Used、NonHeap Committed、NonHeap Init和NonHeap Used。
    JVM GC统计信息 使用jstat -gcutil的格式展示了当前NameNode java进程的GC统计数据:
    • S0:幸存1区当前使用比例。
    • S1:幸存2区当前使用比例。
    • O:老年代使用比例。
    • E:Eden区容量使用比例。
    • M:元数据区使用比例。
    • CCS:压缩使用比例。
    • YGCT:年轻代垃圾回收消耗时间。
    • FGCT:老年代垃圾回收消耗时间。
    • GCT:垃圾回收消耗总时间。
    • YGC:年轻代垃圾回收次数。
    • FGC:老年代垃圾回收次数。
    RPC调用队列长度 当前NameNode RPC端口上的RPC调用队列长度,可以反应RPC的请求处理的堆积情况。
    RPC调用处理时间 RPC请求的排队时间。
    RPC调用排队时间 RPC请求的处理时间。
  • NodeManager状态列表:展示当前集群各个NodeManager最新的状态信息。
    参数 说明
    主机名称 当前NodeManager的主机名称。单击主机名可查看该节点的监控详情信息。
    状态 NodeManager当前状态,包括LOST、RUNNING、UNHEALTHY。
    架构信息 NodeManager所在的机架信息。
    节点地址 NodeManager当前节点的IP地址。
    节点HTTP地址 NodeManager当前节点的HTTP地址。
    最后一次健康状态更新时间 最后一次心跳时间。
    健康报告 健康报告,如果NodeManager异常这里会展示相应内容。
    容器数目 当前NodeManager上容器的数目。
    使用的内存 当前NodeManager上使用内存的情况。
    可用的内存 当前NodeManager上可以使用的内存情况
    使用的VCore数目 当前NodeManager上使用的VCore数目。
    可用的VCore数目 当前NodeManager上可用的VCore数目。
  • JobHistory状态列表:集群所有 JobHistory 列表和最新状态。JobHistory_list
    参数 说明
    主机名称 当前JobHistory进程所在主机的主机名称。单击主机名可查看该节点的监控详情信息。
    端口状态 显示当前JobHistory进程的端口是否正常,绿色表示正常、红色表示异常。
    进程CPU使用率 当前JobHistory进程的CPU使用率。
    堆内存 当前JobHistory进程的内存使用情况统计,包括Heap Used、Heap Committed、Heap Max、Heap Init。
    非堆内容 当前JobHistory进程的非堆内存使用情况统计,包括NonHeap Used、NonHeap Committed、NonHeap Init。
    JVM GC统计信息
    • S0:幸存1区当前使用比例。
    • S1:幸存2区当前使用比例。
    • O:老年代使用比例。
    • E:Eden区容量使用比例。
    • M:元数据区使用比例。
    • CCS:压缩使用比例。
    • YGCT:年轻代垃圾回收消耗时间。
    • FGCT:老年代垃圾回收消耗时间。
    • GCT:垃圾回收消耗总时间。
    • YGC:年轻代垃圾回收次数。
    • FGC:老年代垃圾回收次数。
  • Queue Capacity Scheduler实时状态和详情:展示了当前集群的YARN Scheduler各个队列资源的详细使用情况,单击具体的队列,可以展示当前队列的详情。Scheduler Queue_statues

YARN ResourceManager 监控详情页

在YARN监控概览页面,单击ResouceManager状态列表的主机名称,可以进入对应ResourceManager监控详情页。

  • ResourceManager 进程JVM指标,包括ResourceManager 进程内存使用情况、ResourceManager 进程GC时间、ResourceManager 进程GC次数、堆内存、非堆内存。
  • ResourceManager 进程文件描述符信息,展示了ResourceManager进程可以使用的最大文件描述符数目和当前已经使用的文件描述符数目。
  • ResourceManager PRC指标,包括RPC调用队列长度、接收的字节数、发送的字节数、打开的连接数、RPC调用平均排队时间、RPC调用平均处理时间。
  • ResourceManager 进程启停历史。
    参数 说明
    时间 操作发生的时间点。
    启动/重启/停止 说明本次对组件操作的类型,包括启动、停止和重启。
    是否自动拉起 说明本次操作是否由E-MapReduce的保活机制自动拉起,对于异常退出的组件,EMR Agent自动拉起保证服务的可用性。
    启动用户 本次操作的Linux用户,对于停止状态的进程无该信息。
    PID 本次操作产生的进程ID,对于停止状态的进程无该信息。
    PPID 本次操作产生的父进程ID,对于停止状态的进程无该信息。
    启动参数 本次操作产生的进程的详细启动参数,对于停止状态的进程无该信息。

NodeManager 监控详情页

在YARN监控概览页面,单击NodeManager状态列表的主机名称,可以进入对应NodeManager监控详情页。

  • NodeManager核心指标,包括NodeManager 进程内存使用情况、NodeManager 进程GC时间、NodeManager 进程GC次数、堆内存、非堆内存和当前 NodeManager Container信息。
  • ResourceManager 进程启停历史。
    参数 说明
    时间 操作发生的时间点。
    启动/重启/停止 说明本次对组件操作的类型,包括启动、停止和重启。
    是否自动拉起 说明本次操作是否由E-MapReduce的保活机制自动拉起,对于异常退出的组件,EMR Agent自动拉起保证服务的可用性。
    启动用户 本次操作的Linux用户,对于停止状态的进程无该信息。
    PID 本次操作产生的进程ID,对于停止状态的进程无该信息。
    PPID 本次操作产生的父进程ID,对于停止状态的进程无该信息。
    启动参数 本次操作产生的进程的详细启动参数,对于停止状态的进程无该信息。

JobHistory 监控详情页

在YARN监控概览页面,单击JobHistory状态列表的主机名称,可以进入对应JobHistory监控详情页。

  • JobHistory 进程JVM指标,包括JobHistory 进程内存使用情况、JobHistory 进程GC时间、JobHistory 进程GC次数、堆内存、非堆内存。
  • JobHistory 进程文件描述符信息,展示了JobHistory进程可以使用的最大文件描述符数目和当前已经使用的文件描述符数目。
  • JobHistory 进程启停历史。
    参数 说明
    时间 操作发生的时间点。
    启动/重启/停止 说明本次对组件操作的类型,包括启动、停止和重启。
    是否自动拉起 说明本次操作是否由E-MapReduce的保活机制自动拉起,对于异常退出的组件,EMR Agent自动拉起保证服务的可用性。
    启动用户 本次操作的Linux用户,对于停止状态的进程无该信息。
    PID 本次操作产生的进程ID,对于停止状态的进程无该信息。
    PPID 本次操作产生的父进程ID,对于停止状态的进程无该信息。
    启动参数 本次操作产生的进程的详细启动参数,对于停止状态的进程无该信息。