本文介绍Spark监控的概览和详细信息。

前提条件

已创建Hadoop类型的集群,详情请参见创建集群

监控入口

  1. 登录阿里云E-MapReduce控制台
  2. 在顶部菜单栏处,根据实际情况选择地域(Region)和资源组
  3. 单击上方的监控大盘页签。
  4. 在左侧导航栏,单击集群监控
  5. 集群状态列表页面,单击待查看集群所在行的监控详情
  6. 在左侧导航栏,选择服务监控 > Spark

    即可进入Spark服务监控页面。

Spark监控概览页

Spark监控概览页面,默认展示了该集群Spark服务相关的JVM指标数据图表、最近一天的告警和异常信息和进程启停历史。

  • 告警与详情:展示该集群当天与Spark服务相关的严重异常事件。
  • SparkHistory进程JVM指标:展示SparkHistory进程内存使用情况、SparkHistory进程GC时间、SparkHistory进程GC次数、堆内存和非堆内存。
  • SparkHistory进程文件描述符信息:展示了SparkHistory进程可以使用的最大文件描述符数目和当前已经使用的文件描述符数目。
  • SparkHistory进程启停历史。
    参数 说明
    时间 操作发生的时间点。
    启动/重启/停止 说明本次对组件操作的类型,包括启动、停止和重启。
    是否自动拉起 说明本次操作是否由E-MapReduce的保活机制自动拉起,对于异常退出的组件,EMR Agent自动拉起保证服务的可用性。
    启动用户 本次操作的Linux用户,对于停止状态的进程无该信息。
    PID 本次操作产生的进程ID,对于停止状态的进程无该信息。
    PPID 本次操作产生的父进程ID,对于停止状态的进程无该信息。
    启动参数 本次操作产生的进程的详细启动参数,对于停止状态的进程无该信息。