EMR Doctor实时检测按5分钟为粒度对集群的实时状态进行检查,您可以通过实时检测了解集群当前的状态、出现的问题,以及发生问题的原因,并对相关问题进行修复,保证集群运行的稳定性。

注意信息

如果您的控制台没有健康检查项,则需要开通EMR Doctor。开启健康检查功能的具体操作,请参见开通EMR Doctor(Hadoop集群类型)

启动实时检测

  1. 进入基础信息页面。
    1. 登录EMR on ECS控制台
    2. 在顶部菜单栏处,根据实际情况选择地域和资源组
    3. 集群管理页面,单击目标集群的集群ID
  2. 单击上方的健康检查页签。
  3. 单击启动实时检测
    启动完成后,单击查看最新检测报告,可以查看当前集群详细的检查信息。

    默认不会自动保存实时检测的报告,如果您需要查看近期的实时报告,需要手动保存。目前EMR Doctor支持保存最新30份实时检测报告。

计算资源状态分析

详细分析

该页面为您展示最近5分钟集群任务的详细分析和打分,并给出优化建议,您可以根据优化建议进行调优。同时也会展示部分存在异常行为的作业列表,您可以根据异常作业进行排查。

计算基础信息

在计算基础信息中,您可以查看最近5分钟的图表:
  • 不同引擎集群算力内存时(GB*Sec)使用量
  • 不同引擎集群算力CPU时(VCore*Sec)使用量
  • 不同引擎使用量饼图
  • 提交任务用户内存算力时分布饼图

计算任务信息

EMR Doctor会采集最近5分钟完成的任务以及正在运行的任务,处理和实时分析后为您展示影响集群最重要的任务,您可以根据建议,进行针对性的调优,或者针对异常问题进行处理,从而增强集群的稳定性。

在实时检测中针对不同的计算引擎分别进行分析和异常检测。目前支持的计算引擎包括MapReduce、Tez以及Spark。

目前支持计算任务算力内存时(GB * Sec)Top任务列表和计算任务评分倒序Top任务列表两类任务列表。每条数据包含以下信息。
参数说明
任务名任务的名称。
引擎类型引擎类型包括MapReduce、Tez以及Spark。
SQL语句仅SQL类才有。
APP IDS对于Hive on MR,一个语句可能有多个App Id。
用户名提交任务的用户。
评分任务得分。
健康状态标记任务是否需要治理。
建议指明任务的优化方向。
内存时(GB*Sec)任务的算力内存时之和。
内存利用率任务的平均内存利用率。
CPU时(vCore*Sec)任务的算力CPU时之和。
CPU利用率任务的平均CPU利用率。
说明 EMR Doctor会对不同引擎任务的现有问题进行总结,并指明优化方向,需要您手动进行调整并测试,EMR Doctor不对调优结果负责。