EMR Doctor实时检测按5分钟为粒度对集群的实时状态进行检查,您可以通过实时检测了解集群当前的状态、出现的问题,以及发生问题的原因,并对相关问题进行修复,保证集群运行的稳定性。
注意信息
如果您的控制台没有健康检查项,则需要开通EMR Doctor。开启健康检查功能的具体操作,请参见开通EMR Doctor(Hadoop集群类型)。
启动实时检测
- 进入基础信息页面。
- 登录EMR on ECS控制台。
- 在顶部菜单栏处,根据实际情况选择地域和资源组。
- 在集群管理页面,单击目标集群的集群ID。
- 单击上方的健康检查页签。
- 单击启动实时检测。启动完成后,单击查看最新检测报告,可以查看当前集群详细的检查信息。
默认不会自动保存实时检测的报告,如果您需要查看近期的实时报告,需要手动保存。目前EMR Doctor支持保存最新30份实时检测报告。
计算资源状态分析
详细分析
该页面为您展示最近5分钟集群任务的详细分析和打分,并给出优化建议,您可以根据优化建议进行调优。同时也会展示部分存在异常行为的作业列表,您可以根据异常作业进行排查。
计算基础信息
在计算基础信息中,您可以查看最近5分钟的图表:
- 不同引擎集群算力内存时(GB*Sec)使用量
- 不同引擎集群算力CPU时(VCore*Sec)使用量
- 不同引擎使用量饼图
- 提交任务用户内存算力时分布饼图
计算任务信息
EMR Doctor会采集最近5分钟完成的任务以及正在运行的任务,处理和实时分析后为您展示影响集群最重要的任务,您可以根据建议,进行针对性的调优,或者针对异常问题进行处理,从而增强集群的稳定性。
在实时检测中针对不同的计算引擎分别进行分析和异常检测。目前支持的计算引擎包括MapReduce、Tez以及Spark。
目前支持计算任务算力内存时(GB * Sec)Top任务列表和计算任务评分倒序Top任务列表两类任务列表。每条数据包含以下信息。
参数 | 说明 |
---|---|
任务名 | 任务的名称。 |
引擎类型 | 引擎类型包括MapReduce、Tez以及Spark。 |
SQL语句 | 仅SQL类才有。 |
APP IDS | 对于Hive on MR,一个语句可能有多个App Id。 |
用户名 | 提交任务的用户。 |
评分 | 任务得分。 |
健康状态 | 标记任务是否需要治理。 |
建议 | 指明任务的优化方向。 |
内存时(GB*Sec) | 任务的算力内存时之和。 |
内存利用率 | 任务的平均内存利用率。 |
CPU时(vCore*Sec) | 任务的算力CPU时之和。 |
CPU利用率 | 任务的平均CPU利用率。 |
说明 EMR Doctor会对不同引擎任务的现有问题进行总结,并指明优化方向,需要您手动进行调整并测试,EMR Doctor不对调优结果负责。