云监控(CloudMonitor)是阿里云的一种监控告警服务,当您需要监控E-MapReduce资源的使用和运行情况时,可以通过创建阈值报警规则,实现监控项超过设定阈值后自动发送报警通知的功能,帮助您及时了解监控数据异常并快速进行处理。

前提条件

已创建集群,详情请参见创建集群

操作步骤

  1. 登录云监控控制台
  2. 在左侧导航栏,选择报警服务 > 报警规则
  3. 阈值报警页面,单击创建报警规则
  4. 创建报警规则页面,设置报警规则相关信息。
    Create cluster rules
    参数 说明
    产品 产品列表中选择E-MapReduce
    资源范围 报警规则的作用范围。取值:
    • 全部资源:表示该规则作用在用户名下E-MapReduce的全部集群上。
    • 集群:表示该规则只作用在某个具体的集群上。
    地域 E-MapReduce支持的地域。从地域列表中选择待关联的地域。
    说明资源范围选择集群时,显示该参数。
    集群 E-MapReduce上已有的集群。从集群列表中选择待关联的E-MapReduce集群。
    说明资源范围选择集群时,显示该参数。
    规则名称 报警规则的名称。
    规则描述 报警规则的主体,定义在监控数据满足指定条件时,触发报警规则。例如:CPU使用率5分钟平均值>=90%,持续3个周期,则报警服务5分钟检查一次数据是否满足平均值>=90%,只检测3次。
    说明 规则详细信息,请参见报警规则
    通道沉默周期 指报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。
    生效时间 报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。
    通知对象 发送报警的联系人组。

    如果您需要新建联系人组,创建详情请参见创建报警联系人或报警联系组

    报警级别

    邮件+钉钉机器人

    弹性伸缩 如果您选中弹性伸缩,当报警发生时,会触发相应的伸缩规则。您需要设置弹性伸缩的地域弹性伸缩组弹性伸缩规则
    日志服务 如果您选中日志服务,当报警发生时,会将报警信息写入日志服务。您需要设置日志服务的地域ProjectLogstore

    创建Project和Logstore的操作方法,请参见日志服务快速入门

    邮件备注 自定义报警邮件补充信息。填写邮件备注后,发送报警的邮件通知中会附带您的备注。
    报警回调 填写公网可访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。
  5. 单击确认

报警规则

服务名 指标名称 指标含义
HDFS NameNodeIpcPortOpen NameNode的IPC端口的可用性:
  • 1:可用
  • 0:不可用
TotalDFSUsedPercent 集群的HDFS总容量使用百分比。
DataNodeDfsUsedPercent DataNode节点的DFS使用率。
DataNodeIpcPortOpen DataNode中IPC端口的可用性:
JournalNodeRpcPortOpen JournalNode的RPC端口的可用性:
ZKFCPortOpen ZKFC端口的可用性:
dfs.FSNamesystem.MissingBlocks 丢失的块数。
dfs.datanode.VolumeFailures HDFS检测出的坏盘数。
YARN ResourceManagerPortOpen ResourceManager的服务端口的可用性:
JobHistoryPortOpen JobHistory的服务端口的可用性:
yarn.ClusterMetrics.NumUnhealthyNM Unhealthy的NodeManager个数。
ProxyServerPortOpen WebAppProxy端口的可用性:
TimelineServerPortOpen TimelineServer的服务端口的可用性:
Hive MetastorePortOpen HiveMetaStore端口的可用性:
HiveServer2PortOpen HiveServer2的服务端口的可用性:
ThriftServerPortOpen ThriftServer的服务端口的可用性:
HBase HMasterIpcPortOpen HMaster的IPC端口可用性:
HRegionServerIpcPortOpen HRegionServer的IPC的端口可用性:
ZooKeeper ZKClientPortOpen ZooKeeper客户端监听端口的可用性:
Hue HuePortOpen Hue端口的可用性:
Storm StormNimbusThriftPortOpen StormNimbus的Thrift端口的可用性:
HOST proc_total 总进程数目。
part_max_used 磁盘分区使用的最大百分比。
disk_free_percent_mnt_disk1 /mnt/disk1使用的磁盘空间占比。
disk_free_percent_rootfs 根文件系统磁盘空间占比。