クラスターモニタリングのためのアラートルールの作成と表示 - E-MapReduce

E-MapReduce（EMR）では、アラートルールを作成して、EMR クラスタ内のサービスリソースの使用状況を監視できます。リソースメトリックが特定のアラート条件を満たすと、アラートがトリガーされ、CloudMonitor がアラート通知を送信します。このようにして、監視対象クラスタの例外をできるだけ早く特定して処理できます。このトピックでは、EMR コンソールでアラートルールを作成および表示する方法について説明します。

背景情報

アラート機能は CloudMonitor によって提供されます。CloudMonitor コンソールでアラートルールを管理したり、より多くの監視およびアラート機能を使用したりできます。詳細については、「CloudMonitor とは」をご参照ください。

前提条件

EMR クラスタが作成されていること。詳細については、「クラスタの作成」をご参照ください。

制限事項

RAM ユーザーを使用する場合は、RAM ユーザーに次の権限を付与する必要があります。RAM ユーザーへの権限の付与方法の詳細については、「RAM ユーザーへの権限の付与」をご参照ください。

{
    "Version": "1",
    "Statement": [
        {
            "Action": [
                "cms:DescribeContactGroupList",
                "cms:DescribeMetricMetaList",
                "cms:PutResourceMetricRules",
                "cms:DescribeMetricRuleList"
            ],
            "Resource": "*",
            "Effect": "Allow"
        }
    ]
}

アラートルールの作成

テンプレートを使用したアラートルールの作成

［アラート管理］サブタブに移動します。
1. EMR コンソールにログインします。左側のナビゲーションペインで、［ECS 上の EMR］をクリックします。
2. 上部のナビゲーションバーで、ビジネス要件に基づいてリージョンとリソースグループを選択します。
3. [ECS 上の EMR] ページで、目的のクラスタの [ID] をクリックします。
4. 表示されるページで、[監視と診断] タブをクリックします。
5. [アラート管理] サブタブをクリックします。
[アラート管理] サブタブで、[アラートルールの作成] をクリックします。
[アラートルールの作成] パネルで、目的のサービスを見つけ、［アクション］列の [アラートルールの作成] をクリックします。

パラメータを設定し、[作成] をクリックします。次の表にパラメータを示します。

パラメータ	説明
ルールの説明	テンプレートのアラートルールの説明。メトリック名を表示し、メトリックのデフォルトのしきい値を変更できます。テンプレートが適用されるサービスとメトリックの説明については、「アラートルールテンプレートのサービス」をご参照ください。
ミュート期間	アラートがクリアされる前にアラート通知が再送信される間隔。
有効期間	アラートルールが有効な期間。システムは、有効期間内のみアラートルールに基づいてデータを監視します。
アラート連絡先グループ	アラート通知が送信されるアラート連絡先グループ。
アラート通知方法	アラート通知の送信に使用するメソッドとアラート E メール件名。サポートされているアラート通知方法：電話、SMS、E メール、DingTalk チャットボット SMS、E メール、DingTalk チャットボット E メールと DingTalk チャットボットアラート E メール件名：オプション。アラート E メール件名を指定すると、指定した注釈がアラート通知 E メールに含まれます。
コールバック URL	インターネット経由でアクセスできるコールバック URL。CloudMonitor は POST リクエストを送信して、指定したコールバック URL にアラートをプッシュします。HTTP リクエストのみがサポートされています。

アラートルールを作成すると、ルールはクラスタ内のインスタンスに適用されます。[アラート管理] サブタブで作成されたアラートルールを表示できます。

[アラートルールの管理] をクリックして [cloudmonitor] コンソールに移動し、アラートルールを表示または変更することもできます。

カスタムアラートルールの作成

［アラート管理］サブタブに移動します。
1. EMR コンソールにログインします。左側のナビゲーションペインで、［ECS 上の EMR］をクリックします。
2. 上部のナビゲーションバーで、ビジネス要件に基づいてリージョンとリソースグループを選択します。
3. [ECS 上の EMR] ページで、目的のクラスタの [ID] をクリックします。
4. 表示されるページで、[監視と診断] タブをクリックします。
5. [アラート管理] サブタブをクリックします。
[アラート管理] サブタブで、[アラートルールの作成] をクリックします。
[アラートルールの作成] パネルで、[カスタムルールの作成] をクリックします。

パラメータを設定し、[作成] をクリックします。次の表にパラメータを示します。

パラメータ	説明
アラートルール	アラートルールの名前と内容。このパラメータは、アラートをトリガーする条件を指定します。説明アラートルールの EMR メトリックについては、「CloudMonitor メトリック」をご参照ください。 [アラートルールの追加] をクリックして複数のアラートルールを作成できます。
ミュート期間	アラートがクリアされる前にアラート通知が再送信される間隔。
有効期間	アラートルールが有効な期間。システムは、有効期間内のみアラートルールに基づいてデータを監視します。
アラート連絡先グループ	アラート通知が送信されるアラート連絡先グループ。
アラート通知方法	アラート通知の送信に使用するメソッドとアラート E メール件名。サポートされているアラート通知方法：電話、SMS、E メール、DingTalk チャットボット SMS、E メール、DingTalk チャットボット E メールと DingTalk チャットボットアラート E メール件名：オプション。アラート E メール件名を指定すると、指定した注釈がアラート通知 E メールに含まれます。
コールバック URL	インターネット経由でアクセスできるコールバック URL。CloudMonitor は POST リクエストを送信して、指定したコールバック URL にアラートをプッシュします。HTTP リクエストのみがサポートされています。このパラメータはオプションです。

[アラートルールの管理] をクリックして [cloudmonitor] コンソールに移動し、アラートルールを表示または変更することもできます。

アラートルールの表示

[アラート管理] サブタブでアラートルールを表示できます。

パラメータ	説明
ルール名	アラートルールの名前。
ステータス	CloudMonitor でのアラートルールのステータス。有効な値：OK、アラート、データなし、無効、有効。
ルールの説明	アラートルールの説明。アラートルールの条件が満たされると、アラートがトリガーされます。
アラート連絡先グループ	アラート通知が送信されるアラート連絡先グループ。
アクション	詳細：［詳細］をクリックして CloudMonitor コンソールに移動し、アラート連絡先グループ、アラート履歴、アラートリソースなど、アラートルールの詳細を表示できます。ルールの編集：［ルールの編集］をクリックして CloudMonitor コンソールに移動し、アラートルールに設定されているパラメータを変更できます。

アラートルールテンプレートのサービス

サービス名	コンポーネント名	メトリック	説明
ノード（ホスト）	ディスク	emr_node_part_max_used	指定されたメトリックの平均値が 80% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
	CPU	emr_node_cpu_idle	指定されたメトリックの平均値が 5% 未満であるという条件が 5 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
	メモリ	emr_node_mem_used_percent	指定されたメトリックの平均値が 90% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
HDFS	NameNode	hdfs_namenode_jvm_MemHeapUsedM / hdfs_namenode_jvm_MemHeapMaxM	指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされるか、メトリックデータが生成されない場合、アラートがトリガーされます。チェックは 1 分ごとに行われます。
	NameNode	hdfs_namenode_rpc_service_activity_CallQueueLength	指定されたメトリックの平均値が 1000 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
	NameNode	hdfs_namenode_fsnamesystem_CorruptBlocks	指定されたメトリックの平均値が 1 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
	NameNode	hdfs_namenode_safemode_status	NameNode がセーフモードになっているという条件が満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
	DataNode	hdfs_datanode_jvm_MemHeapUsedM / hdfs_datanode_jvm_MemHeapMaxM	指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされるか、メトリックデータが生成されない場合、アラートがトリガーされます。チェックは 1 分ごとに行われます。
Spark	SparkHistoryServer	spark_history_jvm_old_space_utilization	指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
Spark	SparkThriftServer	spark_thrift_driver_jvm_heap_used/spark_thrift_driver_jvm_heap_max	指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
Hive	HiveMetaStore	hive_metastore_memory_heap_used/hive_metastore_memory_heap_max	指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
	HiveMetaStore	hive_metastore_threads_blocked_count	指定されたメトリックの平均値が 50% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
	HiveServer2	hive_server_memory_heap_used/hive_server_memory_heap_max	指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
	HiveServer2	hive_server_threads_deadlock_count	指定されたメトリックの平均値が 50% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
YARN	ResourceManager	yarn_cluster_status	過去 5 分間に次のいずれかの条件が満たされると、アラートがトリガーされます。2 つ以上の HA スイッチオーバーが発生する、ノードのステータスが 1 である、またはノードのステータスが常に -1 である。
	ResourceManager	yarn_resourcemanager_jvm_MemHeapUsedM / yarn_resourcemanager_jvm_MemHeapMaxM	指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされるか、メトリックデータが生成されない場合、アラートがトリガーされます。チェックは 1 分ごとに行われます。
	NodeManager	yarn_cluster_unhealthyNodes	指定されたメトリックの平均値が 1 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
	NodeManager	yarn_nodemanager_jvm_MemHeapUsedM / yarn_nodemanager_jvm_MemHeapMaxM	指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされるか、メトリックデータが生成されない場合、アラートがトリガーされます。チェックは 1 分ごとに行われます。
	TimelineServer	yarn_timelineserver_jvm_MemHeapUsedM / yarn_timelineserver_jvm_MemHeapMaxM	指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされるか、メトリックデータが生成されない場合、アラートがトリガーされます。チェックは 1 分ごとに行われます。
	MRHistoryServer	yarn_jobhistory_jvm_MemHeapUsedM / yarn_jobhistory_jvm_MemHeapMaxM	指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされるか、メトリックデータが生成されない場合、アラートがトリガーされます。チェックは 1 分ごとに行われます。
Zookeeper	Zookeeper	zk_znode_count	指定されたメトリックの平均値が 10000 以上であるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
Zookeeper	Zookeeper	zk_watch_count	指定されたメトリックの平均値が 1000 以上であるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
Kafka	KafkaBroker	Kafka_Broker_kafka_log_LogManager_OfflineLogDirectoryCount	指定されたメトリックの平均値が 0 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
Kafka		Kafka_Broker_kafka_server_ReplicaManager_UnderReplicatedPartitions	指定されたメトリックの平均値が 0 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
Presto/Trino	Trino	trino_QueryManager_FailedQueries_OneMinute_Count	指定されたメトリックの平均値が 1 以上であるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
	Trino	trino_ClusterMemoryPool_name_general_BlockedNodes	指定されたメトリックの平均値が 0 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
	Presto	presto_QueryManager_FailedQueries_OneMinute_Count	指定されたメトリックの平均値が 1 以上であるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
	Presto	presto_ClusterMemoryPool_name_general_BlockedNodes	指定されたメトリックの平均値が 0 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。
Impala	Impalad	num_waiting_queries	指定されたメトリックの平均値が 10 以上であるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。説明クラスタでサポートされている同時クエリの数に基づいてしきい値を調整できます。
Kudu	kudu-master	kudu_cluster_replica_skew	指定されたメトリックの平均値が 1000 以上であるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。説明ビジネス要件に基づいてしきい値を調整できます。

背景情報

前提条件

制限事項

アラート ルールの作成

テンプレートを使用したアラート ルールの作成

カスタム アラート ルールの作成

アラート ルールの表示

アラート ルール テンプレートのサービス

アラートルールの作成

テンプレートを使用したアラートルールの作成

カスタムアラートルールの作成

アラートルールの表示

アラートルールテンプレートのサービス