E-MapReduce(EMR)では、アラート ルールを作成して、EMR クラスタ内のサービス リソースの使用状況を監視できます。リソース メトリックが特定のアラート条件を満たすと、アラートがトリガーされ、CloudMonitor がアラート通知を送信します。このようにして、監視対象クラスタの例外をできるだけ早く特定して処理できます。このトピックでは、EMR コンソールでアラート ルールを作成および表示する方法について説明します。
背景情報
アラート機能は CloudMonitor によって提供されます。CloudMonitor コンソールでアラート ルールを管理したり、より多くの監視およびアラート機能を使用したりできます。詳細については、「CloudMonitor とは」をご参照ください。
前提条件
EMR クラスタが作成されていること。詳細については、「クラスタの作成」をご参照ください。
制限事項
RAM ユーザーを使用する場合は、RAM ユーザーに次の権限を付与する必要があります。RAM ユーザーへの権限の付与方法の詳細については、「RAM ユーザーへの権限の付与」をご参照ください。
{
"Version": "1",
"Statement": [
{
"Action": [
"cms:DescribeContactGroupList",
"cms:DescribeMetricMetaList",
"cms:PutResourceMetricRules",
"cms:DescribeMetricRuleList"
],
"Resource": "*",
"Effect": "Allow"
}
]
}
アラート ルールの作成
テンプレートを使用したアラート ルールの作成
[アラート管理]サブタブに移動します。
EMR コンソール にログインします。左側のナビゲーション ペインで、[ECS 上の EMR]をクリックします。
上部のナビゲーション バーで、ビジネス要件に基づいて リージョンとリソース グループを選択します。
[ECS 上の EMR] ページで、目的のクラスタの [ID] をクリックします。
表示されるページで、[監視と診断] タブをクリックします。
[アラート管理] サブタブをクリックします。
[アラート管理] サブタブで、[アラート ルールの作成] をクリックします。
[アラート ルールの作成] パネルで、目的のサービスを見つけ、[アクション]列の [アラート ルールの作成] をクリックします。
パラメータを設定し、[作成] をクリックします。次の表にパラメータを示します。
パラメータ
説明
ルールの説明
テンプレートのアラート ルールの説明。メトリック名を表示し、メトリックのデフォルトのしきい値を変更できます。
テンプレートが適用されるサービスとメトリックの説明については、「アラート ルール テンプレートのサービス」をご参照ください。
ミュート期間
アラートがクリアされる前にアラート通知が再送信される間隔。
有効期間
アラート ルールが有効な期間。システムは、有効期間内のみアラート ルールに基づいてデータを監視します。
アラート連絡先グループ
アラート通知が送信されるアラート連絡先グループ。
アラート通知方法
アラート通知の送信に使用するメソッドとアラート E メール件名。サポートされているアラート通知方法:
電話、SMS、E メール、DingTalk チャットボット
SMS、E メール、DingTalk チャットボット
E メールと DingTalk チャットボット
アラート E メール件名:オプション。アラート E メール件名を指定すると、指定した注釈がアラート通知 E メールに含まれます。
コールバック URL
インターネット経由でアクセスできるコールバック URL。CloudMonitor は POST リクエストを送信して、指定したコールバック URL にアラートをプッシュします。HTTP リクエストのみがサポートされています。
アラート ルールを作成すると、ルールはクラスタ内のインスタンスに適用されます。[アラート管理] サブタブで作成されたアラート ルールを表示できます。
[アラート ルールの管理] をクリックして [cloudmonitor] コンソールに移動し、アラート ルールを表示または変更することもできます。
カスタム アラート ルールの作成
[アラート管理]サブタブに移動します。
EMR コンソール にログインします。左側のナビゲーション ペインで、[ECS 上の EMR]をクリックします。
上部のナビゲーション バーで、ビジネス要件に基づいて リージョンとリソース グループを選択します。
[ECS 上の EMR] ページで、目的のクラスタの [ID] をクリックします。
表示されるページで、[監視と診断] タブをクリックします。
[アラート管理] サブタブをクリックします。
[アラート管理] サブタブで、[アラート ルールの作成] をクリックします。
[アラート ルールの作成] パネルで、[カスタム ルールの作成] をクリックします。
パラメータを設定し、[作成] をクリックします。次の表にパラメータを示します。
パラメータ
説明
アラート ルール
アラート ルールの名前と内容。
このパラメータは、アラートをトリガーする条件を指定します。
説明アラート ルールの EMR メトリックについては、「CloudMonitor メトリック」をご参照ください。
[アラート ルールの追加] をクリックして複数のアラート ルールを作成できます。
ミュート期間
アラートがクリアされる前にアラート通知が再送信される間隔。
有効期間
アラート ルールが有効な期間。システムは、有効期間内のみアラート ルールに基づいてデータを監視します。
アラート連絡先グループ
アラート通知が送信されるアラート連絡先グループ。
アラート通知方法
アラート通知の送信に使用するメソッドとアラート E メール件名。サポートされているアラート通知方法:
電話、SMS、E メール、DingTalk チャットボット
SMS、E メール、DingTalk チャットボット
E メールと DingTalk チャットボット
アラート E メール件名:オプション。アラート E メール件名を指定すると、指定した注釈がアラート通知 E メールに含まれます。
コールバック URL
インターネット経由でアクセスできるコールバック URL。CloudMonitor は POST リクエストを送信して、指定したコールバック URL にアラートをプッシュします。HTTP リクエストのみがサポートされています。このパラメータはオプションです。
アラート ルールを作成すると、ルールはクラスタ内のインスタンスに適用されます。[アラート管理] サブタブで作成されたアラート ルールを表示できます。
[アラート ルールの管理] をクリックして [cloudmonitor] コンソールに移動し、アラート ルールを表示または変更することもできます。
アラート ルールの表示
[アラート管理] サブタブでアラート ルールを表示できます。
パラメータ | 説明 |
ルール名 | アラート ルールの名前。 |
ステータス | CloudMonitor でのアラート ルールのステータス。有効な値:OK、アラート、データなし、無効、有効。 |
ルールの説明 | アラート ルールの説明。アラート ルールの条件が満たされると、アラートがトリガーされます。 |
アラート連絡先グループ | アラート通知が送信されるアラート連絡先グループ。 |
アクション |
|
アラート ルール テンプレートのサービス
サービス名 | コンポーネント名 | メトリック | 説明 |
ノード(ホスト) | ディスク | emr_node_part_max_used | 指定されたメトリックの平均値が 80% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 |
CPU | emr_node_cpu_idle | 指定されたメトリックの平均値が 5% 未満であるという条件が 5 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | |
メモリ | emr_node_mem_used_percent | 指定されたメトリックの平均値が 90% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | |
HDFS | NameNode | hdfs_namenode_jvm_MemHeapUsedM / hdfs_namenode_jvm_MemHeapMaxM | 指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされるか、メトリック データが生成されない場合、アラートがトリガーされます。チェックは 1 分ごとに行われます。 |
NameNode | hdfs_namenode_rpc_service_activity_CallQueueLength | 指定されたメトリックの平均値が 1000 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | |
NameNode | hdfs_namenode_fsnamesystem_CorruptBlocks | 指定されたメトリックの平均値が 1 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | |
NameNode | hdfs_namenode_safemode_status | NameNode がセーフ モードになっているという条件が満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | |
DataNode | hdfs_datanode_jvm_MemHeapUsedM / hdfs_datanode_jvm_MemHeapMaxM | 指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされるか、メトリック データが生成されない場合、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | |
Spark | SparkHistoryServer | spark_history_jvm_old_space_utilization | 指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 |
SparkThriftServer | spark_thrift_driver_jvm_heap_used/spark_thrift_driver_jvm_heap_max | 指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | |
Hive | HiveMetaStore | hive_metastore_memory_heap_used/hive_metastore_memory_heap_max | 指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 |
HiveMetaStore | hive_metastore_threads_blocked_count | 指定されたメトリックの平均値が 50% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | |
HiveServer2 | hive_server_memory_heap_used/hive_server_memory_heap_max | 指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | |
HiveServer2 | hive_server_threads_deadlock_count | 指定されたメトリックの平均値が 50% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | |
YARN | ResourceManager | yarn_cluster_status | 過去 5 分間に次のいずれかの条件が満たされると、アラートがトリガーされます。2 つ以上の HA スイッチオーバーが発生する、ノードのステータスが 1 である、またはノードのステータスが常に -1 である。 |
ResourceManager | yarn_resourcemanager_jvm_MemHeapUsedM / yarn_resourcemanager_jvm_MemHeapMaxM | 指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされるか、メトリック データが生成されない場合、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | |
NodeManager | yarn_cluster_unhealthyNodes | 指定されたメトリックの平均値が 1 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | |
NodeManager | yarn_nodemanager_jvm_MemHeapUsedM / yarn_nodemanager_jvm_MemHeapMaxM | 指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされるか、メトリック データが生成されない場合、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | |
TimelineServer | yarn_timelineserver_jvm_MemHeapUsedM / yarn_timelineserver_jvm_MemHeapMaxM | 指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされるか、メトリック データが生成されない場合、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | |
MRHistoryServer | yarn_jobhistory_jvm_MemHeapUsedM / yarn_jobhistory_jvm_MemHeapMaxM | 指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされるか、メトリック データが生成されない場合、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | |
Zookeeper | Zookeeper | zk_znode_count | 指定されたメトリックの平均値が 10000 以上であるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 |
Zookeeper | zk_watch_count | 指定されたメトリックの平均値が 1000 以上であるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | |
Kafka | KafkaBroker | Kafka_Broker_kafka_log_LogManager_OfflineLogDirectoryCount | 指定されたメトリックの平均値が 0 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 |
Kafka_Broker_kafka_server_ReplicaManager_UnderReplicatedPartitions | 指定されたメトリックの平均値が 0 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | ||
Presto/Trino | Trino | trino_QueryManager_FailedQueries_OneMinute_Count | 指定されたメトリックの平均値が 1 以上であるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 |
trino_ClusterMemoryPool_name_general_BlockedNodes | 指定されたメトリックの平均値が 0 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | ||
Presto | presto_QueryManager_FailedQueries_OneMinute_Count | 指定されたメトリックの平均値が 1 以上であるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | |
presto_ClusterMemoryPool_name_general_BlockedNodes | 指定されたメトリックの平均値が 0 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 | ||
Impala | Impalad | num_waiting_queries | 指定されたメトリックの平均値が 10 以上であるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 説明 クラスタでサポートされている同時クエリの数に基づいてしきい値を調整できます。 |
Kudu | kudu-master | kudu_cluster_replica_skew | 指定されたメトリックの平均値が 1000 以上であるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。 説明 ビジネス要件に基づいてしきい値を調整できます。 |