すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:アラート ルールの管理

最終更新日:Jan 11, 2025

E-MapReduce(EMR)では、アラート ルールを作成して、EMR クラスタ内のサービス リソースの使用状況を監視できます。リソース メトリックが特定のアラート条件を満たすと、アラートがトリガーされ、CloudMonitor がアラート通知を送信します。このようにして、監視対象クラスタの例外をできるだけ早く特定して処理できます。このトピックでは、EMR コンソールでアラート ルールを作成および表示する方法について説明します。

背景情報

アラート機能は CloudMonitor によって提供されます。CloudMonitor コンソールでアラート ルールを管理したり、より多くの監視およびアラート機能を使用したりできます。詳細については、「CloudMonitor とは」をご参照ください。

前提条件

EMR クラスタが作成されていること。詳細については、「クラスタの作成」をご参照ください。

制限事項

RAM ユーザーを使用する場合は、RAM ユーザーに次の権限を付与する必要があります。RAM ユーザーへの権限の付与方法の詳細については、「RAM ユーザーへの権限の付与」をご参照ください。

{
    "Version": "1",
    "Statement": [
        {
            "Action": [
                "cms:DescribeContactGroupList",
                "cms:DescribeMetricMetaList",
                "cms:PutResourceMetricRules",
                "cms:DescribeMetricRuleList"
            ],
            "Resource": "*",
            "Effect": "Allow"
        }
    ]
}

アラート ルールの作成

テンプレートを使用したアラート ルールの作成

  1. [アラート管理]サブタブに移動します。

    1. EMR コンソール にログインします。左側のナビゲーション ペインで、[ECS 上の EMR]をクリックします。

    2. 上部のナビゲーション バーで、ビジネス要件に基づいて リージョンとリソース グループを選択します。

    3. [ECS 上の EMR] ページで、目的のクラスタの [ID] をクリックします。

    4. 表示されるページで、[監視と診断] タブをクリックします。

    5. [アラート管理] サブタブをクリックします。

  2. [アラート管理] サブタブで、[アラート ルールの作成] をクリックします。

  3. [アラート ルールの作成] パネルで、目的のサービスを見つけ、[アクション]列の [アラート ルールの作成] をクリックします。

  4. パラメータを設定し、[作成] をクリックします。次の表にパラメータを示します。

    パラメータ

    説明

    ルールの説明

    テンプレートのアラート ルールの説明。メトリック名を表示し、メトリックのデフォルトのしきい値を変更できます。

    テンプレートが適用されるサービスとメトリックの説明については、「アラート ルール テンプレートのサービス」をご参照ください。

    ミュート期間

    アラートがクリアされる前にアラート通知が再送信される間隔。

    有効期間

    アラート ルールが有効な期間。システムは、有効期間内のみアラート ルールに基づいてデータを監視します。

    アラート連絡先グループ

    アラート通知が送信されるアラート連絡先グループ。

    アラート通知方法

    アラート通知の送信に使用するメソッドとアラート E メール件名。サポートされているアラート通知方法:

    • 電話、SMS、E メール、DingTalk チャットボット

    • SMS、E メール、DingTalk チャットボット

    • E メールと DingTalk チャットボット

    アラート E メール件名:オプション。アラート E メール件名を指定すると、指定した注釈がアラート通知 E メールに含まれます。

    コールバック URL

    インターネット経由でアクセスできるコールバック URL。CloudMonitor は POST リクエストを送信して、指定したコールバック URL にアラートをプッシュします。HTTP リクエストのみがサポートされています。

    アラート ルールを作成すると、ルールはクラスタ内のインスタンスに適用されます。[アラート管理] サブタブで作成されたアラート ルールを表示できます。

    [アラート ルールの管理] をクリックして [cloudmonitor] コンソールに移動し、アラート ルールを表示または変更することもできます。

カスタム アラート ルールの作成

  1. [アラート管理]サブタブに移動します。

    1. EMR コンソール にログインします。左側のナビゲーション ペインで、[ECS 上の EMR]をクリックします。

    2. 上部のナビゲーション バーで、ビジネス要件に基づいて リージョンとリソース グループを選択します。

    3. [ECS 上の EMR] ページで、目的のクラスタの [ID] をクリックします。

    4. 表示されるページで、[監視と診断] タブをクリックします。

    5. [アラート管理] サブタブをクリックします。

  2. [アラート管理] サブタブで、[アラート ルールの作成] をクリックします。

  3. [アラート ルールの作成] パネルで、[カスタム ルールの作成] をクリックします。

  4. パラメータを設定し、[作成] をクリックします。次の表にパラメータを示します。

    パラメータ

    説明

    アラート ルール

    アラート ルールの名前と内容。

    このパラメータは、アラートをトリガーする条件を指定します。

    説明
    • アラート ルールの EMR メトリックについては、「CloudMonitor メトリック」をご参照ください。

    • [アラート ルールの追加] をクリックして複数のアラート ルールを作成できます。

    ミュート期間

    アラートがクリアされる前にアラート通知が再送信される間隔。

    有効期間

    アラート ルールが有効な期間。システムは、有効期間内のみアラート ルールに基づいてデータを監視します。

    アラート連絡先グループ

    アラート通知が送信されるアラート連絡先グループ。

    アラート通知方法

    アラート通知の送信に使用するメソッドとアラート E メール件名。サポートされているアラート通知方法:

    • 電話、SMS、E メール、DingTalk チャットボット

    • SMS、E メール、DingTalk チャットボット

    • E メールと DingTalk チャットボット

    アラート E メール件名:オプション。アラート E メール件名を指定すると、指定した注釈がアラート通知 E メールに含まれます。

    コールバック URL

    インターネット経由でアクセスできるコールバック URL。CloudMonitor は POST リクエストを送信して、指定したコールバック URL にアラートをプッシュします。HTTP リクエストのみがサポートされています。このパラメータはオプションです。

    アラート ルールを作成すると、ルールはクラスタ内のインスタンスに適用されます。[アラート管理] サブタブで作成されたアラート ルールを表示できます。

    [アラート ルールの管理] をクリックして [cloudmonitor] コンソールに移動し、アラート ルールを表示または変更することもできます。

アラート ルールの表示

[アラート管理] サブタブでアラート ルールを表示できます。

パラメータ

説明

ルール名

アラート ルールの名前。

ステータス

CloudMonitor でのアラート ルールのステータス。有効な値:OK、アラート、データなし、無効、有効。

ルールの説明

アラート ルールの説明。アラート ルールの条件が満たされると、アラートがトリガーされます。

アラート連絡先グループ

アラート通知が送信されるアラート連絡先グループ。

アクション

  • 詳細:[詳細]をクリックして CloudMonitor コンソールに移動し、アラート連絡先グループ、アラート履歴、アラート リソースなど、アラート ルールの詳細を表示できます。

  • ルールの編集:[ルールの編集]をクリックして CloudMonitor コンソールに移動し、アラート ルールに設定されているパラメータを変更できます。

アラート ルール テンプレートのサービス

サービス名

コンポーネント名

メトリック

説明

ノード(ホスト)

ディスク

emr_node_part_max_used

指定されたメトリックの平均値が 80% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

CPU

emr_node_cpu_idle

指定されたメトリックの平均値が 5% 未満であるという条件が 5 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

メモリ

emr_node_mem_used_percent

指定されたメトリックの平均値が 90% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

HDFS

NameNode

hdfs_namenode_jvm_MemHeapUsedM / hdfs_namenode_jvm_MemHeapMaxM

指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされるか、メトリック データが生成されない場合、アラートがトリガーされます。チェックは 1 分ごとに行われます。

NameNode

hdfs_namenode_rpc_service_activity_CallQueueLength

指定されたメトリックの平均値が 1000 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

NameNode

hdfs_namenode_fsnamesystem_CorruptBlocks

指定されたメトリックの平均値が 1 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

NameNode

hdfs_namenode_safemode_status

NameNode がセーフ モードになっているという条件が満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

DataNode

hdfs_datanode_jvm_MemHeapUsedM / hdfs_datanode_jvm_MemHeapMaxM

指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされるか、メトリック データが生成されない場合、アラートがトリガーされます。チェックは 1 分ごとに行われます。

Spark

SparkHistoryServer

spark_history_jvm_old_space_utilization

指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

SparkThriftServer

spark_thrift_driver_jvm_heap_used/spark_thrift_driver_jvm_heap_max

指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

Hive

HiveMetaStore

hive_metastore_memory_heap_used/hive_metastore_memory_heap_max

指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

HiveMetaStore

hive_metastore_threads_blocked_count

指定されたメトリックの平均値が 50% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

HiveServer2

hive_server_memory_heap_used/hive_server_memory_heap_max

指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

HiveServer2

hive_server_threads_deadlock_count

指定されたメトリックの平均値が 50% を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

YARN

ResourceManager

yarn_cluster_status

過去 5 分間に次のいずれかの条件が満たされると、アラートがトリガーされます。2 つ以上の HA スイッチオーバーが発生する、ノードのステータスが 1 である、またはノードのステータスが常に -1 である。

ResourceManager

yarn_resourcemanager_jvm_MemHeapUsedM / yarn_resourcemanager_jvm_MemHeapMaxM

指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされるか、メトリック データが生成されない場合、アラートがトリガーされます。チェックは 1 分ごとに行われます。

NodeManager

yarn_cluster_unhealthyNodes

指定されたメトリックの平均値が 1 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

NodeManager

yarn_nodemanager_jvm_MemHeapUsedM / yarn_nodemanager_jvm_MemHeapMaxM

指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされるか、メトリック データが生成されない場合、アラートがトリガーされます。チェックは 1 分ごとに行われます。

TimelineServer

yarn_timelineserver_jvm_MemHeapUsedM / yarn_timelineserver_jvm_MemHeapMaxM

指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされるか、メトリック データが生成されない場合、アラートがトリガーされます。チェックは 1 分ごとに行われます。

MRHistoryServer

yarn_jobhistory_jvm_MemHeapUsedM / yarn_jobhistory_jvm_MemHeapMaxM

指定されたメトリックの平均値が 95% を超えるという条件が 2 回連続で満たされるか、メトリック データが生成されない場合、アラートがトリガーされます。チェックは 1 分ごとに行われます。

Zookeeper

Zookeeper

zk_znode_count

指定されたメトリックの平均値が 10000 以上であるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

Zookeeper

zk_watch_count

指定されたメトリックの平均値が 1000 以上であるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

Kafka

KafkaBroker

Kafka_Broker_kafka_log_LogManager_OfflineLogDirectoryCount

指定されたメトリックの平均値が 0 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

Kafka_Broker_kafka_server_ReplicaManager_UnderReplicatedPartitions

指定されたメトリックの平均値が 0 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

Presto/Trino

Trino

trino_QueryManager_FailedQueries_OneMinute_Count

指定されたメトリックの平均値が 1 以上であるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

trino_ClusterMemoryPool_name_general_BlockedNodes

指定されたメトリックの平均値が 0 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

Presto

presto_QueryManager_FailedQueries_OneMinute_Count

指定されたメトリックの平均値が 1 以上であるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

presto_ClusterMemoryPool_name_general_BlockedNodes

指定されたメトリックの平均値が 0 を超えるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

Impala

Impalad

num_waiting_queries

指定されたメトリックの平均値が 10 以上であるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

説明

クラスタでサポートされている同時クエリの数に基づいてしきい値を調整できます。

Kudu

kudu-master

kudu_cluster_replica_skew

指定されたメトリックの平均値が 1000 以上であるという条件が 2 回連続で満たされると、アラートがトリガーされます。チェックは 1 分ごとに行われます。

説明

ビジネス要件に基づいてしきい値を調整できます。