アラートモニタリングルールを作成するときに、グループ評価パラメーターを設定できます。 アラートモニタリングシステムがクエリおよび分析結果を処理するとき、システムは、指定されたフィールドに基づいて結果をグループ化することができる。 各グループの結果は、指定されたトリガー条件に基づいて評価されます。 グループの結果がトリガー条件を満たすと、アラートがトリガーされます。 アラートモニタリングルールを使用して、クエリ結果および分析結果の複数のグループを同時にモニタリングできます。 各グループのアラートとインシデントを管理できます。

重要
  • グループ評価機能を設定すると、クエリと分析の結果を一度に評価できるグループの最大数が100されます。 クエリおよび分析結果が評価されるグループの数が100を超える場合、100のグループのみがランダムに選択され、アラートポリシーに送信されます。
  • グループ評価のフィールドを選択するときは、監視対象エンティティを識別でき、値を列挙できるフィールドを選択することを推奨します。 フィールドが監視対象エンティティを識別できない場合は、フィールドを選択しないことを推奨します。 適切なフィールドを選択しないと、過剰な数のグループが生成されます。 グループ内のトリガー条件が満たされると、アラートがトリガーされます。 多数のグループが存在する場合、アラートストームが発生する可能性があります。 この場合、重要なアラート情報を見逃す可能性があります。

    たとえば、NGINXログのhostおよびmethodフィールド、Object Storage Service (OSS) アクセスログのbucketフィールドなどのフィールドを選択できます。 NGINXログのrequest_timebody_sizeフィールド、エラーログのerr_cntフィールドなどのフィールドは選択しないでください。

例1: グループ別の時系列データの監視

この例では、複数サーバーのメトリックデータがメトリックストアに格納されています。 要件: 各サーバーのcpu_utilで指定されたCPU使用率が95% を超えると、アラートがトリガーされ、Log Serviceが各サーバーにアラート通知を送信します。 この要件を満たすために、アラートモニタリングルールを作成するときにグループ評価機能を設定できます。 時系列データ
以下のパラメーターを設定できます。
  • クエリ統計: * | select promql_query_range('cpu_util') from metrics limit 1000を指定します。

    このクエリ文は、各サーバーのCPU使用率を照会するために使用されます。

  • グループ評価: [自動タグ] を選択します。

    時系列データのクエリ結果と分析結果を自動的にグループ化することを指定します。

  • トリガー条件: [data matches the expression] を選択し、value > 95を入力し、[Severity: High] を選択します。

    クエリおよび分析結果のvalueフィールドの値が95を超える場合、重大度がHighのアラートがトリガーされます。

  • 注釈の追加: アラートのタイトルや説明などの注釈を指定します。 注釈で ${host} などのフィールド変数を参照できます。 詳細については、「ラベルと注釈」をご参照ください。
グループ単位での時系列データのモニタリング

例2: グループによるログの監視

この例では、OSSアクセスログが監視されます。 要件: 各バケットのHTTPステータスコード500が1分あたりに返される回数が1,000を超えると、アラートがトリガーされ、Log Serviceが各バケットのアラート通知を送信します。 この要件を満たすために、アラートモニタリングルールを作成するときにグループ評価機能を設定できます。

以下のパラメーターを設定できます。
  • クエリ統計: http_status=500 | select bucket,count(1) as pv group by bucket having pv > 1000 order by pv descを指定します。

    このクエリ文は、HTTPステータスコード500が返された回数が1,000を超えるバケットをクエリするために使用されます。

  • グループ評価: [カスタムタグ][バケット] を選択します。

    値は、クエリ結果と分析結果をバケットごとにグループ化することを指定します。

  • トリガー条件
    • 条件1: [data matches the expression] を選択し、pv > 3000と入力し、[重大度: 高] を選択します。

      クエリおよび分析結果のpvフィールドの値が3000を超える場合、重大度がHighのアラートがトリガーされます。

    • 条件2: [データを返す] を選択し、[重大度: 中] を選択します。

      クエリおよび分析結果でデータが返された場合、重大度が中のアラートがトリガーされます。

  • 注釈の追加: アラートのタイトルや説明などの注釈を指定します。 アノテーションで ${pv} などのフィールド変数を参照できます。 詳細については、「ラベルと注釈」をご参照ください。
グループ単位でのログのモニタリング