アラートモニタリングルールの作成する際、グループ評価パラメータを指定する必要があります。 アラートモニタリングシステムでは、クエリ結果の計算時に指定されたフィールドに基づいてクエリ結果をグループ化できます。 各グループは指定されたトリガー条件に基づいて評価されます。 グループ内でトリガー条件が満たされた場合、アラートがトリガーされます。 アラートモニタリングルールを使用して、クエリ結果の複数のグループを同時にモニタリングでき、また 各グループのアラートとインシデントを管理できます。

例 1: グループ単位での時系列データのモニタリング

この例では、複数サーバーのメトリックデータがメトリックストアに格納されています。 サーバーの CPU 使用率 (cpu_util) が 95% を超えるとアラートがトリガーされ、Log Service から関連するアラート通知が送信されます。 この要件を満たすために、アラートモニタリングルールを作成する際にグループ評価機能を使用します。 時系列データ
以下のパラメーターを指定します。
  • クエリ統計: 「 * | select promql_query_range('cpu_util') from metrics limit 1000」と入力します。

    このクエリ文を使用して、各サーバーのCPU使用率を計算します。

  • グループ評価[カスタムタグ] を選択します。

    この設定は、時系列データのクエリ結果がグループ化されることを示します。

  • トリガー条件[データが式に一致] を選択し、「 value > 95」と入力します。

    value フィールドの値が 95 を超える場合、アラートがトリガーされます。

  • 注釈を追加: 注釈のタイトルと説明を指定します。 注釈で ${host} などのフィールド変数を引用できます。 詳細については、「ラベルと注釈」をご参照ください。
グループ単位での時系列データのモニタリング

例 2: グループ単位でのログのモニタリング

この例では、Object Storage Service (OSS) アクセスログをモニタリングしています。 HTTP ステータスコード 500 エラーレスポンスの数が 1,000 を超えた場合、アラートがトリガーされます。 この要件を満たすために、アラートモニタリングルールを作成する際にグループ評価機能を使用します。

以下のパラメーターを指定します。
  • クエリ統計: 「http_status=500 | select bucket,count(1) as pv group by bucket having pv >1000 order by pv desc」と入力します。

    このクエリ文を使用して、HTTP ステータスコード 500 エラーレスポンスの数が 1,000 を超えているバケットを照会します。

  • グループ評価[カスタムタグ] および [バケット] を選択します。

    この設定は、クエリ結果がバケットごとにグループ化されることを示します。

  • トリガー条件[データが返されたとき] を選択します。

    この設定は、クエリに対してデータが返された場合にアラートがトリガーされることを示します。

  • 重大度[データが式に一致] を選択し、「 pv > 3000」と入力します。 [重大度] を [重大] に設定します。 [デフォルトの重大度] を [中] に設定します。
    • pv フィールドの値が 3000 を超える場合、重大度が高のアラートがトリガーされます。
    • pv フィールドの値が (1000,3000) の範囲内の場合、重大度が中のアラートがトリガーされます。
  • 注釈を追加: 注釈のタイトルと説明を指定します。 注釈で ${host} などのフィールド変数を引用できます。 詳細については、「ラベルと注釈」をご参照ください。
グループ単位でのログのモニタリング