回復通知機能を使用して、例外の回復状況をモニタリングおよび検出できます。 回復通知機能が有効化された状態でアラートがクリアされると、Log Service はアラート通知の形式で回復通知を送信します。

例として、各ホストの CPU メトリクスをモニタリングするアラートモニタリングルールを作成します。 ホストの CPU 使用率が 95% を超えた場合、アラートがトリガーされます。 その後、CPU 使用率が低下し、95% 以下となった場合、回復通知が送信されます。 下図に必要な設定を示します。 詳細については、「ログに対するアラートモニタリングルールの作成」をご参照ください。

以下のパラメーターを指定します。

回復通知のパラメーター
  • クエリ統計: 「* | select promql_query_range('cpu_util') from metrics limit 1000」と入力します。

    このクエリ文を使用して、各ホストの CPU 使用率を計算します。

  • グループ評価[カスタムタグ] を選択します。

    この設定は、時系列データのクエリ結果がグループ化されることを示します。

  • トリガー条件[データが式に一致] を選択し、「 value > 95」と入力します。

    value フィールドの値が 95 を超える場合、アラートがトリガーされます。

  • 注釈を追加: 注釈のタイトルと説明を指定します。 注釈で ${host} などのフィールド変数を引用できます。 詳細については、「ラベルと注釈」をご参照ください。
  • 回復通知[回復通知] スイッチをオンにします。

    回復通知は特別なアラート通知です。 回復通知では、アラートステータスは解決済みです。 通常のアラート通知では、アラートステータスは発火です。 たとえば、アラートモニタリングルールで回復通知機能が有効化されている場合、 前回のチェックでアラートがトリガーされ、現在のチェックでトリガー条件が満たされない場合、回復通知が送信されます。

Log Service は、アラート通知の形式で回復通知を送信します。 回復通知では、[アラートステータス] フィールドは[解決済み] と表示されます。