しきい値トリガーアラートルールが遅延でトリガーされるのはなぜですか? - Cloud Monitor

このトピックでは、メトリックデータがアラート条件を満たしているときに、アラートのトリガー時間が予想よりも遅くなる理由について説明します。

次の2つの概念に精通している必要があります。

メトリックの期間
メトリックの期間は、2つの連続するデータポイント間の間隔とメトリック値の集計期間を示します。たとえば、メトリックの期間が60秒の場合、データポイントは60秒ごとに生成されます。メトリック値は、前回の値、または過去60秒間のメトリックデータに基づいて計算された集計値です。
アラート検出期間
アラートルールの検出期間は、メトリックの期間によって決まります。マルチメトリック式に複数のピリオドが含まれている場合、最短ピリオドが優先されます。たとえば、検出期間が60秒の場合、Alert Serviceは60秒ごとに最新のメトリックデータを照会します。

説明

集計方法は、メトリックに基づいて異なります。詳細については、「付録1: メトリック」をご参照ください。 [TimeSeries Metrics] ページで、特定のクラウドサービスの [統計] 列を表示できます。
各メトリックの期間は異なります。詳細については、「付録1: メトリック」をご参照ください。特定のクラウドサービスの [最小期間] 列は、[TimeSeries Metrics] ページで表示できます。

アラートルールのメトリックの期間が長い場合 (たとえば、300秒または900秒) 、メトリックデータのディスクへの書き込みが遅れるか、データポイントがアラートが検出された時点よりもわずかに早い場合があります。結果として、アラートは、1つの検出期間の遅延でトリガされ得る。メトリックの期間が短い場合、大きな遅延は発生しません。

アプリケーショングループの可用性モニタリングアラートおよびグループプロセスモニタリングアラート、クラウドサービスのメトリックベースのアラート、サイトモニタリングアラート、およびHybrid cloud monitoringのPromQLステートメントを使用して作成されたアラートには、単一のメトリック、複数のメトリック、複雑な式、および期間ベースの比較に関係なく、固定のしきい値の式があります。単一のメトリックの単純な式は、次の2つの問題で使用されます。

問題1: メトリックデータは定期的に報告されます。データはN回連続してアラート条件を満たしますが、アラートはほぼ1期間の遅延でトリガーされます。

原因

アラートが検出された時点は、データポイントよりわずかに早い。その結果、アラートはほぼ1周期の遅延でトリガーされます。

例

メトリックの期間が300秒であると仮定すると、アラートの検出期間も300秒です。アラート条件は、平均メトリック値が3つの連続した期間のしきい値よりも大きい場合にアラートがトリガーされることです。次の表にデータポイントを示します。

時間	値
10:01:30	5
10:06:30	15
10:11:30	14
10:16:30	13
10:21:30	20
10:26:30	18
10:31:30	16

アラートが最初に10:06:00に検出されたと仮定します。これは、データポイント10:06:30よりわずかに前です。 10:06:00に照会されたメトリックデータは、最後の期間の値5であり、メトリックしきい値に達していません。

アラートは10:11:00に2回目に検出されます。照会されたメトリックデータは値15であり、これは初めてメトリックしきい値に達します。
アラートは3回目の10:16:00に検出されます。照会されたメトリックデータは値14であり、2回目のメトリックしきい値に達します。
アラートは10:21:00に4回目に検出されます。照会されたメトリックデータは値13であり、3回目のメトリックしきい値に達します。アラート通知が送信されます。

上記のデータから、顧客は、3回目の閾値を満たすメトリックデータが10:16:30に現れると考えられる。ただし、アラートは1周期に近い4.5分の遅延でトリガーされます。

問題2: メトリックデータは、まばらに、かつ非周期的に報告される。アラートは1周期の遅延でトリガーされます。

原因

メトリックデータが非周期的またはまばらに報告されると、ディスクへのデータの書き込みが遅延します。

例

例1: メトリックの期間が300秒または900秒であると仮定します。データがまばらにまたは非周期的に報告される場合、データポイントは5分までの遅延を有し得る。たとえば、データポイント10:00:00 at 10:01:00のデータを照会した場合、結果は返されません。 10:05:00にデータポイント10:00:00のデータを照会すると、結果が返されます。したがって、現在のデータは、アラートが検出された時点では利用できない可能性があり、アラートは1周期の遅延でトリガされる。
例2: アラート条件は、しきい値が10を超えるとアラートがトリガーされることです。次の表に、アラート検出プロセスを示します。

時間	アラート検出	データの説明
10:45:00	戻り値は5です。アラートはトリガーされません。	-
11:00:00	データはスパースであり、ディスクへのディスクの書き込みが遅れるため、この時点ではデータは照会されません。したがって、CloudMonitorは、データがまだ最後の期間の値5であると見なし、アラートをトリガーしません。	11:05:00にデータが再度照会されると、値10が返されます。顧客がこの時点でメトリックデータを見ると、顧客は、アラートがトリガされることになっていると考える。
11:15:00	戻り値は12です。アラートがトリガーされます。	アラート検出期間は15分です。アラート通知は、メトリックデータに基づいて15分の遅延で送信されます。

問題1: メトリックデータは定期的に報告されます。 データはN回連続してアラート条件を満たしますが、アラートはほぼ1期間の遅延でトリガーされます。

原因

例

問題2: メトリックデータは、まばらに、かつ非周期的に報告される。 アラートは1周期の遅延でトリガーされます。

原因

例

問題1: メトリックデータは定期的に報告されます。データはN回連続してアラート条件を満たしますが、アラートはほぼ1期間の遅延でトリガーされます。

問題2: メトリックデータは、まばらに、かつ非周期的に報告される。アラートは1周期の遅延でトリガーされます。