すべてのプロダクト
Search
ドキュメントセンター

Cloud Monitor:しきい値トリガーアラートルールが遅延でトリガーされるのはなぜですか?

最終更新日:Aug 20, 2024

このトピックでは、メトリックデータがアラート条件を満たしているときに、アラートのトリガー時間が予想よりも遅くなる理由について説明します。

次の2つの概念に精通している必要があります。

  • メトリックの期間

    メトリックの期間は、2つの連続するデータポイント間の間隔とメトリック値の集計期間を示します。 たとえば、メトリックの期間が60秒の場合、データポイントは60秒ごとに生成されます。 メトリック値は、前回の値、または過去60秒間のメトリックデータに基づいて計算された集計値です。

  • アラート検出期間

    アラートルールの検出期間は、メトリックの期間によって決まります。 マルチメトリック式に複数のピリオドが含まれている場合、最短ピリオドが優先されます。 たとえば、検出期間が60秒の場合、Alert Serviceは60秒ごとに最新のメトリックデータを照会します。

説明
  • 集計方法は、メトリックに基づいて異なります。 詳細については、「付録1: メトリック」をご参照ください。 [TimeSeries Metrics] ページで、特定のクラウドサービスの [統計] 列を表示できます。

  • 各メトリックの期間は異なります。 詳細については、「付録1: メトリック」をご参照ください。 特定のクラウドサービスの [最小期間] 列は、[TimeSeries Metrics] ページで表示できます。

アラートルールのメトリックの期間が長い場合 (たとえば、300秒または900秒) 、メトリックデータのディスクへの書き込みが遅れるか、データポイントがアラートが検出された時点よりもわずかに早い場合があります。 結果として、アラートは、1つの検出期間の遅延でトリガされ得る。 メトリックの期間が短い場合、大きな遅延は発生しません。

アプリケーショングループの可用性モニタリングアラートおよびグループプロセスモニタリングアラート、クラウドサービスのメトリックベースのアラート、サイトモニタリングアラート、およびHybrid cloud monitoringのPromQLステートメントを使用して作成されたアラートには、単一のメトリック、複数のメトリック、複雑な式、および期間ベースの比較に関係なく、固定のしきい値の式があります。 単一のメトリックの単純な式は、次の2つの問題で使用されます。

問題1: メトリックデータは定期的に報告されます。 データはN回連続してアラート条件を満たしますが、アラートはほぼ1期間の遅延でトリガーされます。

原因

アラートが検出された時点は、データポイントよりわずかに早い。 その結果、アラートはほぼ1周期の遅延でトリガーされます。

メトリックの期間が300秒であると仮定すると、アラートの検出期間も300秒です。 アラート条件は、平均メトリック値が3つの連続した期間のしきい値よりも大きい場合にアラートがトリガーされることです。 次の表にデータポイントを示します。

時間

10:01:30

5

10:06:30

15

10:11:30

14

10:16:30

13

10:21:30

20

10:26:30

18

10:31:30

16

アラートが最初に10:06:00に検出されたと仮定します。これは、データポイント10:06:30よりわずかに前です。 10:06:00に照会されたメトリックデータは、最後の期間の値5であり、メトリックしきい値に達していません。

  • アラートは10:11:00に2回目に検出されます。 照会されたメトリックデータは値15であり、これは初めてメトリックしきい値に達します。

  • アラートは3回目の10:16:00に検出されます。 照会されたメトリックデータは値14であり、2回目のメトリックしきい値に達します。

  • アラートは10:21:00に4回目に検出されます。 照会されたメトリックデータは値13であり、3回目のメトリックしきい値に達します。 アラート通知が送信されます。

上記のデータから、顧客は、3回目の閾値を満たすメトリックデータが10:16:30に現れると考えられる。 ただし、アラートは1周期に近い4.5分の遅延でトリガーされます。

問題2: メトリックデータは、まばらに、かつ非周期的に報告される。 アラートは1周期の遅延でトリガーされます。

原因

メトリックデータが非周期的またはまばらに報告されると、ディスクへのデータの書き込みが遅延します。

  • 例1: メトリックの期間が300秒または900秒であると仮定します。 データがまばらにまたは非周期的に報告される場合、データポイントは5分までの遅延を有し得る。 たとえば、データポイント10:00:00 at 10:01:00のデータを照会した場合、結果は返されません。 10:05:00にデータポイント10:00:00のデータを照会すると、結果が返されます。 したがって、現在のデータは、アラートが検出された時点では利用できない可能性があり、アラートは1周期の遅延でトリガされる。

  • 例2: アラート条件は、しきい値が10を超えるとアラートがトリガーされることです。 次の表に、アラート検出プロセスを示します。

時間

アラート検出

データの説明

10:45:00

戻り値は5です。 アラートはトリガーされません。

-

11:00:00

データはスパースであり、ディスクへのディスクの書き込みが遅れるため、この時点ではデータは照会されません。 したがって、CloudMonitorは、データがまだ最後の期間の値5であると見なし、アラートをトリガーしません。

11:05:00にデータが再度照会されると、値10が返されます。 顧客がこの時点でメトリックデータを見ると、顧客は、アラートがトリガされることになっていると考える。

11:15:00

戻り値は12です。 アラートがトリガーされます。

アラート検出期間は15分です。 アラート通知は、メトリックデータに基づいて15分の遅延で送信されます。