応答時間 (RT) やクエリ/秒 (QPS) など、正常な範囲内で変動するメトリックを監視するには、時間帯ごとに異なるアラートしきい値が必要になる場合があります。動的しきい値機能を使用して、メトリックデータの異常を検出できます。データポイントが急激に変化し、事前に定義された上限と下限の範囲外になると、システムは異常イベントを生成します。このタイプの検出は、主に安定した傾向を持つデータやメトリックを監視するために使用されます。
シナリオ
アプリケーションパフォーマンス監視: Web サイトの応答時間やリクエストレートなどの主要なメトリックを監視します。サービスの応答時間が突然正常範囲を超えた場合、システムは直ちに異常アラートを送信します。これにより、管理者は迅速に問題を特定し、解決できます。
サーバーリソースの最適化: サーバーの CPU とメモリ使用量を監視します。サーバーのリソース使用量が継続的に事前定義されたしきい値を超えると、システムは自動的に異常イベントを生成します。これにより、チームは迅速にリソース割り当てを調整し、潜在的なシステムクラッシュを防ぐことができます。
アプリケーション接続プール分析: クエリレートや同時接続数などの主要なメトリックを監視します。スレッドの特定のメトリックが正常範囲を超えた場合、システムは自動的に異常イベントをトリガーします。これにより、プログラムのパフォーマンスを迅速に最適化できます。
マイクロサービスモデルの監視: マイクロサービスアーキテクチャでは、サービス間の相互作用と依存関係は複雑です。この機能により、チームは各サービスのリソース使用量と応答時間を監視できます。サービスに異常が発生した場合、問題を迅速に特定して、システム全体の安定性を確保できます。
例:
ビジネス Web サイトの場合、日中 (10:00 から 18:00 まで) のページビュー数が 1,000 未満の場合は異常と見なされます。しかし、夜間 (22:00 から 06:00 まで) にページビュー数が 1,000 を超えると、攻撃を示している可能性があります。このシナリオでは、メトリックの正常範囲は時間とともに変化します。カウントが 1,000 未満の場合にアラートを出すなどの静的しきい値を設定すると、日中の異常に対するアラートは受信しますが、夜間に攻撃が発生しても通知されません。動的しきい値機能を使用すると、システムは正常範囲をインテリジェントに識別し、しきい値の範囲を自動的に更新できます。
前提条件
アプリケーションでアプリケーション監視が有効になっています。詳細については、「アプリケーション監視の概要」をご参照ください。
動的しきい値の設定
ARMS コンソールにログインします。
左側のナビゲーションウィンドウで、 を選択します。表示されたページで、[アラートルールの作成] をクリックします。
[アプリケーション監視アラートルールの作成] ページで、カスタムのアラート名を入力し、[アラート検出タイプ] を [間隔検出] に設定します。
説明静的しきい値を設定するには、「静的しきい値」をご参照ください。
[アラートオブジェクト] セクションで、必須パラメーターを選択します。
パラメーター
説明
アラートアプリケーション
アラートルールを作成するアプリケーションを選択します。異常検出のために選択できるアプリケーションは 1 つだけです。
メトリックタイプ
検出するメトリックのタイプを選択します。詳細については、「アラートメトリック」をご参照ください。
メトリックタイプを選択すると、システムは自動的に上限と下限を計算し、メトリックの傾向をリアルタイムでレンダリングします。[アラート条件] セクションでメトリックの傾向をプレビューできます。
説明[アラートルール] と [フィルター条件] の条件フィールドは、[メトリックタイプ] によって異なります。
初期レンダリングには 2~4 秒かかります。
上限と下限の計算方法については、「しきい値の計算」セクションをご参照ください。
フィルター条件
メトリックをフィルターして、監視範囲を絞り込みます。
アラートメトリックのディメンション:
走査: アラートコンテンツにアラートをトリガーした実際のディメンション値を表示します。
ディメンションなし: アラートコンテンツにこのディメンションのすべての値の合計を表示します。
= : 指定されたディメンション値に一致するデータのみを含みます。
!=: 指定されたディメンション値に一致するデータを除外します。
含む: 指定されたディメンション値を含むデータのみを含みます。
含まない: 指定されたディメンション値を含むデータを除外します。
正規表現に一致: 指定された正規表現に一致するデータのみを含みます。
[アラートルール] セクションで、[アラート条件] を設定します。
パラメーター
説明
アラートトリガーモード
動的しきい値検出は、単一のトリガー条件のみをサポートします。複数のトリガーモードの組み合わせはサポートされていません。
アラート条件
特定のアラート条件を設定します。これには、次の要素が含まれます:
過去 X 分: 監視の時間範囲。最大 60 分まで選択できます。
メトリックメジャー: メトリックの定量化可能なデータまたは値。測定方法は、呼び出し回数や呼び出し応答時間など、メトリックタイプによって異なります。
集計方法: 平均、最大、最小を含むメトリックデータの計算。これもメトリックとメジャーに依存します。
比較方法: 異常なポイントを見つけるための計算データの比較。動的しきい値検出では、3 つの比較方法が利用可能です:
動的しきい値の範囲外: システムは現在の時間の上限と下限を自動的に計算します。データポイントが上限または下限の範囲外にある場合、データは異常と見なされ、アラートがトリガーされます。
動的しきい値の最大値より大きい: システムは現在の時間の上限と下限を自動的に計算します。データポイントが上限を超えている場合、データは異常と見なされ、アラートがトリガーされます。
動的しきい値の最小値より小さい: システムは現在の時間の上限と下限を自動的に計算します。データポイントが下限を下回っている場合、データは異常と見なされ、アラートがトリガーされます。
アラートレベル: アラートの重大度。P1 から P4 まで。
データプレビューエリアでは、青い線は実際のデータポイントを表し、緑のエリアは上限と下限の範囲です。
許容度
この設定は、自動的な上限と下限の境界を拡大または縮小します。許容度を高くする (右にスライド) と、境界が広くなります。これにより、異常データのしきい値が上がり、トリガーされるアラートが少なくなります。許容度を低くする (左にスライド) と、境界が狭くなります。これにより、しきい値が下がり、トリガーされるアラートが多くなります。
アラート数予測
選択した期間中にメトリックがしきい値を超えると予想される回数を表示します。特定のアラート値をクリックして、過去のある時点でアラートをトリガーしたメトリック値をクエリします。
アラートルールを作成または変更するときは、「アラート数予測」機能を使用します。この機能は、アルゴリズムを使用して履歴データを分析し、選択した期間のアラート数を予測します。これは、しきい値を調整するのに役立ちます。
[アラート通知] と [高度なアラート設定] を設定します。
パラメーター
説明
通知ポリシー
このフィールドは、[アラート通知] が [通常モード] に設定されている場合にのみ表示されます。オプションは次のとおりです:
通知ポリシーを指定しない: アラートがトリガーされても、通知は送信されません。通知は、通知ポリシーの一致ルールがトリガーされた場合にのみ送信されます。
通知を送信する通知ポリシーを指定する: アラートがトリガーされると、ARMS は通知ポリシーで指定された方法を使用してアラート通知を送信します。既存の通知ポリシーを選択するか、新しいポリシーを作成できます。詳細については、「通知ポリシー」をご参照ください。
高度なアラート設定
データなし
データなし、複合指標、期間比較などの異常データを処理するために使用されます。アラートメトリックが設定された条件を満たさない場合、アラートデータは 0 または 1 に復元されるか、アラートはトリガーされません。
詳細については、「アラート管理システムの用語」をご参照ください。
設定が完了したら、[保存] をクリックします。
動的しきい値の計算方法
ARMS の動的しきい値機能は、Prophet アルゴリズムに基づいています。動的しきい値タスクを設定すると、ARMS は 24 時間に 1 回バックグラウンドジョブを実行します。ジョブは過去 7 日間のメトリックデータを分析し、傾向や季節性などの特徴を抽出して、次の 24 時間の予測曲線を生成します。メトリックの誤差分散 (変動) に基づいて、翌日のメトリックデータの推定範囲を作成します。動的しきい値アラートを設定すると、アルゴリズムによって計算された上限と下限をプレビューできます。
静的しきい値とは異なり、メトリックの正常範囲が変化した場合に動的しきい値を更新するためにアラートルールを手動で編集する必要はありません。これは、ARMS が毎日メトリックの特性を学習し、次の 24 時間の上限と下限を予測するためです。これにより、手動でのしきい値調整が不要になります。
アラート量予測
アラート量予測機能は、アルゴリズムを使用して履歴データを分析し、過去のアラートが発生した時刻を表示し、指定された期間内のアラート数を予測します。この機能は、静的しきい値を設定したり、動的しきい値のアラート感度を向上させたりするのに役立ちます。
実装
過去 24 時間のメトリックデータに基づいて、ARMS はメトリックの各しきい値が超えられた回数を計算し、将来のアラート量を予測します。さらに、ARMS は、各しきい値が超えられた特定の時刻を含むメトリックの詳細を提供します。ビジネス要件に基づいてしきい値を調整できます。
アラートルールがトリガーされた後、「アラートイベントの履歴を表示する」ことができます。
アラート通知を受信した後、「送信されたアラートの履歴を表示する」ことができます。