ログメトリクス分析の異常検知アルゴリズム概要 - Simple Log Service (SLS)

Simple Log Serviceのインテリジェントな検査機能を使用すると、メトリックやビジネスログなどのデータを検査し、自動化されたインテリジェントで適応的な方法でデータの異常を特定できます。インテリジェント検査機能は、ストリームグラフアルゴリズム、ストリーム分解アルゴリズム、および教師付き異常検出アルゴリズムを使用してデータを検査します。このトピックでは、ストリームグラフアルゴリズム、ストリーム分解アルゴリズム、および教師あり異常検出アルゴリズムのシナリオ、パラメーター設定、およびプレビューの説明について説明します。

ストリームグラフアルゴリズム

ストリームグラフアルゴリズムはTime2Graphに基づいて開発されています。このアルゴリズムは、データノイズを低減し、各異常サンプルのオフセットを計算することができる。このアルゴリズムは、重大なデータノイズとわずかな周期的変化を伴う多数の時系列を検査するシナリオに適しています。詳細については、「進化状態グラフによる時系列イベント予測」をご参照ください。

シナリオ

ストリームグラフアルゴリズムは、オンライン機械学習法を使用して各サンプルを分析し、サンプルデータからリアルタイムで学習します。このアルゴリズムを使用して、次のタイプの時系列で異常を識別できます。

CPU使用率、メモリ使用量、ディスクの読み取りおよび書き込み速度などのマシンレベルのメトリック
1秒あたりのクエリ数 (QPS) 、トラフィック量、成功率、レイテンシなどのパフォーマンス指標
黄金の指標

Parameters

ストリームグラフアルゴリズムのパラメーターは、[インテリジェント検査ジョブの作成] ウィザードの [アルゴリズム設定] ステップの [アルゴリズム設定] セクションで設定できます。詳細については、「リアルタイム検査のためにSQL文を使用してメトリックを集計する」をご参照ください。

パラメーター	サブパラメータ	説明
(必須) 高度なパラメータ	時系列セグメント	指定されたメトリックの時系列が離散化されるセグメントの数。離散化は、メトリックチャートの構築に役立ちます。デフォルト値: 8。このパラメーターを5 ~ 20の範囲内の値に設定することを推奨します。異常検出の感度は、このパラメータの値に基づいて線形に低下します。
	観察の長さ	異常検出中に検査する履歴サンプルの数。デフォルト値: 2880 このパラメーターを200〜4000の範囲内の値に設定することを推奨します。検査する時系列が周期的である場合、2つの観測サイクル内に検査するサンプルの数に基づいてこのパラメーターを設定することをお勧めします。たとえば、観測の粒度が1分で、観測サイクルが1日の場合、Simple Log Serviceは2日以内に2,880のサンプルのメトリックを検査できます。このパラメーターを2880以上の値に設定することを推奨します。
	期間の比較長さ	期間分析が実行されるのに基づく期間。単位：日期間分析は、異常検出中に検査するメトリックに対して実行されます。このパラメーターを0に設定すると、アルゴリズムはピリオドオーバーピリオド分析を実行しません。
	主要なキャプチャタイプ	特別な注意を必要とする時系列異常のタイプ。有効な値：上向きスパイク: メトリックの値は、特定の時点で突然増加します。下向きスパイク: メトリックの値は、特定の時点で突然減少します。上向きシフト: メトリックの値が増加し、特定の期間にわたって安定します。下向きシフト: メトリックの値が減少し、特定の期間にわたって安定します。上向きの傾向: メトリックの値は、特定の期間にわたって継続的に増加します。下降傾向: メトリックの値は、特定の期間にわたって継続的に減少します。
	木	決定木の数。ストリームグラフアルゴリズムは、補助検査のために決定木を使用する。
	木ごとのサンプルサイズ	異常検出中にストリームグラフアルゴリズムが検出ツリーを構築するときに検査するデータから収集するサンプルの数。
	全体的な異常率	時系列に含まれる異常データの推定レート。有効な値: 0.001〜0.01。
	異常タイプチェックの最小ウィンドウ	異常キャプチャ中に参照される時系列の最小の長さ。
	異常タイプチェックの最大ウィンドウ	異常キャプチャ中に参照される時系列の最大長。
	異常確認のための最小ウィンドウ	異常キャプチャ中に検査する時系列の最小長さ。
	異常確認のための最大ウィンドウ	異常キャプチャ中に検査する時系列の最大長。
単一次元フィーチャーの設定	-	検査する時系列の機能。次の機能を個別に設定する必要があります。最大値: 時系列の最大値。最小値: 時系列の最小値。正規化: 時系列を検査するときに時系列を正規化するために使用される方法。フォローする異常タイプ: 時系列を調べるときに特別な注意が必要な異常のタイプ。
通知の感度設定	-	アラート通知の送信に基づくしきい値。異なる期間に検出される異常に対して、異なるしきい値を設定する必要があります。たとえば、サービスのスケジュールされた週ごとのメンテナンス期間中に検出された異常を無視できます。

ストリーム分解アルゴリズム

ストリーム分解アルゴリズムは、RobustSTLに基づいて開発されています。このアルゴリズムはバッチ処理をサポートしますが、ストリームグラフアルゴリズムよりもコストが高くなります。ストリーム分解アルゴリズムは、少数のパフォーマンスメトリックを正確に検査するシナリオに適しています。大量のデータを分析する場合は、データをバッチに分割するか、ストリームグラフアルゴリズムを使用することをお勧めします。

シナリオ

ストリーム分解アルゴリズムを使用して、大きな周期的変化を持つデータを検査できます。たとえば、ストリーム分解アルゴリズムを使用して、大きな周期的変化を持つパフォーマンスメトリックを検査できます。

説明

周期的に変化するデータには、ゲームへの訪問数と顧客による注文数が含まれます。

パラメーター

ストリーム分解アルゴリズムのパラメーターは、[インテリジェント検査ジョブの作成] ウィザードの [アルゴリズム設定] ステップの [アルゴリズム設定] セクションで設定できます。詳細については、「リアルタイム検査のためにSQL文を使用してメトリックを集計する」をご参照ください。

アルゴリズムの設定

パラメーター	サブパラメータ	説明
自動周期的検出	-	自動定期検出を有効にするかどうかを指定します。自動周期検出は、時系列データが季節性を有するシナリオに適している。時系列の季節性が一定の場合は、自動定期検出を無効にし、周期の長さを手動で設定することを推奨します。
周期的な検出周波数	-	周期的な検出が実行される周波数。このパラメーターは、自動定期検出を有効にした場合にのみ有効になります。アルゴリズムは、設定された周波数に基づいて時系列の季節性を定期的に更新する。たとえば、値を12時間に設定した場合、アルゴリズムは12時間ごとに時系列の季節性を自動的に検出して更新します。
ピリオドの長さ	-	時系列の季節性の時間の長さ。このパラメーターは、自動定期検出を無効にした場合にのみ有効です。時系列に季節性がない場合は、値を0に設定します。
観察の長さ	-	異常検出中に履歴データが参照される時間の長さ。時系列に季節性がある場合は、Period Lengthパラメーターの値の3倍に値を設定することを推奨します。たとえば、Period Lengthパラメーターを1日に設定した場合、このパラメーターを3日に設定します。
感度	-	検出感度。検出された異常の数と異常スコアは、このパラメーターの値とともに線形に増加します。このパラメーターを大きな値に設定すると、異常の再現率が高くなり、検出精度が低くなります。
高度なパラメータ	トレンド成分の感度	トレンドコンポーネントの感度。アルゴリズムは、時系列をトレンド成分、季節成分、およびノイズ成分に分解する。傾向成分の異常検出の間、検出された異常の数および異常スコアは、傾向成分の感度とともに線形に増加する。このパラメーターを大きな値に設定すると、異常の再現率が高くなり、検出精度が低くなります。
	ノイズ感度	ノイズ成分の感度。アルゴリズムは、時系列をトレンド成分、季節成分、およびノイズ成分に分解する。ノイズ成分の異常検出の間、検出された異常の数および異常スコアは、トレンド成分の感度とともに線形に増加する。このパラメーターを大きな値に設定すると、異常の再現率が高くなり、検出精度が低くなります。
	トレンド成分のサンプリングステップ	トレンドコンポーネントのサンプリングステップ。アルゴリズムは、時系列をトレンド成分、季節成分、およびノイズ成分に分解する。観測された時系列の長さが長すぎると、トレンド成分の分析が遅くなる。このパラメーターを大きな値に設定すると、トレンドコンポーネントの分析が高速になります。しかしながら、トレンド成分の検出精度が低下するおそれがある。たとえば、このパラメーターを8に設定すると、8つのデータポイントごとに1つのデータポイントが、トレンドコンポーネント分析の元の時系列からサンプリングされます。
	季節成分サンプリングステップ	季節成分のサンプリングステップ。アルゴリズムは、時系列をトレンド成分、季節成分、およびノイズ成分に分解する。観測された時系列の長さが長すぎると、季節成分の分析が遅くなる。このパラメーターを大きな値に設定すると、季節成分の分析が高速になります。しかし、季節成分の検出精度が低下する可能性がある。たとえば、このパラメーターを8に設定した場合、8つのデータポイントごとに1つのデータポイントが、季節成分分析の元の時系列からサンプリングされます。このパラメーターを5以下の値に設定することを推奨します。
	ウィンドウの長さ	観測される時系列の長さが長すぎると、異常検出が遅くなる。このパラメーターを指定すると、アルゴリズムはスライドウィンドウ内のセグメントのデータを検出し、検出速度を向上させます。このパラメーターを5000以下の値に設定することを推奨します。アルゴリズムでスライディングウィンドウ内のデータを検出しない場合は、このパラメーターを0に設定します。

プレビューセクションで、[表示] をクリックして、アルゴリズムの設定結果を表示します。
1. 時系列で検出が実行される時間範囲を指定します。 [データクエリ] をクリックして、指定した時間範囲内のデータを処理し、[データ機能の設定] ステップで設定したクエリステートメントを使用して時系列データを生成します。
2. [エンティティ情報] および [フィーチャ] パラメーターを設定して、検出するフィーチャのシーケンスを決定します。 [プレビュー] をクリックして検出アルゴリズムを呼び出し、指定したフィーチャシーケンスを処理します。検出結果はページの下部に表示されます。 [パラメータの表示] をクリックして、アルゴリズムの設定を表示します。
3. 検出結果には、トレンドコンポーネントプレビュー、季節コンポーネントプレビュー、ノイズプレビューが表示されます。 トレンドコンポーネントプレビューおよびノイズプレビューの異常しきい値を変更できます。このようにして、異常スコアが指定されたしきい値よりも大きい場合にのみアラートが生成されます。

監視された異常検出アルゴリズム

教師あり異常検出アルゴリズムは、時系列データの特徴を構築する。アルゴリズムは、時系列データの特徴と異常ラベルを使用して、決定木やランダムフォレストなどの教師あり分類モデルをトレーニングします。モデルがトレーニングされた後、アルゴリズムは、トレーニングされたモデルを使用して異常検出を実行する。

シナリオ

教師あり異常検出アルゴリズムは、異常ラベルを含む時系列データや、ストリームグラフアルゴリズムやストリーム分解アルゴリズムでは処理できない時系列データに適しています。

パラメーター

教師あり異常検出アルゴリズムのパラメーターは、[モデルトレーニングジョブの作成] ウィザードの [アルゴリズム設定] ステップの [アルゴリズム設定] セクションで設定できます。詳細については、「SQL文を使用したモデルトレーニングのメトリックの集計」をご参照ください。