全部產品
Search
文件中心

Simple Log Service:智能異常分析

更新時間:Aug 23, 2025

智能異常分析應用是一個可託管、高可用、可擴充的服務,主要提供智能巡檢、文本分析和根因診斷三大能力。本文介紹智能異常分析應用的產品架構、功能優勢、適用情境、核心名詞、使用限制和費用說明等資訊。

重要

自2025年7月15日(UTC+8)起,智能異常分析功能停止對新使用者服務,存量使用者可繼續使用。

  1. 影響範圍

    本次下線涉及的核心功能模組包括智能巡檢、文本分析和時序預測。

  2. 功能平移方案

    上述下線功能均可以通過Log Service的機器學習文法定時查詢與分析(定時SQL)儀錶盤實現完整替代。

產品架構

智能異常分析應用圍繞營運情境中的監控指標、程式日誌、服務關係等核心要素展開,通過機器學習等手段產生例外狀況事件,通過服務拓撲關聯分析時序資料和事件,最終降低企業的營運複雜度,提高服務品質。產品架構圖如下所示。

各功能組件說明如下:

  • 日誌儲存(Logstore):Log Service提供Logstore用於儲存日誌類型的資料,並在日誌儲存的基礎上提供查詢和分析(SQL92文法)功能。更多資訊,請參見查詢與分析概述

  • 時序儲存(Metricstore):Log Service提供Metricstore用於儲存時序資料,並在時序資料存放區的基礎上提供分析(SQL92文法、PromQL文法)功能。更多資訊,請參見時序資料查詢和分析文法

  • 機器學習演算法:通過對特定情境的深度整合,提供一系列針對時序資料和文本等相關的演算法,產生異常資料。更多資訊,請參見智能巡檢演算法說明文本分析演算法說明

  • 警示(Alert Monitoring):支援對異常結果進行警示。更多資訊,請參見什麼是Log Service警示

功能優勢

  • 支援海量實體指標的智能異常檢測,您無需關注具體的警示規則,通過簡單的設定即可巡檢各種異常。

  • 智能化地分析和挖掘非結構化文本日誌,自動探索異常模式。

  • 支援您對演算法產生的結果進行標註,協助您逐步實現更好的模型訓練和學習。

  • 依託於Log Service的高可用性與資料可靠性,警示服務的可用性達到99.9%。

  • 智能異常分析應用跟警示服務深度整合,讓您擁有更完整的體驗。

使用情境

在如下情境中,推薦使用智能異常分析應用。

  • 觀察對象多且每個觀察對象的觀測維度也多。

  • 觀測對象沒有明確的臨界值規則,但需要關注指標的形態。

  • 需要對觀測對象編寫大量的商務規則。

  • 處理非結構化的日誌資料時,需要對文本日誌中的模式進行挖掘。

  • 在Trace情境中,有明確的服務拓撲。

  • 存在自訂的服務拓撲。

核心名詞

基本概念

說明

時序序列

在時序巡檢任務的配置過程中,需要給演算法提供標準的時間序列,即為Unix時間戳記形式、等間隔的序列指標。

實體

智能巡檢任務中的觀測對象。

例如對某台機器上的某個特定的服務進行異常檢測,通常對這個實體的描述為"192.0.2.0": 機器IP地址,"80": 服務連接埠號碼,則您通過機器IP地址、服務連接埠號碼即可唯一確定一個實體。

黃金指標

可以較準確地描述服務品質或者觀測實體穩定性的指標。例如:

  • 描述一個網域名稱的請求品質,則對應的黃金指標為每分鐘平均響應延時、每分鐘的請求數、每分鐘的失敗請求數、每分鐘寫入流量的大小。

  • 描述一個機器的狀態,則對應的黃金指標為每分鐘使用者態CPU的利用率、每分鐘核心態CPU的利用率、每分鐘系統駐留記憶體的大小、每分鐘磁碟IO次數、每分鐘系統的平均負載。

  • 描述一個OSS Bucket的狀態,則對應的黃金指標為每分鐘該Bucket寫入的次數、每分鐘該Bucket讀取的次數、每分鐘該Bucket的寫入流量的大小。

異常類型

內建7種常見的異常類型,用於快速篩選所需的關注點。更多資訊,請參見智能巡檢異常類型文本分析異常類型

歸一化方法

歸一化是一種簡化計算的方式,即將有量綱的運算式轉化為無量綱的運算式,成為標量,用於提升異常檢測的效果。

濾波方法

濾波是將訊號中特定波段頻率濾除的操作,是抑制和防止幹擾的一項重要措施。通過濾波後的曲線會平滑一些,用於提升異常檢測的效果。

標註

您可以對智能巡檢結果進行打標反饋,智能異常分析應用會接收到對應的資訊。

誤判

在時序巡檢情境中,模型會檢測出對應的異常,並通過警示渠道通知給您。如果您認為該結果不符合預期,則打標反饋給智能巡檢應用,智能巡檢應用將接收到此資訊並進行機器學習。

漏報

在時序巡檢情境中,如果模型未檢測出對應的異常,您可以通過相應的組件對任意資料點的打標資訊進行上報。

模式提取

通過分析、抽取、歸納的方法提取文字物件中的模式,用來描述一類相似文本的方法。

聚類

將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類。由聚類所產生的簇是一組資料對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象不同。

無監督

根據類別未知(未被標記)的訓練樣本解決模式識別中的各種問題。

有監督

有監督的學習是從標籤化訓練資料集中推斷出函數或模型的機器學習任務。

日誌常量

日誌往往由程式中的logging語句或者print語句產生。例如connect mysql server, latency 212ms日誌可能是通過日誌輸出語句logging.info("connect mysql server, latency %dms")產生。每次執行日誌輸出語句都包含的部分稱為日誌常量,例如connect mysql server, latency ms

日誌變數

日誌往往由程式中的logging語句或者print語句產生。例如connect mysql server, latency 212ms日誌可能是通過日誌輸出語句logging.info("connect mysql server, latency %dms")產生。每次執行日誌輸出語句都變化的部分稱為日誌變數,例如樣本中的數字212

日誌模板

由日誌中的常量部分和變數部分的萬用字元構成的文本被稱為日誌模板。

例如connect mysql server, latency 212ms日誌對應的模板為connect mysql server, latency *ms,其中使用萬用字元星號(*)替換數字變數212

萬用字元可以根據變數類型的不同進行選擇,例如可以使用NUM表示數字變數,則日誌模板為connect mysql server, latency NUMms

日誌類別

每個日誌類別包含表示該類別的日誌模板,如果日誌內容與該日誌模板匹配,那麼就認為日誌屬於該日誌類別。

使用限制

作業類型

限制項

說明

智能巡檢

巡檢實體規模

單個任務最多支援1萬個巡檢實體。

如果您需要巡檢更大的實體規模,請提交工單進行申請。

巡檢時序粒度

單個實體的曲線需要等間隔且連續,在SQL情境中最小支援分鐘粒度。

如果您需要更細的巡檢粒度,請提交工單進行申請。

異常結果通知

目前只有DingTalk機器人通知渠道支援異常結果的打標反饋。

如果您需要其他通知渠道,請提交工單進行申請。

文本分析

文字欄位規模

單任務最多可以配置5個文字欄位。

通識欄位模板規模

單任務最多可以配置6個通識模板。

費用說明

目前智能巡檢應用處於公測階段,不會產生費用。