日誌模板發現與匹配演算法-Log Service-阿里雲

Log Service異常智能分析應用提供文本分析功能，用於對日誌中的文本日誌進行智能化、自動化的分析，提供全域的統計分析結果。文本分析功能通過日誌模板發現和日誌模板匹配兩個子任務，實現對於日誌資料的監控和統計。您可以根據待分析的日誌資料的特點，選擇不同的任務和演算法。

文本分析演算法概述

在日誌模板發現階段，您可以使用日誌聚類演算法或者模板發現演算法離線構建日誌模板庫。在日誌模板匹配階段，您可以使用相似性聚類演算法、雜湊聚類演算法或者相似性匹配演算法線上監控日誌資料。

文本分析中的演算法採用LogParser和異常檢測技術，提供日誌分析報表協助您瞭解日誌的全域資訊和可能存在的異常情況，包括：

通過日誌報錶快速定位可能出現異常的日誌類別（例如新出現的日誌類別，異常分數Top5的日誌類別等），縮小人工排查的日誌範圍。
通過定時查看日誌報表瞭解日誌全域資訊的變化，輔助探查系統的穩定性。

日誌模板發現

日誌聚類演算法適用於日誌量大、日誌格式較為整齊的情境，模板發現演算法適用於日誌量適中，日誌格式較為複雜的情境。

日誌聚類演算法

日誌聚類演算法基於日誌聚類功能，日誌聚類功能對日誌資料進行粗粒度聚類，日誌聚類演算法在粗粒度聚類的結果上進行精度更高的二次聚類。開啟日誌聚類、查看聚類結果等操作步驟，請參見日誌聚類。

模板發現演算法

模板發現演算法使用詞頻分析演算法將擁有相似高頻詞的日誌歸為同一類別，且高頻詞構成對應日誌類別的日誌模板。演算法的更多資訊，請參見 Efficient and Robust Syslog Parsing for Network Devices in Datacenter Networks。

日誌模板匹配

相似性聚類演算法和雜湊聚類演算法適用於日誌量大、日誌格式整齊的情境，相似性匹配演算法適用於日誌量大的情境。

相似性聚類演算法

日誌相似性聚類演算法使用基於文本相似性（例如編輯距離，Jaccard相似性，Cosine相似性等）的LogParser對文本日誌進行解析，根據日誌的常值內容與結構對日誌進行聚類，將相似的日誌歸為一種類別。日誌相似性聚類演算法以日誌類別為單位，分析各個日誌類別中的日誌在連續時間視窗中的變化情況，檢測可能存在的異常。演算法的更多資訊，請參見Drain: An Online Log Parsing Approach with Fixed Depth Tree。

雜湊聚類演算法

雜湊聚類演算法基於日誌聚類功能，日誌聚類功能對日誌資料進行線上聚類，雜湊聚類演算法在日誌聚類結果的基礎上進行二次聚類，同時持續分析、監控日誌資料。雜湊聚類演算法不依賴外部日誌模板庫。

相似性匹配演算法

相似性匹配演算法使用外部日誌模板庫（可以使用日誌模板發現任務構建初始的日誌模板庫），對日誌資料進行匹配分析。統計日誌模板庫中每一個日誌模板的出現次數變化情況，並及時發現新增的日誌模板。相似性匹配演算法使用向量匹配、雜湊匹配等方式加速日誌模板匹配。