使用LoongCollector採集日誌時,可能遇到正則解析失敗、檔案路徑不正確、流量超過Shard服務能力等問題。Log Service提供診斷功能,協助定位LoongCollector採集錯誤資訊。如需即時監控LoongCollector,可使用內建警示監控規則,通過DingTalk等渠道接收到警示通知。
前提條件
已使用LoongCollector採集日誌。具體操作,請參見主機文本日誌採集。
運行問題診斷
LoongCollector診斷套件括進階版診斷和基礎版診斷:
進階版診斷(推薦):提供異常診斷儀錶盤,清晰展示LoongCollector相關的異常資訊,並且支援更長時間的異常資訊查詢。
基礎版診斷:提供最近1小時內的採集異常資訊。
適用情境
LoongCollector狀態異常:心跳失敗、進程未運行或SSL認證異常。
日誌採集異常:日誌未採集、延遲過高或解析失敗(如正則匹配錯誤)。
配置錯誤:檔案路徑不正確、機器組IP不匹配、跨帳號許可權問題。
效能瓶頸:採集速率接近或超過預設限制(如20 MB/s),導致日誌丟棄。
容器日誌採集問題:Pod頻繁重啟、日誌輪轉過快導致採集不全。
外掛程式與自訂採集問題:自訂外掛程式(如Grok解析)或HTTP資料來源採集失敗。
資料可靠性問題:日誌丟失(如LoongCollector未運行或輪轉速度過快)。
操作步驟如下:
登入Log Service控制台。在Project列表中,單擊目標Project。
單擊
日誌儲存,在日誌庫中,將滑鼠懸浮在目標Logstore上,然後單擊目標Logstore右側的
表徵圖。按需要單擊進階版診斷或基礎版診斷查看診斷資訊。
查看診斷資訊。
基礎版診斷
日誌採集錯誤面板中將展示該Logstore所對應的所有LoongCollector採集錯誤清單。您可以單擊目標錯誤碼,查看錯誤詳情。更多資訊,請參見Log Service採集資料常見的錯誤類型。
進階版診斷
在LoongCollector/Logtail異常監控頁面,查看活躍用戶端數、全量錯誤資訊等資訊。採集異常監控儀錶盤的更多資訊,請參見查看資料報表。錯誤碼的更多資訊,請參見Log Service採集資料常見的錯誤類型。
處理問題完畢後,查看是否仍有報錯。歷史報錯在到期前仍顯示,請忽略這部分報錯,僅確認在問題處理完畢的時間點之後是否有新的錯誤。其中LoongCollector上報錯誤資訊的時間間隔為10分鐘。
如果您需要查看解析失敗而被丟棄的完整日誌,可查看LoongCollector作業記錄。路徑為:
主機情境:在伺服器的
/usr/local/ilogtail/loongcollector.LOG檔案中。容器情境:在容器的
/usr/local/ilogtail/loongcollector.LOG檔案中。
健全狀態監控
Log Service提供了內建的警示策略協助即時監控LoongCollector,若有以下監控需求時可進行內建警示策略的配置:
LoongCollector心跳異常監控
通過查詢
internal-diagnostic_log中__topic__:logtail_status日誌,統計LoongCollector心跳正常機器數,並配置警示規則(如心跳數低於預期值時觸發警示),用於排查宕機或網路異常的機器 。LoongCollector採集異常警示
執行
__topic__: logtail_alarm查詢語句,分析15分鐘內各類異常(如檔案不可讀、許可權不足、解析失敗)的發生次數,及時發現並修複配置問題,避免日誌丟失 。效能瓶頸預警
利用Logtail異常監控儀錶盤(展示活躍LoongCollector數、重啟列表、全量錯誤資訊等),監控Logtail運行狀態及資源使用(如CPU、記憶體),識別效能瓶頸或異常重啟 。
中心化日誌採集監控
通過LoongCollector檔案採集監控儀錶盤(展示採集檔案數、平均延遲、解析失敗率等),統一管理多帳號或多地區情境下的日誌採集狀態,確保採集連續性 。
操作步驟如下:
配置行動策略:用於在監控警示狀態發生變化時,定義如何發送通知。
在Project列表中,找到開啟重要日誌功能時選擇的Project,單擊Project名稱。
在左側導覽列中,單擊
警示,在警示中心頁面,選擇頁簽。在行動策略列表中,找到目標行動策略
sls.app.logtail.builtin,單擊操作列的修改。在編輯行動策略對話方塊中,根據業務需求,選擇渠道並參考通知渠道說明進行配置,然後單擊確認。
建立警示規則:用於設定監控規則,當LoongCollector健全狀態觸發閾值時進行警示。
在警示中心頁面,單擊警示規則,單擊建立警示右側的
。單擊從模板建立,在從模板建立面板中,單擊全部模板下的Logtail錯誤監控,在右側面板中選擇目標卡片後單擊。
在建立警示面板中查看配置,內建警示監控規則已預設參數,請直接單擊確定。關於配置參數的說明,請參見建立警示監控規則。