全部產品
Search
文件中心

Simple Log Service:LoongCollector運行情況診斷與監控

更新時間:Sep 23, 2025

使用LoongCollector採集日誌時,可能遇到正則解析失敗、檔案路徑不正確、流量超過Shard服務能力等問題。Log Service提供診斷功能,協助定位LoongCollector採集錯誤資訊。如需即時監控LoongCollector,可使用內建警示監控規則,通過DingTalk等渠道接收到警示通知。

前提條件

  • 已使用LoongCollector採集日誌。具體操作,請參見主機文本日誌採集

  • 開通目標Project的重要日誌

    本文僅介紹開通操作步驟,詳細瞭解服務日誌請參見開通服務日誌

    1. 登入Log Service控制台,在Project列表中單擊管理日誌資源的Project。在目標Project詳情頁的服務日誌頁簽中,單擊開通服務日誌

    2. 在開通服務日誌面板中,選擇重要日誌任務作業記錄,單擊確定

      • 該操作會在目標地區自動建立名稱為log-service-{使用者ID}-{region}的Project。

      • 重要日誌和任務作業記錄接入、儲存與查詢分析免費。當您進行資料加工、資料投遞等操作時,隨用隨付。

運行問題診斷

LoongCollector診斷套件括進階版診斷和基礎版診斷:

  • 進階版診斷(推薦):提供異常診斷儀錶盤,清晰展示LoongCollector相關的異常資訊,並且支援更長時間的異常資訊查詢。

  • 基礎版診斷:提供最近1小時內的採集異常資訊。

適用情境

  • LoongCollector狀態異常:心跳失敗、進程未運行或SSL認證異常。

  • 日誌採集異常:日誌未採集、延遲過高或解析失敗(如正則匹配錯誤)。

  • 配置錯誤:檔案路徑不正確、機器組IP不匹配、跨帳號許可權問題。

  • 效能瓶頸:採集速率接近或超過預設限制(如20 MB/s),導致日誌丟棄。

  • 容器日誌採集問題:Pod頻繁重啟、日誌輪轉過快導致採集不全。

  • 外掛程式與自訂採集問題:自訂外掛程式(如Grok解析)或HTTP資料來源採集失敗。

  • 資料可靠性問題:日誌丟失(如LoongCollector未運行或輪轉速度過快)。

操作步驟如下:

  1. 登入Log Service控制台。在Project列表中,單擊目標Project。

  2. 單擊image日誌儲存,在日誌庫中,將滑鼠懸浮在目標Logstore上,然後單擊目標Logstore右側的Logtail組態管理表徵圖。

  3. 按需要單擊進階版診斷基礎版診斷查看診斷資訊。

  4. 查看診斷資訊。

    基礎版診斷

    日誌採集錯誤面板中將展示該Logstore所對應的所有LoongCollector採集錯誤清單。您可以單擊目標錯誤碼,查看錯誤詳情。更多資訊,請參見Log Service採集資料常見的錯誤類型

    進階版診斷

    LoongCollector/Logtail異常監控頁面,查看活躍用戶端數全量錯誤資訊等資訊。採集異常監控儀錶盤的更多資訊,請參見查看資料報表。錯誤碼的更多資訊,請參見Log Service採集資料常見的錯誤類型

  5. 處理問題完畢後,查看是否仍有報錯。歷史報錯在到期前仍顯示,請忽略這部分報錯,僅確認在問題處理完畢的時間點之後是否有新的錯誤。其中LoongCollector上報錯誤資訊的時間間隔為10分鐘。

    如果您需要查看解析失敗而被丟棄的完整日誌,可查看LoongCollector作業記錄。路徑為:
    主機情境:在伺服器的/usr/local/ilogtail/loongcollector.LOG檔案中。
    容器情境:在容器的/usr/local/ilogtail/loongcollector.LOG檔案中。

健全狀態監控

Log Service提供了內建的警示策略協助即時監控LoongCollector,若有以下監控需求時可進行內建警示策略的配置:

  • LoongCollector心跳異常監控

    通過查詢 internal-diagnostic_log 中 __topic__:logtail_status 日誌,統計LoongCollector心跳正常機器數,並配置警示規則(如心跳數低於預期值時觸發警示),用於排查宕機或網路異常的機器 。

  • LoongCollector採集異常警示

    執行 __topic__: logtail_alarm 查詢語句,分析15分鐘內各類異常(如檔案不可讀、許可權不足、解析失敗)的發生次數,及時發現並修複配置問題,避免日誌丟失 。

  • 效能瓶頸預警

    利用Logtail異常監控儀錶盤(展示活躍LoongCollector數、重啟列表、全量錯誤資訊等),監控Logtail運行狀態及資源使用(如CPU、記憶體),識別效能瓶頸或異常重啟 。

  • 中心化日誌採集監控

    通過LoongCollector檔案採集監控儀錶盤(展示採集檔案數、平均延遲、解析失敗率等),統一管理多帳號或多地區情境下的日誌採集狀態,確保採集連續性 。

操作步驟如下:

  1. 配置行動策略:用於在監控警示狀態發生變化時,定義如何發送通知。

    1. 登入Log Service控制台

    2. 在Project列表中,找到開啟重要日誌功能時選擇的Project,單擊Project名稱。

    3. 在左側導覽列中,單擊image警示,在警示中心頁面,選擇通知策略 > 行動策略頁簽。

    4. 在行動策略列表中,找到目標行動策略sls.app.logtail.builtin,單擊操作列的修改

    5. 編輯行動策略對話方塊中,根據業務需求,選擇渠道並參考通知渠道說明進行配置,然後單擊確認

  2. 建立警示規則:用於設定監控規則,當LoongCollector健全狀態觸發閾值時進行警示。

    1. 警示中心頁面,單擊警示規則,單擊建立警示右側的image

    2. 單擊從模板建立,在從模板建立面板中,單擊全部模板下的Logtail錯誤監控,在右側面板中選擇目標卡片後單擊。

    3. 建立警示面板中查看配置,內建警示監控規則已預設參數,請直接單擊確定。關於配置參數的說明,請參見建立警示監控規則