LoongCollector を使用してログを収集する際に、正規表現の解析失敗、ファイルパスの誤り、シャードの処理能力を超えるトラフィックなどの問題が発生することがあります。Simple Log Service (SLS) は、収集エラーの特定に役立つ診断機能を提供します。LoongCollector をリアルタイムでモニタリングするために、組み込みのアラートモニタリングルールを使用して、DingTalk などのチャネルを通じてアラート通知を受け取ることができます。
前提条件
-
LoongCollector を使用してログを収集済みであること。詳細については、「ホストからのテキストログの継続的な収集」をご参照ください。
-
ランタイム診断
診断には、高度な診断と基本的な診断の 2 つのエディションがあります。
-
高度な診断 (推奨):LoongCollector 関連の例外を明確に表示し、長期間にわたって例外情報をクエリできる診断ダッシュボードを提供します。
-
基本的な診断:過去 1 時間以内に発生した収集例外に関する情報を提供します。
利用シーン
-
LoongCollector の異常なステータス:ハートビートの失敗、非アクティブなプロセス、または SSL 証明書の例外。
-
ログ収集の例外:ログが収集されない、収集レイテンシーが高い、または正規表現のマッチングエラーなどの解析の失敗。
-
設定エラー:不正なファイルパス、マシングループの IP アドレスの不一致、またはクロスアカウントの権限の問題。
-
パフォーマンスボトルネック:収集レートがデフォルトの制限 (例:20 MB/s) に近づくか超えることで、ログがドロップされる。
-
コンテナログ収集の問題:頻繁な Pod の再起動や高速なログローテーションによる不完全な収集。
-
プラグインとカスタム収集の問題:Grok 解析プラグインなどのカスタムプラグインの失敗、または HTTP データソース収集の失敗。
-
データの信頼性の問題:LoongCollector が実行されていない場合やログローテーションが速すぎる場合に発生するログの損失。
操作手順
-
SLS コンソールにログインします。プロジェクトリストで、送信先のプロジェクトをクリックします。
-
[ログストレージ] をクリックします。Logstore のリストで、送信先の Logstore にポインターを合わせ、
アイコンをクリックします。 -
[高度な診断] または [基本的な診断] をクリックして、診断情報を表示します。
-
診断情報を表示します。
基本的な診断
[ログ収集エラー] パネルには、Logstore のすべての LoongCollector 収集エラーのリストが表示されます。エラーコードをクリックすると、その詳細が表示されます。詳細については、「Simple Log Service における一般的なデータ収集エラー」をご参照ください。
高度な診断
[LoongCollector/Logtail 例外モニタリング] ページで、[アクティブなクライアント] や [すべてのエラー情報] などの情報を表示します。[収集例外モニタリング] ダッシュボードの詳細については、「データレポートの表示」をご参照ください。エラーコードの詳細については、「Simple Log Service における一般的なデータ収集エラー」をご参照ください。
-
問題を解決した後、新しいエラーがないか確認します。過去のエラーは有効期限が切れるまで表示され続けますが、無視してかまいません。問題を修正した後に新しいエラーが発生しないことを確認してください。LoongCollector は 10 分間隔でエラーを報告します。
解析の失敗によりドロップされた全量ログを表示するには、LoongCollector の運用ログを確認できます。パスは次のとおりです:
ホストシナリオ:サーバー上の
/usr/local/ilogtail/loongcollector.LOGファイル内。コンテナシナリオ:コンテナの
/usr/local/ilogtail/loongcollector.LOGファイル内。
ランタイムモニタリング
SLS は、LoongCollector をリアルタイムでモニタリングするための組み込みのアラートポリシーを提供します。これらのポリシーを構成して、以下のモニタリング目的を達成できます:
-
LoongCollector のハートビート異常をモニタリング
検索条件
__topic__:logtail_statusを使用してinternal-diagnostic_logLogstore 内のログをクエリし、正常な LoongCollector ハートビートを持つマシンの数をカウントします。次に、ハートビート数が期待値を下回った場合にアラートをトリガーするアラートルールを構成します。これにより、停止しているマシンやネットワークに問題があるマシンのトラブルシューティングに役立ちます。 -
LoongCollector の収集例外に対するアラートを作成
__topic__: logtail_alarmクエリを実行して、過去 15 分間に発生したさまざまなタイプの例外の数を分析します。これらの例外には、読み取り不可能なファイル、不十分な権限、解析の失敗などが含まれます。これにより、設定の問題を迅速に特定して解決し、ログの損失を防ぐことができます。 -
パフォーマンスボトルネックの早期警告を受信
Logtail 例外モニタリングダッシュボードを使用して、CPU やメモリなどの Logtail のランタイムステータスとリソース使用量をモニタリングします。ダッシュボードには、アクティブな LoongCollector の数、再起動のリスト、および完全なエラー情報が表示されます。これにより、パフォーマンスボトルネックや異常な再起動を特定するのに役立ちます。
-
集中ログ収集をモニタリング
LoongCollector ファイル収集モニタリングダッシュボードを使用して、複数のアカウントまたはリージョンにわたるログ収集ステータスを一元管理します。ダッシュボードには、収集されたファイルの数、平均レイテンシー、解析失敗率などのメトリックが表示されます。これにより、収集の継続性を確保できます。
操作手順
-
アクションポリシーを構成して、アラートのステータスが変更されたときに通知を送信する方法を定義します。
-
SLS コンソールにログインします。
-
プロジェクトリストで、重要なログを有効にしたプロジェクトを見つけ、プロジェクト名をクリックします。
-
左側のナビゲーションウィンドウで、
[アラート] をクリックします。[アラートセンター] ページで、 を選択します。 -
アクションポリシーのリストで、
sls.app.logtail.builtinアクションポリシーを見つけ、[操作] 列の [変更] をクリックします。 -
[アクションポリシーの編集] ダイアログボックスで、ビジネス要件に基づいて通知チャネルを選択して構成します。詳細については、「通知メソッド」をご参照ください。その後、[OK] をクリックします。
-
-
アラートルールを作成して、LoongCollector のランタイムステータスがしきい値を満たしたときにアラートをトリガーする条件を指定します。
-
[アラートセンター] ページで、[アラートルール] をクリックし、その後、[アラートルールの作成] の横にある
[アイコン] をクリックします。 -
[テンプレートから作成] をクリックします。[テンプレートから作成] パネルの [すべてのテンプレート] で、[Logtail エラーモニタリング] をクリックします。次に、右側に表示されるパネルで、作成したいルールのカードをクリックします。
-
[アラートルールの作成] パネルで、構成を確認します。組み込みのアラートモニタリングルールには、パラメーターがプリセットされています。[OK] をクリックします。構成パラメーターの詳細については、「アラートルールの作成」をご参照ください。
-