LoongCollector の実行ステータスの診断とモニタリング - SLS - Simple Log Service

Simple Log Service (SLS) は、正規表現の解析の失敗、不正なファイルパス、シャード容量を超えるトラフィックなどの収集エラーを特定する診断機能を提供します。また、組み込みのアラートルールを使用してコレクターをリアルタイムでモニタリングし、DingTalk や他のチャネルを通じて通知を受信することもできます。

前提条件

ログを収集するようにコレクターが設定されている必要があります。詳細については、「ホストからテキストログを収集する」をご参照ください。
送信先プロジェクトの重要ログを有効にする
必要なサービスログを有効にします。詳細については、「サービスログの有効化」をご参照ください。
1. Simple Log Service コンソールにログインします。プロジェクトリストで、目的のプロジェクトをクリックします。プロジェクト詳細ページで、サービスログ タブをクリックし、操作ログを有効にする をクリックします。
2. 「詳細ログの有効化」パネルで、重要ログとジョブ実行ログを選択し、OKをクリックします。
  - 送信先リージョンに log-service-{user-id}-{region} という名前のプロジェクトが自動的に作成されます。
  - 重要ログとジョブ操作ログの取り込み、ストレージ、クエリ、分析は無料です。データ変換とデータ転送は、従量課金で請求されます。

実行時の問題の診断

2 つの診断モードを利用できます。

高度な診断 (推奨)：コレクター関連の例外を含む例外ダッシュボードを表示し、より長い期間のクエリをサポートします。
基本的な診断：過去 1 時間以内の収集例外を表示します。

ユースケース

コレクターの異常なステータス：ハートビートの失敗、非アクティブなプロセス、または SSL 証明書のエラー。
ログ収集の失敗：ログが収集されない、高レイテンシー、または正規表現の不一致などの解析エラー。
設定エラー：不正なファイルパス、マシングループ IP の不一致、またはクロスアカウントの権限の問題。
パフォーマンスボトルネック：収集レートがデフォルトの上限 (20 MB/s) に近いかそれを超え、ログのドロップを引き起こします。
コンテナログ収集の問題：頻繁な Pod の再起動や急速なログローテーションにより、収集が不完全になります。
プラグインとカスタム収集の問題：カスタムプラグインの失敗 (例： Grok 解析) や HTTP データソースの収集エラー。
データ信頼性の問題：非アクティブな LoongCollector または過度に速いログローテーションによるログ損失。

手順

Simple Log Service コンソールにログインします。プロジェクトリストで、送信先のプロジェクトをクリックします。
[ログストレージ] をクリックします。 Logstore リストで、対象の Logstore にカーソルを合わせ、アイコンをクリックします。
診断 (Advanced Edition) または 診断 (Basic Edition) をクリックして診断情報を表示します。
診断結果の表示

基本的な診断

（ログ収集エラー） パネルには、LogStore のすべての LoongCollector 収集エラーが一覧表示されます。エラーコードをクリックすると、詳細が表示されます。一般的なデータ収集エラー。

高度な診断

[LoongCollector/Logtail 例外モニタリング] ページには、[アクティブな収集エージェント数] や [完全なエラー情報] などのメトリックが表示されます。ダッシュボードの詳細については、「データレポートの表示」をご参照ください。エラーコードについては、「一般的なデータ収集エラー」をご参照ください。
問題を解決した後、新しいエラーがないか確認します。過去のエラーは期限切れになるまで表示され続けます。これらは無視し、新しいエラーが表示されないことを確認してください。 LoongCollector は 10 分ごとにエラーを報告します。

解析の失敗によってドロップされた完全なログを表示するには、LoongCollector の実行時ログを確認してください。

ホスト: サーバー上の /usr/local/ilogtail/loongcollector.LOG ファイル。

コンテナ: コンテナ内の /usr/local/ilogtail/loongcollector.LOG ファイル

実行ステータスのモニタリング

SLS は、コレクターをリアルタイムでモニタリングするための組み込みアラートポリシーを提供しています。

コレクターのハートビートのモニタリング

internal-diagnostic_log LogStore で __topic__:logtail_status のログをクエリして正常なハートビートのマシン数をカウントし、ハートビート数が期待値を下回ったときにトリガーされるアラートルールを設定することで、ダウンしている、またはネットワークに問題があるマシンを特定します。
収集例外のアラート設定

__topic__: logtail_alarm クエリを実行して、15 分以内の例外 (読み取り不能なファイル、権限の不足、解析の失敗など) を分析します。これにより、設定の問題を特定して修正し、ログの欠落を防ぐことができます。
パフォーマンスボトルネックに関する警告の受信

LoongCollector/Logtail 例外モニタリングダッシュボードを使用して、アクティブな LoongCollector の数、再起動履歴、エラーメッセージを表示します。実行ステータスとリソース使用量 (CPU、メモリ) をモニタリングして、パフォーマンスボトルネックや異常な再起動を特定します。
集中ログ収集のモニタリング

LoongCollector ファイル収集モニタリングダッシュボードを使用して、収集されたファイル数、平均レイテンシー、解析失敗率を追跡します。マルチアカウントまたはマルチリージョンのシナリオ全体でログ収集ステータスを一元管理します。

手順

アクションポリシーを設定して、アラートステータスが変更されたときに通知を送信する方法を定義します。
1. Simple Log Service コンソールにログインします。
2. プロジェクトリストで、重要ログを有効にしたプロジェクトをクリックします。
3. 左側のナビゲーションペインで、[アラート] をクリックします。アラートセンター ページで、[通知管理] > アクションポリシー を選択します。
4. アクションポリシーリストで、sls.app.logtail.builtin アクションポリシーを見つけ、アクション 列の変更をクリックします。
5. [アクションポリシーの編集] ダイアログボックスで、必要に応じて通知チャネルを選択して設定します。通知チャネル。次に、確認をクリックします。
LoongCollector の実行ステータスが指定のしきい値を満たした場合にトリガーされるアラートルールを作成します。
1. アラートセンター ページで、アラートルール タブをクリックし、アラートの作成 の横にあるアイコンをクリックします。
2. [テンプレートから作成] をクリックします。 [テンプレートから作成] パネルで、「すべてのテンプレート」の下にある [Logtail 障害モニター] をクリックし、対象のカードをクリックします。
3. アラートの作成 パネルで、設定を確認します。組み込みのアラートルールにはプリセットパラメーターが含まれています。 OK をクリックします。アラートルールを作成する。

前提条件

実行時の問題の診断

基本的な診断

高度な診断

実行ステータスのモニタリング