Simple Log Service データコレクターを使用してログを収集する際に、正規表現の解析失敗、ファイルパスの誤り、シャードの処理能力を超えるトラフィックなどの問題が発生することがあります。Simple Log Service は、収集エラーを特定するのに役立つ診断機能を提供します。データコレクターをリアルタイムでモニタリングするために、組み込みのアラートルールを使用して、DingTalk などのチャネルを通じて通知を受け取ることができます。
前提条件
Simple Log Service データコレクターを使用してログを収集済みであること。詳細については、「ホストからのログ収集」をご参照ください。
ランタイムの問題の診断
ランタイム診断は、プレミアム版と基本版で利用できます:
プレミアム診断 (推奨):例外診断ダッシュボードを提供します。ダッシュボードには、データコレクター関連の例外が明確に表示され、より長い時間範囲でのクエリをサポートします。
基本診断:過去 1 時間の収集例外情報を提供します。
シナリオ
データコレクターのステータス異常:ハートビートの失敗、非アクティブなプロセス、または SSL 証明書の例外。
ログ収集の例外:ログが収集されない、レイテンシーが高すぎる、または Regex Match エラーなどの解析の失敗。
設定エラー:ファイルパスの誤り、マシングループの IP アドレスの不一致、またはクロスアカウント権限の問題。
パフォーマンスボトルネック:収集レートが 20 MB/s などのデフォルトの制限に近づくか超えると、ログが破棄されます。
コンテナーログ収集の問題:頻繁な Pod の再起動や高速なログローテーションにより、収集が不完全になる。
プラグインとカスタム収集の問題:Grok 解析などのカスタムプラグインの失敗、または HTTP データソース収集の問題。
ログ損失は、LoongCollector が実行されていない場合やログローテーションの速度が速すぎる場合に発生する可能性のあるデータ信頼性の問題です。
手順
Simple Log Service コンソールにログインします。プロジェクトリストで、対象のプロジェクトをクリックします。
[ログストレージ] をクリックします。Logstore リストで、対象の Logstore にカーソルを合わせ、
アイコンをクリックします。[プレミアム診断] または [基本診断] をクリックして、診断情報を表示します。
診断情報を表示します。
基本診断
[ログ収集エラー] パネルには、Logstore のすべての Logtail 収集エラーのリストが表示されます。エラーコードをクリックすると、その詳細を表示できます。詳細については、「Simple Log Service における一般的なデータ収集エラー」をご参照ください。
プレミアム診断
[Logtail 例外モニタリング] ページで、[アクティブなクライアント] や [すべてのエラー情報] などの情報を表示します。[収集例外モニタリング] ダッシュボードの詳細については、「データレポートの表示」をご参照ください。エラーコードの詳細については、「Simple Log Service における一般的なデータ収集エラー」をご参照ください。
問題を解決した後、新しいエラーがないか確認します。履歴エラーは有効期限が切れるまで表示されるため、無視できます。問題を解決した後に新しいエラーが表示されないことを確認してください。Logtail は 10 分間隔でエラーメッセージを報告します。
解析に失敗して破棄された完全なログを表示するには、次のパスにある LoongCollector 操作ログをご参照ください:
ホストシナリオ:サーバー上の
/usr/local/ilogtail/ilogtail.LOGファイル。コンテナーシナリオ:コンテナー内の
/usr/local/ilogtail/loongcollector.LOGファイル。
ヘルスモニタリング
Simple Log Service は、データコレクターをリアルタイムでモニタリングするための組み込みのアラートポリシーを提供します。これらのポリシーを設定して、次のモニタリングニーズに対応できます:
データコレクターのハートビート異常のモニタリング
internal-diagnostic_log内の__topic__:logtail_statusログをクエリして、正常な Logtail ハートビートを持つマシンの数をカウントします。その後、ハートビート数が期待値を下回った場合にアラートをトリガーするアラートルールを設定できます。これにより、ダウンしているマシンやネットワークに問題があるマシンのトラブルシューティングに役立ちます。データコレクターの異常アラート
__topic__: logtail_alarmクエリ文を実行して、過去 15 分間に発生した読み取り不可能なファイル、権限不足、解析の失敗など、さまざまな種類のエラーの数を分析します。これにより、設定の問題を迅速に特定して解決し、ログ損失を防ぐことができます。パフォーマンスボトルネックのモニタリング
[Logtail 例外モニタリング] ダッシュボードを使用して、CPU やメモリなどの Logtail のランタイムステータスとリソース使用量をモニタリングします。ダッシュボードには、アクティブな Logtail クライアントの数、再起動のリスト、およびすべてのエラーメッセージが表示されます。これにより、パフォーマンスボトルネックや異常な再起動を特定するのに役立ちます。
集中ログ収集のモニタリング
[Logtail ファイル収集モニタリング] ダッシュボードを使用して、マルチアカウントまたはマルチリージョンシナリオでのログ収集ステータスをモニタリングします。ダッシュボードには、収集されたファイルの数、平均レイテンシー、および解析失敗率が表示されます。これにより、ログ収集の継続性を確保できます。
手順
アクションポリシーを設定します。アクションポリシーは、モニタリングアラートのステータスが変化したときに通知を送信する方法を定義します。
Simple Log Service コンソールにログインします。
プロジェクトリストで、重要ログを有効にしたプロジェクトを見つけ、プロジェクト名をクリックします。
左側のナビゲーションウィンドウで、
[アラート] をクリックします。[アラートセンター] ページで、 タブを選択します。アクションポリシーリストで、
sls.app.logtail.builtinアクションポリシーを見つけ、[操作] 列の [変更] をクリックします。[アクションポリシーの編集] ダイアログボックスで、チャネルを選択し、「通知チャネル」の説明に従って設定します。その後、[確認] をクリックします。
アラートルールの作成:LoongCollector のヘルスステータスが指定されたしきい値に達したときにアラートをトリガーするモニタリングルールを作成します。
[アラートセンター] ページで [アラートルール] をクリックし、[アラートの作成] の右側にある
アイコンをクリックします。[テンプレートから作成] をクリックします。[テンプレートから作成] パネルで、すべてのテンプレートにある [Logtail エラーモニタリング] をクリックします。右側のパネルで、対象のカードをクリックします。
[アラートの作成] パネルで、設定を確認します。組み込みのアラートモニタリングルールには、プリセットされたパラメーターが含まれています。[OK] をクリックします。設定パラメーターの詳細については、「アラートルールの作成」をご参照ください。